资讯
2024-02-20 09:31 来源:shouyoubus.com 作者:佚名
用手机看
为了方便理解,我们简单总结了这个模型的强大之处:
1、文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。
2、复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。
3、语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。
4、多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
5、从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。
6、物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。
可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,重新定义着我们与数字世界的互动。
01
以下为OpenAI文生视频模型Sora官方技术报告
我们探索了利用视频数据对生成模型进行大规模训练。具体来说,我们在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型。我们引入了一种transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。我们最顶尖的模型Sora已经能够生成最长一分钟的高保真视频,这标志着我们在视频生成领域取得了重大突破。我们的研究结果表明,通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。
这份技术报告主要聚焦于两大方面:首先,我们详细介绍了一种将各类可视数据转化为统一表示的方法,从而实现了对生成式模型的大规模训练;其次,我们对Sora的能力及其局限性进行了深入的定性评估。需要注意的是,本报告并未涉及模型的具体技术细节。
在过去的研究中,许多团队已经尝试使用递归网络、生成对抗网络、自回归Transformer和扩散模型等各种方法,对视频数据的生成式建模进行了深入研究。然而,这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定大小的视频上。相比之下,Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。
将可视数据转换成数据包(patchs)
在可视数据的处理上,我们借鉴了大语言模型的成功经验。这些模型通过对互联网规模的数据进行训练,获得了强大的通用能力。同样,我们考虑如何将这种优势引入到可视数据的生成式模型中。大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。我们发现,对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。
图注:OpenAI专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间
在更高层次上,我们首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。
视频压缩网络
我们专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,我们还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。
时空包
当给定一个压缩后的输入视频时,我们会从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,我们只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。
用于视频生成的缩放Transformers
Sora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。
图注:随着训练量的增加,扩散转换器生成的样本质量有了明显提高
在这项工作中,我们发现扩散转换器在视频生成领域同样具有巨大的潜力。我们展示了不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。
丰富的持续时间、分辨率与纵横比
过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。
以上就是手游巴士为您提供《openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]》的详细内容,更多精彩内容请继续阅读上一篇《灵魂序章死亡蛛皇搭配 3种神级魂灵搭配方案[多图]》2024-02-20 M4A1-雷霆王者跳跃能力与王者之戮齐平 CF手游生化战场表现如何呢?
2024-02-20 我的世界雾中人模组下载教程 雾中人mod下载教程及怪物图鉴一览[多图]
2024-02-20 sora是什么软件? sora软件概念意思介绍[多图]
2024-02-20 OpenAI文生视频模型Sora怎么用?OpenAI Sora使用教程分享[多图]
2024-02-20 CF手游练兵场内狙击战斗 狙击枪使用什么技巧?
2024-02-20 王者之兽手雷 CF手游破敌势如涛江水和理论伤害83保持一致
2024-02-20 在古代以下哪类打工人才有假期?淘宝大赢家每日一猜2.20答案[多图]
2024-02-20 古龙风云录朱八的宝藏迷题答案分享 朱八的宝藏谜题答案解析一览[多图]
2024-02-20 openai sora软件下载入口 openai sora模型体验地址入口分享[多图]
2024-02-20 openai sora怎么安装 openai sora软件安装流程[多图]
2024-02-20 灵魂序章死亡蛛皇搭配 3种神级魂灵搭配方案[多图]
2024-02-20 openai视频生成模型sora爆火 OpenAI王炸模型官方技术报告解读[多图]
2024-02-19 蝉的魅力,CF手游实用属性排位上分的不二之选
2024-02-19 文生视频模型sora怎么用?文生视频模型Sora官网地址[多图]
2024-02-19 逆水寒手游非你莫属任务攻略 华章任务非你莫属图文流程[多图]
2024-02-19 寻道大千兑换码65800仙玉 最新仙玉兑换码大全[多图]
2024-02-19 金铲铲之战希维尔主C怎么玩 拼多多希维尔阵容攻略[多图]
2024-02-19 王者荣耀灵宝集市串门码大全 灵宝集市串门码最新分享[多图]
2024-02-19 古龙风云录加点攻略 全队友加点推荐[多图]
2024-02-19 王者荣耀大司命技能介绍攻略 大司命技能是什么?[多图]
2024-02-19 《最终幻想7:重生》太阳海岸 神罗公馆等地点介绍
2024-02-19 古龙风云录古先生彩蛋问题答案大全 古先生彩蛋题库答案分享[多图]
2024-02-19 梦幻西游灯谜老人答题器2024答案大全 元宵灯谜老人答题答案最新分享[多图]
2024-02-19 梦幻西游灯谜老人位置2024 元宵节猜灯谜活动答案大全[多图]
2024-02-19 瑰丽夺目《第五人格》情人节限时 舞女稀世时装礼包上线
手游巴士
手游巴士