文生视频模型Sora刷屏：高度理解视频中的语义成为至胜关键

作者：Datatang 发布时间：2024-02-23

OpenAI文生视频模型Sora的横空出世，即刻引起业内广泛的关注和讨论。A股AI板块各股掀起了涨停潮，AIGC概念、Web3.0等板块涨幅居前。Sora相关新闻快速登上了新闻头条，央视也针对Sora进行了报道。

01 Sora的创新表现

继文本、图像之后，OpenAI在视频领域进行了又一技术拓展。其推出的全新人工智能模型Sora通过文本指令，即可直接输出长达60秒的视频内容，背景逼真，细节还原，转场细致，角度惊艳，画面逼真到难以区分虚拟还是现实。

同样的提示词，与放在其他视频生成模型中并将输出画面进行详细的对比，无论是色彩饱和度、镜头运动轨迹、细节真实度还是文本语义还原等多个方面，Sora可谓完胜。

以下是通过Sora生成中国舞龙的视频，同样与别家大模型进行了细致的对比，各个方面Sora的效果堪称完美。同样，Sora模拟的绘画动作、生成的倒映真实感、在零拍摄情况下剪辑的赛博朋克画面等效果超常。

这些高难度视频展示了Sora在模拟物理世界中的人、动物和环境等多个方面的有趣能力。目前OpenAI官网上已经更新了数十个视频demo，Sora可以根据任意提示、静止图像等完成缺失帧的视频生成。

02 Sora的技术原理

在发布Sora这一新技术的同时，OpenAI也将其详细的技术报告一并发布。转场连贯性、拓展生成视频、模拟物理世界运动等等这样一系列超强技术功能，究竟是通过怎样的原理实现的呢？

类似于LLM中token的概念，即将文本的多种模态统一起来的训练能力，是Sora很大的灵感来源。OpenAI将视频压缩到低维潜在空间中（Video Compression Network），然后将其分解为spacetime patches，即模型从中学习视频的内容和结构，并处理各种视频任务，使得长度更长、分辨率不同、长宽比不等的图像或视频都能输出更好连续性表现能力的视频内容。

同样结合ChatGPT的Transformer架构在各个领域表现的卓越缩放特性，Sora实质也是一个扩散Transformer。通过给定的“noisy”patches或者问题提示等，被训练预测原始的“clean”patches。通过这样的方式，模型能够从文本或者图像视频出发，逐渐推理并生成新的视频内容。

Sora是怎样完成语义理解的呢？OpenAI将DALL·E 3中的re-captioning技术应用于视频。具体来说，就是先要训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的视频制作文本字幕。OpenAI表示，通过这样的视频字幕生成方式进行训练，可以有效提高文本的保真度及视频的整体质量。

纵览这份技术报告，Sora更像是一款OpenAI的技术集合模型，使用了很多ChatGPT、DALL·E 3以及之前研究积累的技术经验，各方合力促成了Sora如此强大的视频技术能力。

03 文生视频模型背后的数据

大量的高质量视频训练数据集是让输入的文字和生成的内容更加匹配的关键。Sora模型的语义理解和物理属性学习的能力都是通过深度学习和大规模的训练数据结合而来的。也就是说，准确、生动的视频内容，建立于高度理解这些视频数据中所涵盖的场景、情境、运动规律、人类活动特征等语义内容。

通过Sora技术原理可以发现，高质量、大规模、描述精细且充分的视频描述数据成为了模型学习至关重要的一环。数据堂自有大规模、高质量人体行为&通用场景视频描述成品数据集近百万段，内容涵盖广泛，以下例举数据堂近期上线的视频文本描述数据集！

10万组人体行为视频描述数据

数据规模为10万段视频及文本描述，涵盖不同年龄段、不同光照、不同采集环境、不同季节服饰、多人种以及多种人体行为等多样性采集内容。文本描述囊括性别、年龄、衣着、行为描述、多种肢体动作等多个层面，正确标注的图像占比不低于97%。针对视频内容，采取简述和详细说明两种标注方式，在完成视频整体内容的简单描述后，针对视频中内容变化部分进行时间起始标定，并分别描述每段时间范围内的子视频详细内容。准确率不低于98%。