中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出

4月27日，在中关村论坛未来人工智能先锋论坛上(shàng)，生数科技联合清华(huá)大学正式发布中国首个(gè)长时长、高一致(zhì)性、高动态性视(shì)频大模型——Vidu。该模型采用团(tuán)队原创的(de)Diffusion与Transformer融(róng)合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清(qīng)视频内容(róng)。Vidu不仅能(néng)够模拟真实物理(lǐ)世界，还(hái)拥有丰富想象力，具备多镜头生成(chéng)、时空一致性高等特点。Vidu是自Sora发布之后(hòu)全球率先取得(dé)重(zhòng)大突破的视频大模(mó)型，性能全面对标(biāo)国际顶尖水平，并在加速迭代提升(shēng)中。

与Sora一致，Vidu能够根据提供的文本(běn)描述直接生成长达16秒的高质量视频。除了在时长方面的突破外，Vidu在(zài)视频效果(guǒ)方面实现显著提(tí)升，主要体现在几个方(fāng)面(miàn)：第一、模拟真(zhēn)实物理世(shì)界：能够生成细节复杂的场景，且符合真实的物理规律，例如合理的光影(yǐng)效果、细腻的人物表情等；第二、具有丰富想象力：能(néng)够生成真实(shí)世界不存(cún)在的虚(xū)构画面，创造出(chū)具(jù)有深度和复杂性的(de)超现实主义内(nèi)容；第三、多镜头(tóu)语言(yán)：能够生成复杂的动态镜(jìng)头，不再局限于简单的推、拉、移等固定镜(jìng)头，而是能(néng)够(gòu)围绕统一主体在一段画面里就(jiù)实现远景(jǐng)、近景、中景、特写等不同镜头的切换，包括能直接生成(chéng)长镜头、追焦、转场等效果，给视频注入镜(jìng)头语言；第四、时空一致性高：在(zài)16秒(miǎo)的时长上保持连贯流畅，随着镜头(tóu)的移动，人物和场景在时间、空间中(zhōng)能够保持一致；第五、理解中国元素：能够(gòu)生成(chéng)特有的中国元素，例如熊(xióng)猫、龙(lóng)等。

值(zhí)得(dé)一提(tí)的是，短片中的片段都是生活的英语作文从头(tóu)到尾(wěi)连续(xù)生成，没有明显的插帧现(xiàn)象，从(cóng)这种“一镜到(dào)底”的表现能够推测出，Vidu采用的(de)是“一步到位(wèi)”的(de)生成方式，与Sora一样，文本到视(shì)频的转换是(shì)直接(jiē)且连续的，在底层算法(fǎ)实现上是(shì)基于单一模型完全端到端生成，不(bù)涉及中间的插(chā)帧和(hé)其他多(duō)步(bù)骤的处理。

Vidu的快速突(tū)破源自于(yú)团队在贝叶斯机器(qì)学习和多模(mó)态大模(mó)型的长期积累和多(duō)项原创性成果。其核心技术(shù)U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

2023年3月，团(tuán)队开源全球首个基于U-ViT架构的多模态扩(kuò)散(sàn)大模型UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser是在大规模图文数据集LAION-5B上训练(liàn)出的(de)近(jìn)10亿参数量(liàng)模(mó)型，支持图(tú)文模态间的任意生(shēng)成和(hé)转换。在架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

自(zì)今(jīn)年2月Sora发布推出后，团队基于对U-ViT架构(g生活的英语作文òu)的深入理解以及长(zhǎng)期积(jī)累的工程与数据经验，在短短两个月(yuè)进一(yī)步(bù)突破长(zhǎng)视频表示与处理关键技术，研发推出Vidu视频大模型，显(xiǎn)著提升视频的连贯性与动态性(xìng)。

从图文任务的统一到融合视频能力，作为通用视觉模(mó)型(xíng)，Vidu能够支(zhī)持生成(chéng)更加多样化、更长(zhǎng)时长的视频内容(róng)，同时(shí)面(miàn)向未来，灵活架构也将(jiāng)能够兼容(róng)更广泛的模态，进一步拓展(zhǎn)多模态通用能力的边界。

Vidu的问世，不(bù)仅是U-ViT融合(hé)架构在大规模视(shì)觉任务中的(de)又一次成功验证，也代表了生数科技(jì)在多模态原生(shēng)大模型领域的持续创新能力和领先性。同时生数科技表示，大模型的突破是一个多维度、跨领域的综合性过程，需要技(jì)术与(yǔ)产业应用的深度融合。生数科技(jì)正式推(tuī)出“Vidu大模型合作伙伴计划”，希望产业链(liàn)上下游企(qǐ)业(yè)、研究机构能一起加入，共同构建合作生态。

校对：廖(liào)胜超

未经允许不得转载：绿茶通用站群生活的英语作文