绿茶通用站群绿茶通用站群

中国 首 个Sora级视频大模型Vidu发布 生数科技与清 华联合推出

中国 首 个Sora级视频大模型Vidu发布 生数科技与清 华联合推出

4月27日,在中关 村论坛未来人工智能先锋论坛上(shàng),生数科技联合清华(huá)大学正式发布中国首个(gè)长时长、高一致(zhì)性、高动态性视(shì)频大模型——Vidu。该模型采用团(tuán)队原创的(de)Diffusion与 Transformer融(róng)合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清(qīng)视频内容(róng)。Vidu不仅能(néng)够模拟真实物理(lǐ)世界,还(hái)拥有丰富想象力,具备多镜头生成(chéng)、时空一致性高等特点。Vidu是自Sora发布之后(hòu)全球率先取得(dé)重(zhòng)大突破的视频大模(mó)型,性能全面对标(biāo)国际顶尖水平,并在加速迭代提升(shēng)中。

与Sora一致,Vidu能够根据提供的文本(běn)描述直接生成长达16秒的高质量视频。除了在时长方面的突破外,Vidu在(zài)视频效果(guǒ)方面实现显著提(tí)升,主要体现在几个方(fāng)面(miàn):第一、模拟真(zhēn)实物理世(shì)界:能够生成细节复杂的场景,且符合真实的物理规律,例如合理的光影(yǐng)效果、细腻的人物表情等;第二、具有 丰富想象力:能(néng)够 生成真实(shí)世界不存(cún)在的虚(xū)构画面,创造出(chū)具(jù)有深度和复杂性的(de)超现实主义内(nèi)容;第三、多镜头(tóu)语言(yán):能够生成复杂的动态镜(jìng)头,不再局限于简单的推、拉、移等固定镜(jìng)头,而是能(néng)够(gòu)围绕统 一主体在一段画面里就(jiù)实现远景(jǐng)、近景、中景、特写等不同镜头的切换,包括能直接生成(chéng)长镜头、追焦、转场等效果,给视频注入镜(jìng)头语言;第四、时空一致性高:在(zài)16秒(miǎo)的时长上保持连贯流畅,随着镜头(tóu)的移动,人物和场景在时间、空间中(zhōng)能够保持一致;第五、理解中国元素:能够(gòu)生成(chéng)特有的中国元素,例如熊(xióng)猫、龙(lóng)等。

值(zhí)得(dé)一提(tí)的是,短片中的片段都是生活的英语作文从头(tóu)到尾(wěi)连续(xù)生成,没有明显的插帧现(xiàn)象,从(cóng)这种“一镜到(dào)底”的表现能够推测出,Vidu采 用的(de)是“一步到位(wèi)”的(de)生成方式,与Sora一样,文本到视(shì)频的转换是(shì)直接(jiē)且连续的,在底层算法(fǎ)实现上是(shì)基于单一模型完全端到端生成,不(bù)涉及中间的插(chā)帧和(hé)其他多(duō)步(bù)骤的处理。 

Vidu的快速突(tū)破源自于(yú)团队在贝叶斯机器(qì)学习和多模(mó)态大模(mó)型的长期积累和 多(duō)项原创性成果。其核心技术(shù)U-ViT架 构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。

2023年3月,团(tuán)队开源全球首个基于U-ViT架构的多模态扩(kuò)散(sàn)大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模 图文数据集LAION-5B上训练(liàn)出的(de)近(jìn)10亿参数量(liàng)模(mó)型,支持图(tú)文模态间的任意生(shēng)成和(hé)转换。在架构上,UniDiffuser比同样DiT架构 的Stable Diffusion 3领先了一年。

自(zì)今(jīn)年2月Sora发布推出后,团队基于对U-ViT架构(g生活的英语作文òu)的深入理解以及长(zhǎng)期积(jī)累的工程与数据经验,在短短两个月(yuè)进一(yī)步(bù)突破长(zhǎng)视频表示与处理关键技术,研发推出Vidu视频大模型,显(xiǎn)著提升视频的连贯性与动态性(xìng)。

从图文任务的统一到融合视频能力,作为通用视觉模(mó)型(xíng),Vidu能够支(zhī)持生成(chéng)更加多样化、更长(zhǎng)时长的视频内容(róng),同时(shí)面(miàn)向未来,灵活架构也将(jiāng)能够兼容(róng)更广泛的模态 ,进一步拓展(zhǎn)多模态通用能力的边界。

Vidu的问世,不(bù)仅是U-ViT融合(hé)架构在大规模视(shì)觉任务中的(de)又一次成功验证,也代表了生数科技(jì)在多模态原生(shēng)大模型领域 的持续创新能力和领先性。同时生数科技表示,大模型的突破是一个多维度、跨领域的综合性过程,需要技(jì)术与(yǔ)产业应用的深度融合。生数科技(jì)正式推(tuī)出“Vidu大模型合作伙伴计 划”,希望产业链(liàn)上下游企(qǐ)业(yè)、研究机构能一起加入,共同构建合作生态。

校对:廖(liào)胜超

未经允许不得转载:绿茶通用站群 生活的英语作文

评论

5+2=