绿茶通用站群绿茶通用站群

中国版Sora来了!清华打造!背后创业公司已融资数亿元

中国版Sora来了!清华打造!背后创业公司已融资数亿元

时隔两个(gè)月,清华(huá)团队(duì)打造了一个中国版的Sora视(shì)频大(dà)模型。

4月27日,在中(zhōng)关村论坛未来人工智(zhì)能先锋(fēng)论坛上,中国首个长(zhǎng)时长、高一(yī)致性、高(gāo)动(dòng)态性视频大模型Vidu正式发(fā)布。这一模(mó)型由清华大学和大模型 创业(yè)公司生数科技联合发布,可以一键生成长度达16秒、分辨率为1080P的高清视(shì)频内容。

证券时报记者独家获悉,清华大学人工(gōng)智能研究院副院长、生数科技首席科学家朱军在Vidu发布后发声表示:“Vidu,we do, we did, we do together!感谢小伙伴们日以继夜(yè)的坚持,在实验室架(jià)构上(shàng)开花结果(guǒ)。”据(jù)介绍(shào),这也是自OpenAI发布Sora以后,全球率先取得重大突破的视频大模(mó)型。

Sora发布后,行业内一直有团队宣称要追赶和复现(xiàn)Sora,而Vidu团队用两(liǎng)个月的时间率(lǜ)先跑出(chū)来。记者梳理发现,生数科技(jì)在多模态(tài)大模型领域(yù)已(yǐ)经有(yǒu)较深的积累,也是目前多模态大模型赛道估值最高的初创公(gōng)司之一。目前公司已完成三轮融资,融资额达数亿(yì)元人民币,投(tóu)资(zī)方包 括启(qǐ)明创投(tóu)、智谱AI、BV百(bǎi)度风投、锦秋基金等(děng)一众机构。

对标(biāo)Sora,生成(chéng)视频连贯高清

“画室里(lǐ)的一艘船驶向镜头”,只需要输(shū)入这样一句(jù)简单的指令,即可以生(shēng)成效果逼真、镜头连贯的一段视(shì)频。在(zài)生(shēng)数科技发布的Vidu模型生成视频样(yàng)片中,视(shì)频的整体质感(gǎn)几(jǐ)乎可与Sora相媲美(měi)。

据生(shēng)数科技介(jiè)绍,Vidu模型采用团(tuán)队原(yuán)创的Diffusion与Transformer融合的架(jià)构U-ViT,支持一键生(shēng)成长达16秒(miǎo)、分辨(biàn)率高达1080P的高清(qīng)视频内容。“U-ViT架构早在2022年9月就由团(tuán)队提出,早于Sora采用的DiT架构,是全(quán)球首个Diffusion与Transformer融合的架构。”生数(shù)科技(jì)表示。

记者注意到,今(jīn)年(nián)3月生数科技完(wán)成(chéng)新一轮融资后,公司(sī)就公开表示,虽然Sora的出现表(biǎo)明美国在多模态大模型领域具有领先性,“但 中国也(yě)并非完全从零开始的(de)阶段”。据介(jiè)绍(shào),朱(zhū)军在2023年1月就提出了基(jī)于Transformer的多模态扩散大模型UniDiffuser,采用了U-ViT,该架构与Sora的(de)架构路线(xiàn)完全一致,区别在于(yú)UniDiffuser主要应用于图像生(shēng)成任务,但也可以(yǐ)以(yǐ)此为(wèi)基础进(jìn)行视(shì)频(pín)任务的拓展。

正(zhèng)是基于在机 器学习和多模态(tài)大模型的长(zhǎng)期积累,团队才能够在短(duǎn)短的两个月时间里突(tū)破了长(zhǎng)视频表示与处理的多项关键技术,成功研(yán)发(fā)推出Vidu视频大模型(xíng)。朱军在Vidu模型发布现场表(biǎo)示,Vidu主要有 以下方(fāng)面的特点与优势:

一是模拟真实物(wù)理世界,可以生成复杂、细节(jié)丰富的场景,光影效果与人物表情都能(néng)够符合真实的物理规律。

二是富有想象力,可以 虚构场景以及(jí)想象(xiàng)超现实主义的画面。

三是具有多镜头语言,不再局限(xiàn)于固定镜头,能够在遵循主体一致性的情况下实现远景、近景、中景、特(tè)写(xiě)等不同镜(jìng)头的动(dòng)态切换,还可以实现长镜(jìng)头、追焦等效果。

四是有出色的视频时长,能支 持16秒长度的视频生成,保(bǎo)持镜头和(hé)主体的连贯一致。

五是能理解中国元素,可以更好地理解生成熊猫、龙等富有中国文(wén)化特色的形象(xiàng)。

Vidu生成的龙、熊猫等中国文化元(yuán)素视频

背后团队来自清华,已融资数 亿(yì)元

Vidu的背后,是一家来自清(qīng)华的明(míng)星创业公司生数科技。

公开资料显示,生数科技成(chéng)立(lì)于2023年3月,核心成员来自清(qīng)华大学人工智能研究院(yuàn),致力于自主研(yán)发世(shì)界领先的可控多模(mó)态通用大模型(xíng)。公司的CEO本硕(shuò)就读于清(qīng)华大学计(jì)算机系的唐家渝,首席科学家由清华人工智能(néng)研究院副院(yuàn)长朱军担任,CTO鲍凡则是清 华大(dà)学计算(suàn)机系博士生、朱军教(jiào)授的课题组成员,长期关(guān)注扩散(sàn)模型领域研究。

记者注意到(dào),今年3月,唐家(jiā)渝曾在沟通会上(shàng)向媒体表示,今年内(nèi)公(gōng)司的 大模型一定能达到Sora目前版本(běn)的效果(guǒ),“但很难说是三个(gè)月还是半年”。然而,Vidu却提前交出了一(yī)份(fèn)令人惊艳的考卷 ,这主要(yào)得益于团队是国内最早 布局多模态大模型的团队之一,多年以来在这一领域(yù)形成了深厚的积累。

据唐家(jiā)渝(yú)介(jiè)绍,生数科技目前(qián)采取模型(xíng)层和应用层两(liǎng)条路(lù)走路(lù)的模式。一方面,构(gòu)建覆盖文本(běn)、图像、视频、3D 模型等多模态(tài)能力的底层(céng)通(tōng)用(yòng)大模型,面向B端(duān)提供模型服务能力(lì);另一方面,面向(xiàng)图像生成、视频生成等场景打造垂类(lèi)应用,按照订阅等形式收费(fèi),应用方(fāng)向 主要是游戏制作、影视后期(qī)等内容 创(chuàng)作(zuò)场景。

记者梳理发现,生数科技自成立(lì)以来就备受资本关注。天眼查数据显示,生(shēng)数科技目前共完成3轮融资。2023年6月,完成近亿元人民币天使轮融 资,投资方包(bāo)括蚂蚁集团、BV百度风投、卓源亚洲(zhōu)、卓(zhuó)源(yuán)资本(běn);2023年8月(yuè),完成数千万人(rén)民币天使+轮融(róng)资,投资(zī)方(fāng)为锦秋基 金;2024年3月,完成(chéng)数亿(yì)元人民币A轮融资(zī),投(tóu)资方除了启明创(chuàng)投、达泰资本、智谱AI等新机构以(yǐ)外,还有BV百度风投、卓源亚洲两个老股东。

在三轮融资总计数亿元(yuán)人民币的(de)资(zī)本(běn)加持下,生数科技已成为目前(qián)国(guó)内多(duō)模态大模型中估值最高(gāo)的初创(chuàng)公司之一。生数科(kē)技(jì)表示,Vidu的问世不仅是U-ViT融合架构在大规模视觉任务 中的又一(yī)次成功验证,也 代(dài)表了生数(shù)科技在(zài)多模态原生大模型领域的(de)持续创(chuàng)新能力和领先性。

责编:朱雨蒙

校对:冉燕(yàn)青


时(shí)隔两个月,清华团队(duì)打造 了一个中国版的Sora视频大模型。

4月27日,在中关村论(lùn)坛未(wèi)来人工智能先锋论坛上,中国首(shǒu)个 长时 长、高一致性(xìng)、高动态性视频大模型Vidu正式发(fā)布(bù)。这一模 型由清华大学和大(dà)模型创业公司生 数科技联合发布,可以一键生成(chéng)长度达(dá)16秒、分辨率为1080P的高清(qīng)视频内容。

证券时报记者独家获悉,清华大学人工智能(néng)研究院副院长、生数科技首席科 学家朱军在Vidu发(fā)布后发声表示:“Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚持(chí),在实验(yàn)室架(jià)构上开花结果。”据介绍,这也是自(zì)OpenAI发布Sora以后,全球(qiú)率先取得重大突破的视(shì)频(pín)大模型。

Sora发布后,行业(yè)内一直有团队宣称要追赶和复现Sora,而Vidu团队用两个月的时间率先跑出(chū)来。记者梳理发现,生(shēng)数科技在(zài)多模(mó)态大模型领域(yù)已 经有较深的积累,也是目前多模态大模型赛道估值最高的初创公(gōng)司之一。目前公司已完成三(sān)轮融资,融资额达数(shù)亿元人民币,投资方包括启明创 投、智谱AI、BV百度风投、锦秋基金等一众机构。

对标Sora,生成视(shì)频连贯高(gāo)清

“画室里的(de)一艘船驶向镜头”,只需要输入这样一(yī)句(jù)简单的指令,即可以(yǐ)生(shēng)成效果逼真、镜头连贯的一段视频。在生数科技发布的Vidu模型生成视 频样片中,视频(pín)的整体(tǐ)质感(gǎn)几乎可与Sora相媲(pì)美。

据生数科技介绍,Vidu模型采用团队原创(chuàng)的Diffusion与Transformer融合的架(jià)构U-ViT,支持一(yī)键生成长达16秒、分辨率高达1080P的高清视(shì)频内(nèi)容。“U-ViT架构早在2022年9月(yuè)就由 团队提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。”生数科技表(biǎo)示。

记者注意到,今(jīn)年3月生数科技完(wán)成新(xīn)一轮融资后,公司就公开表(biǎo)示,虽然(rán)Sora的出现(xiàn)表明美国在多模态(tài)大模型领域具(jù)有领先性,“但中国(guó)也并非完(wán)全从零(líng)开(kāi)始的阶段”。据介绍,朱军在2023年1月就提出(chū)了基于Transformer的多(duō)模态扩散大模型UniDiffuser,采用了U-ViT,该架构与Sora的架构路线完(wán)全一致,区别在于UniDiffuser主要应用于图像生成任务(wù),但也可以(yǐ)以(yǐ)此为基础进行视频任务的拓展。

正是基于在机(jī)器学习和多模态大(dà)模型(xíng)的长(zhǎng)期积累,团队才能够在短短的两个月时间里突破了长视频表示与处理(lǐ)的多项关键技术,成功研发推出(chū)Vidu视频大模型。朱(zhū)军在Vidu模型发布现场表示,Vidu主要有以下(xià)方面的特点与优势:

一(yī)是模拟真实物(wù)理世(shì)界,可以生成(chéng)复杂、细节丰富的场景,光影效果与人物表情都能够(gòu)符合真实的物理规律。

二(èr)是富有想象力(lì),可以虚构场景以(yǐ)及想象超现实(shí)主(zhǔ)义的画面。

三是具有多镜头语言,不再局限于固定镜头,能够在遵循主体一 致性(xìng)的情况下实现远景、近景、中景、特(tè)写等不同镜头的动态(tài)切换,还可以实现长镜头、追焦等(děng)效果。

四是有出色的(de)视频时(shí)长,能支持16秒长(zhǎng)度(dù)的视频生成(chéng),保持镜头 和主(zhǔ)体的连贯一(yī)致。

五是能理解中国元素,可以更好地理解生成熊(xióng)猫(māo)、龙等富(fù)有中国文化特色的形象。

Vidu生成的龙、熊猫等中国文化元(yuán)素视江铃汽车跌9.25%,机构净卖出5376.27万元,深股通净卖出5196.25万元

背后团队来自清华,已融(róng)资数亿元

Vidu的 背后,是一家来自清(qīng)华的明星创业公司生数科技。

公开资料显示,生数(shù)科技成立于2023年3月,核心成员来自清华大学人工智能研究院(yuàn),致力(lì)于(yú)自主研发世界领先的可控多模态通用大模型。公司的CEO本硕(shuò)就读于清华大学(xué)计算机系的唐家渝,首席(xí)科学家由清华人工(gōng)智能研究院副院(yuàn)长朱军担任,CTO鲍凡则是(shì)清华大学计算(suàn)机系博士(shì)生、朱军教授的课题组成员,长期关注扩散模型领域研究。

记者注意到,今年3月,唐家渝曾在沟通(tōng)会上向媒(méi)体(tǐ)表示,今年 内公司的大模型一定(dìng)能达到Sora目 前版本的效(xiào)果,“但很难说是(shì)三个月还是半年”。然而,Vidu却提前交出了一份令人惊艳的考卷,这主要得益于(yú)团(tuán)队是国内最(zuì)早布(bù)局多模态大模型的团队之一,多年以来在这一领域形(xíng)成了深厚的积累。

据唐家渝介绍,生数科技目前采取模型层和应用层两条路走路的(de)模(mó)式。一方面,构建覆盖文本、图像、视频、3D 模型等多模态能力的底(dǐ)层通用(yòng)大模型(xíng),面向B端提供模型服务能力;另一(yī)方(fāng)面,面(miàn)向图像(xiàng)生成、视(shì)频生成等场景打造垂类应用,按照订阅等形式收费,应用方向(xiàng)主要(yào)是游(yóu)戏制作、影视后期等内容创作场景。

记者梳理发现,生数科技自成立以来就备受(shòu)资本(běn)关注(zhù)。天(tiān)眼查数据显示(shì),生数科技目前共完成3轮融资。2023年6月,完(wán)成近亿元人民币天使轮融资,投资方包括蚂蚁集团、BV百度(dù)风投、卓源亚洲、卓源资本;2023年8月,完成数千万 人民币天使(shǐ)+轮融资,投资方(fāng)为锦秋基金;2024年3月,完成数亿元人民币A轮融资,投资方除了启(qǐ)明创(chuàng)投(tóu)、达泰资本、智谱AI等新机(jī)构(gòu)以外,还(hái)有BV百度(dù)风投 、卓源亚洲两个老股东。

在(zài)三轮融资总计数亿元(yuán)人民币的(de)资本加持下,生数科(kē)技已成为目前国内多模态大模型(xíng)中估值最高的初创公司之一。生数科技表示,Vidu的问世不(bù)仅是U-ViT融合架构在大规(guī)模视觉(jué)任(rèn)务中的又一(yī)次(cì)成功验证,也代表了生数科技(jì)在多模(mó)态原生大模型领域的持续(xù)创新能力和领先性。

责编:朱雨蒙(méng)

校对:冉燕青


2024证券时报“寻找创投‘金鹰’、发现企业‘新苗’”计划隆重启(qǐ)幕,点(diǎn)亮时代梦想、绽(zhàn)放时(shí)代光芒。

点击海报即可报名,速(sù)戳↓↓↓

版权声(shēng)明

证(zhèng)券时报(bào)各平台(tái)所有原(yuán)创(chuàng)内(nèi)容,未经书面授权,任(rèn)何单位及个人不得转载(zài)。我社保(bǎo)留追究 相关行为主体法律责(zé)任的权利。

转载与合(hé)作可联系证券时报小助理,微信ID:SecuritiesTimes

END

点击关键字可查看

潜望系(xì)列深度报道丨股事会(huì)专栏丨投资(zī)小(xiǎo)红书e公司调查丨(gǔn)时报会客厅十大(dà)明星(xīng)私募访谈丨百亿私募最新(xīn)持仓揭晓国(guó)常会重磅丨 重磅(bàng)!吴清带队调研,连开5场座谈会!丨(gǔn) 事关(guān)A股(gǔ)!财政部、税务总(zǒng)局发布!巨头锁定退市!从包工(gōng)队起家,年销(xiāo)售 额曾超2000亿元丨(gǔn)A股、港股爆发!“牛市旗手”大涨最新!央(yāng)行在《人民日报》发文超级并购!澳洲矿业巨头鲸吞英美(měi)资源集团(tuán),报价超2800亿又一(yī)A股锁定退市!女老(lǎo)板曾伙(huǒ)同私募,操纵交易800亿(yì)元,却倒亏(kuī)2.38亿

未经允许不得转载:绿茶通用站群 江铃汽车跌9.25%,机构净卖出5376.27万元,深股通净卖出5196.25万元

评论

5+2=