您的位置:首页 > 教育

新大模型可根据文本生成高清视频

发布时间:2024-04-29 08:41:36 来源: 编辑: 浏览:
原标题:新大模型可根据文本生成高清视频

27日,在中关村论坛未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司(以下简称“生数科技”)正式发布中国首个原创全自研视频大模型――Vidu。论坛现场,清华大学教授、生数科技首席科学家朱军向与会者展示了Vidu生成的视频,包括行驶在崎岖道路上的汽车、戴珍珠耳环的猫、弹吉他的熊猫等。与此前震撼业界的Sora一样,Vidu能够根据文本描述直接生成高质量视频。

“长时长、高一致性、高动态性”是Vidu的显著特征。朱军表示,研发团队的核心技术在于采用U-ViT架构。它由Diffusion与Transformer两个模型融合而来,可支持一键生成长达16秒的高清视频内容。

除了在时长方面优势突出,Vidu在视频效果方面也实现显著提升。朱军介绍,Vidu能模拟真实物理世界,生成的视频不但场景细节复杂,而且符合物理规律,例如合理的光影效果、细腻的人物表情等。Vidu还具有丰富的想象力,能生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。此外,Vidu可理解多镜头语言,生成的视频不再局限于简单的推、拉、移等固定镜头,而是围绕同一主体实现远景、中景、近景、特写等不同镜头的切换,甚至能直接生成长镜头、追焦、转场等效果,给视频注入丰富的镜头表达。Vidu还独具文化特色,能很好理解中国元素,生成熊猫、龙等中国元素的视频。

值得一提的是,论坛上展示的视频都是从头到尾连续生成,没有明显的插帧现象。朱军说,与Sora一样,Vidu在文本到视频的转换过程中直接且连续,而且在底层算法上,是由单一模型完全端到端生成,不涉及插帧和其他多步骤处理。(记者何亮)

声明

  一、本站转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,内容为作者个人观点,本站只提供参考并不构成任何投资及应用建议。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容!

  二、标注《大视野新闻网》来源的文章,版权归本站所有,如需转载,请联系我们并注明来源及作者。

  三、本站拥有对此声明的最终解释权。

相关阅读

原标题:贵州发现菊科植物新种马岭河小苦荬科研人员制作的马岭河小苦荬生境及形态特征图 资料图片近日,由贵州省野生动物和森林植物管理站与贵州大学林学院植物学团队组成的联合调查队在贵州兴[详细]

2024-04-29

原标题:博物馆研学,在行走的课堂中品读世界内蒙古鄂尔多斯市康巴什区实验小学学生在研学课程中观赏动物标本。新华社发河南省郑州市郑东新区春华学校的小学生在河南自然博物馆参加研学活动。新[详细]

2024-04-29

原标题:助推高等教育高质量发展4月26日,十四届全国人大常委会第九次会议表决通过学位法,该法自2025年1月1日起施行。制定学位法的背景意义是什么?有哪些主要内容和突出亮点?4月26日,全国人大常委会[详细]

2024-04-29

原标题:安徽:新质生产力发展脉搏强劲今年一季度,安徽省制造业增长8.4%,其中装备制造业增加值增速达13.5%。随着安徽先进制造集群加速建设,以汽车、电子信息等为代表的装备制造业正日益壮大。日前,[详细]

2024-04-29

原标题:中关村论坛首次聚焦高校科技成果转化4月27日上午,中关村论坛中关村国际技术交易大会高校科技成果转化促进大会在北京工业大学开幕。活动现场,高性能弹性体材料3D打印及其航天应用、力控[详细]

2024-04-29