文件列表:
开源证券:传媒行业周报:Vidu引领国内视频模型再突破,继续布局AI应用.pdf |
下载文档 |
资源简介
>
国内视频大模型“Vidu”震撼发布,继续布局多模态AI应用
4月27日,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型“Vidu”。Vidu采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还具备多镜头生成、时空一致性高等特点。Vidu背后的核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用DiT架构,是全球首个Diffusion与Transformer融合的架构,并于2023年3月开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,最近两个月进一步突破了长视频表示与处理的多项关键技术,进而推出Vidu。我们认为,Vidu的发布为国内视频生成AI模型的重要突破,其或为目前效果最接近Sora的视频生成模型,叠加此前Kimi、秘塔AI等在长文本生成处理方面的突破,天工SkyMusic在AI音乐生成创作领域的突破,国内AI多模态模型不断跃迁,或持续赋能IP开发、影视、音乐、教育、营销等领域降本提效,拉动对音视频语料的
加载中...
已阅读到文档的结尾了