HiDream.ai视频生成已打破业界4秒瓶颈，能够支持15秒以上

发布时间： 2023-12-29 04:54:49

文生图的战争尚未结束，视频生成已经开始加速跑了。

Pika 爆火以后，视频生成技术的进步成为大众眼中 AIGC 的一个新焦点。马斯克则直接做出预判称，明年将是 “人工智能电影” 元年。

而比起文生图的生成效果，如今市面上的 AI 视频生成效果，在实际体验中可以说是一言难尽。

在 4-5 秒的时间限制下，实测常见工具对 Prompt 的意图理解水平忽高忽低。输入 “小猫在森林中小提琴”，可能出现猫首人身、一只手是猫爪一只手是人手、有猫没有小提琴、有小提琴但没拉等一系列问题。

在实际应用中，如今的文生视频技术面临着准确性、一致性以及时长限制等诸多问题，距离 “AI movie” 的愿景还很遥远。

机器之心曾在六月份专访过的视觉多模态大模型公司 HiDream.ai 近期告诉我们，在视频生成领域，HiDream.ai 在即将推出的新产品中已经能够做到打破如今 Runway、Pika 普遍面临的 4 秒时长限制，做到支持 15 秒钟左右的生成时长。

HiDream.ai 成立于今年 3 月，由原京东副总裁、前微软研究院资深研究员梅涛院士创立。梅涛是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow，是多媒体领域荣获国际最佳论文奖最多的华人学者（15 项），也是科技部科技创新 2030 人工智能重大项目首席科学家。

HiDream.ai 团队在文生视频上创新了一套自己的思路：不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再由此在时间维度上前后进行拓展。

“这种方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性—— 从一个简短的 prompt 出发，通过大语言模型自动生成分镜头的脚本（script）。然后针对每一个镜头脚本，通过 “文生图” 的方式生成一幅图（关键帧），将这些关键帧通过 “图生视频” 的方式转换为单一镜头的视频，最终将这些视频拼接成一个完整的视频，形成 15 秒甚至更长时间的多镜头视频。”

视频生成的时长性限制在商业化应用上是重要的掣肘。在 15 秒的生成长度下，基本可以覆盖常见短视频的生成需要，而 4 秒则很为难。

HiDream.ai 在文生视频上的新解法主要基于他们自身的基因。成立之初，HiDream.ai 在文生图上投入了大量资源，打造了自研的智象多模态基础模型。

关键词：

精选知识

更多>

论文写作

更多>