返回上一页

干货文章

HiDream.ai视频生成已打破业界4秒瓶颈,能够支持15秒以上
发布时间: 2023-12-29 04:54:49

文生图的战争尚未结束,视频生成已经开始加速跑了。

Pika 爆火以后,视频生成技术的进步成为大众眼中 AIGC 的一个新焦点。马斯克则直接做出预判称,明年将是 “人工智能电影” 元年。

而比起文生图的生成效果,如今市面上的 AI 视频生成效果,在实际体验中可以说是一言难尽。

在 4-5 秒的时间限制下,实测常见工具对 Prompt 的意图理解水平忽高忽低。输入 “小猫在森林中小提琴”,可能出现猫首人身、一只手是猫爪一只手是人手、有猫没有小提琴、有小提琴但没拉等一系列问题。

在实际应用中,如今的文生视频技术面临着准确性、一致性以及时长限制等诸多问题,距离 “AI movie” 的愿景还很遥远。

机器之心曾在六月份专访过的视觉多模态大模型公司 HiDream.ai 近期告诉我们,在视频生成领域,HiDream.ai 在即将推出的新产品中已经能够做到打破如今 Runway、Pika 普遍面临的 4 秒时长限制,做到支持 15 秒钟左右的生成时长。

HiDream.ai 成立于今年 3 月,由原京东副总裁、前微软研究院资深研究员梅涛院士创立。梅涛是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,是多媒体领域荣获国际最佳论文奖最多的华人学者(15 项),也是科技部科技创新 2030 人工智能重大项目首席科学家。

HiDream.ai 团队在文生视频上创新了一套自己的思路:不直接从文本向视频转换,而是从文本先向图片转换,生成关键帧,再由此在时间维度上前后进行拓展。

“这种方法不仅能够提高视频生成的稳定性、细节处理和美感,还为视频生成的时长拓展提供了可能性—— 从一个简短的 prompt 出发,通过大语言模型自动生成分镜头的脚本(script)。然后针对每一个镜头脚本,通过 “文生图” 的方式生成一幅图(关键帧),将这些关键帧通过 “图生视频” 的方式转换为单一镜头的视频,最终将这些视频拼接成一个完整的视频,形成 15 秒甚至更长时间的多镜头视频。”

视频生成的时长性限制在商业化应用上是重要的掣肘。在 15 秒的生成长度下,基本可以覆盖常见短视频的生成需要,而 4 秒则很为难。

HiDream.ai 在文生视频上的新解法主要基于他们自身的基因。成立之初,HiDream.ai 在文生图上投入了大量资源,打造了自研的智象多模态基础模型。


关键词:
精选知识
更多>
论文写作
更多>
查重降重
更多>
论文格式
更多>
产品动态
更多>
行业前沿
更多>