2024 年 9 月 24 日,字节跳动在火山引擎的「AI 创新巡展」活动上正式发布了两款 AI 视频生成大模型——豆包视频生成-PixelDance 和豆包视频生成-Seaweed。
豆包视频生成大模型的最大亮点在于其对复杂指令的精准理解以及自然连贯的多主体互动能力。与传统的视频生成模型相比,这两款模型能够在不同镜头下保持人物样貌、服装细节以及头饰的一致性,接近实拍效果。尤其是在多主体、多动作交互场景中,表现尤为出色。
PixelDance 擅长复杂动作与高动态场景
•复杂动作与高动态表现:能够呈现丰富的人物动作、面部表情以及相机视角控制,适合视觉冲击力强烈的场景,如动画制作、影视特效和创意广告等。
•潜在扩散架构:采用潜在扩散架构进行训练,结合图像指令(针对视频片段的首尾帧)和文本指令,使其能够更好地理解和学习视频中的动态信息。
Seaweed 注重细腻细节与逼真度
•逼真度与细腻细节:在生成具备丰富细节层次的视频方面表现出色,特别适合需要高质量视觉呈现的场景。
•多种风格与分辨率支持:支持横屏、竖屏及多分辨率输出,并根据用户输入的高清图像进行适配和保真,默认输出为 720p 分辨率、24fps,可延长至 20-30 秒。