7月26日,智谱AI宣布推出新一代视频生成模型CogVideoX,并在其AI助手「智谱清言」的各平台上线名为「清影」(Ying)的视频生成功能。所有用户均可免费体验AI文本生成视频和图像生成视频的服务。
CogVideoX在内容连贯性、可控性和模态融合方面有显著创新:
- 采用自研的三维变分自编码器(3D VAE)结构,将视频压缩至原始大小的2%,显著提升内容连贯性。
- 开发端到端视频理解模型,增强对文本的理解和指令遵循能力。
- 创新性地设计将文本、时间、空间三维融合的transformer架构,优化模态间交互。
「清影」可在30秒内生成6秒视频,具备高效的指令遵循能力、良好的内容连贯性和灵活的画面调度能力。
在生态合作方面,B站参与了清影的技术研发过程,华策影视也参与了模型共建。清影的训练依托北京亦庄高性能算力集群,未来将应用于亦庄的高精尖产业集群。
用户可通过智谱清言的PC端、移动应用端、小程序端或访问https://chatglm.cn/video 使用该服务。企业和开发者也可通过智谱大模型开放平台bigmodel.cn的API调用该功能。
智谱AI CEO张鹏表示,公司已验证Scaling Law在视频生成领域的有效性,未来将继续扩大数据和模型规模,并探索更具突破性的新型模型架构。
(GLM大模型)
src:
https://mp.weixin.qq.com/s/Xua54oISZGB6lPCI3pWoTQ