快手「可灵」:可能是「中国版Sora」

在快手13周年庆典上,快手毫无预兆地发布了AI视频大模型「可灵」。

「可灵」支持生成最长2分钟、30fps的1080P视频,从头脑风暴到可发布作品的一键转化功能,让全球用户大为震撼。其生成效果不仅超越了Sora,还引发了硅谷创投圈的热议。Stability AI前CEO Emad Mostaque称赞中国AI技术有其独特优势,YC CEO也在X平台转发了可灵生成的视频示例。

「可灵」成为国内首个文生视频产品级应用,不论是在生成视频的连续性、真实度和清晰度方面,还是在创作者社区的反响上,都表现出色。其背后的Diffusion Transformer(DiT)架构和团队自研的3D VAE网络,使得「可灵」能够生成高质量的电影级视频,为多个行业带来了变革潜力。

在实测中,「可灵」的极度真实物理规律表现令人惊叹,尽管在一些复杂交互场景上仍有提升空间,但其在真实风格场景下的表现非常优异。随着未来版本的更新,「可灵」有望在图生视频功能上表现更加出色。对于专业AI视频创作者而言,「可灵」的发布无疑激发了新的创作热情和可能性。

Diffusion模型的工作原理类似于「加噪声再还原」的游戏。首先,模型会将一张清晰的图片逐渐加上噪声,直到完全模糊。接着,模型学习如何一步步去除噪声,将图片还原成最初的清晰状态。快手「可灵」和「Sora」背后的DiT模型通过引入Transformer架构,提高了图像生成的质量。Transformer的「注意力机制」让模型能够抓住数据中的关键信息,从而更精准地去除噪声,生成高质量图像。

目前,「可灵」的测试申请人数已超过5万。

(机器之心、数字生命卡兹克、赛博禅心)
 
 
Back to Top