智谱技术团队今日正式发布了最新视频模型CogVideoX v1.5,并宣布将其开源。该版本相较于之前的模型,在视频生成能力上有了显著提升,具体表现为支持生成5秒和10秒长度的768P分辨率、16帧视频,同时其I2V模型能够支持任意尺寸比例的视频生成,极大地提高了图像到视频转换的质量及复杂语义的理解能力。
据悉,CogVideoX v1.5模型将同步上线至“清影”平台,并与新推出的CogSound音效模型进行结合,形成了全新升级的“新清影”系统。在视频生成质量方面,“新清影”显著增强了图生视频的美学表现、运动合理性以及复杂提示词语义的理解能力,为用户提供了更高质量的视频生成体验。在分辨率与帧率上,“新清影”支持生成长达10秒、4K分辨率、60帧的超高清视频,满足了用户对高清视频内容的需求。
此外,“新清影”还突破了传统视频生成中固定比例的限制,支持任意比例的视频生成,使得生成的视频能够更好地适应不同的播放场景和平台要求。
值得一提的是,“新清影”系统还具备多通道输出功能,用户可以通过同一指令或图片,一次性生成4个不同的视频,大大提高了视频生成的效率。
除了视频生成能力的提升,“新清影”还结合了CogSound音效模型,能够生成与画面内容相匹配的音效,使得生成的AI视频更加生动、立体,为用户带来了更加丰富的视听体验。