智谱 AI 开源新一代视频生成模型 CogVideoX-2B2024 年 8 月 6 日，智谱 AI 宣布开源其新一代视频生成模型 CogVideoX-2B

一个小站的自留地

智谱 AI 发布新一代视频生成模型 CogVideoX,所有用户可免费体验 7月26日,智谱AI宣布推出新一代视频生成模型CogVideoX,并在其AI助手「智谱清言」的各平台上线名为「清影」(Ying)的视频生成功能。所有用户均可免费体验AI文本生成视频和图像生成视频的服务。 CogVideoX在内容连贯性、可控性和模态融合方面有显著创新: - 采用自研的三维变分自编码器(3D VAE)结构,将视频压缩至原始大小的2%,显著提升内容连贯性。 - 开发端到端视频理解模型,增强对文本的理解和指令遵循能力。…

智谱 AI 开源新一代视频生成模型 CogVideoX-2B

2024 年 8 月 6 日，智谱 AI 宣布开源其新一代视频生成模型 CogVideoX-2B。该模型是 CogVideoX 系列的首个开源版本，与智谱此前推出的 AI 视频生成产品「清影」同源，已上传至 GitHub 和 Hugging Face 平台。

CogVideoX 的主要特点包括：
1. 单卡可运行：在 NVIDIA A6000 显卡上可进行推理和微调
2. 高分辨率输出：生成分辨率为 720 × 480，6 秒时长，48 帧
3. 开放训练数据：训练数据来自互联网，B 站提供了部分数据支持

技术细节：
- 推理显存占用：稳定在 21.6 GB，峰值 36 GB
- 微调显存占用：稳定在 46.2 GB
- 未来优化目标：将推理峰值显存降至 24 GB 以内，以支持 RTX 4090 显卡运行

本次开源的是 CogVideoX-2B 版本，可在以下平台获取：
- Hugging Face： huggingface.co/THUDM/CogVideoX-2b
- GitHub： github.com/THUDM/CogVideo

智谱 AI 表示，未来还将开源更大规模的模型。

（赛博禅心）