就在昨天,Stability AI官方推出了Stable Video Diffusion(简称SVD)开源视频生成模型。SVD支持图像转视频、文本生成视频,同样具备多视角合成和微调功能
官方同时还晒出测试数据称,SVD的模型性能碾压RunwayML、Pika Labs等领先的闭源商业模型。Stable Video Diffusion 实际上是由两个模型组成的 ——SVD 和 SVD-XT。SVD 可以将静态图片转化为 14 帧的 576×1024 的视频。SVD-XT 使用相同的架构,但将帧数提高到 24。两者都能以每秒 3 到 30 帧的速度生成视频,用户可以以每秒3~30帧之间的自定义帧速率
显著优势
高质量输出: 模型能生成接近真实的视频内容,细节丰富,色彩逼真。快速响应: 相较于其他模型,Stable Video Diffusion在生成视频时更加高效,减少了等待时间。创意自由度: 用户可以通过简单的文本描述来指导视频内容的生成,为创意提供了更大的空间。
局限性
生成的视频相当短(<= 4 秒),并且模型没有达到完美的照片级真实感。该模型可能会生成没有运动的视频,或者相机平移速度非常慢。无法通过文本控制模型。模型无法呈现清晰的文本。一般情况下,人脸和人可能无法正确生成。模型的自动编码部分是有损的。
在线体验
目前SVD只发布了基础模型,想要体验SVD又苦于硬件实力不够的玩家,可以上HuggingFace体验SVD的“图生视频”功能。进入界面,左边拖入图片,右边为生成的视频,点击高级选项,可选择种子(Seed)编号、控制运动幅度以及调节帧率等,设置好后,点击“Generate”即可生成视频。
HuggingFace地址:
huggingface.co/spaces/mult…
huggingface.co/spaces/Just…
官网体验地址
Stable Video | Generate Videos with AI
费用说明
如果不想自己部署,可以到官方进行在线体验,除了每日 150 个赠送积分外,还新增了积分购买选项,目前提供两种积分包(积分永久有效):
500积分/$10,约 50段视频3000积分/$50,约 300 段视频
相关链接
官网体验地址:Stable Video | Generate Videos with AI
项目地址:
https://github.com/Stability-AI/generative-models
本地部署参考:
图片生成视频来了:Stable Video Diffusion使用教程 – 掘金 (juejin.cn)
Stablediffusion-webui-forge官方网址:
https://github.com/lllyasviel/stable-diffusion-webui-forge
SVD 1.1官方网址:
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1
模型库储存库:
https://github.com/Stability-AI/generative-models
官方模型运行至少需要16G显存,针对8G显存的卡,建议使用16bit量化后的模型:
becausecurious/stable-video-diffusion-img2vid-fp16 at main
ComfUI秋叶整合安装包:
https://pan.quark.cn/s/05bd1c0b1999
官方演示视频:https://www.youtube.com/watch?v=G7mihAy691g官方应用候补名单申请:
https://stability.ai/contact