微软 VASA-1 模型:仅需静态人像及音频片段即可合成口型完全吻合的超真实视频

微软亚洲研究院宣布了一个新的高级模型:VASA-1 模型。通过 VASA-1 模型,仅需一张人像照片以及音频片段,即可生成与口型脸型完全吻合的动态视频。

VASA-1 模型的主要特点有:

  • 保持口型吻合
  • 能还原出面部细微差别
  • 能还原出头部的运动情况
  • 生成的视频在初始阶段拥有极低的延迟(官方宣称可以忽略不计)
  • 在 512 * 512 分辨率下可以提供 40 FPS 的帧率

VASA-1 生成的一些视频片段案例如下:


关于 VASA-1 的具体介绍可以查看这里:VASA-1: Lifelike Audio-Driven Talking Faces

此博客中的热门博文