微软 VASA-1 模型：仅需静态人像及音频片段即可合成口型完全吻合的超真实视频

微软 VASA-1 模型：仅需静态人像及音频片段即可合成口型完全吻合的超真实视频

4/21/2024 11:29:00 下午

微软亚洲研究院宣布了一个新的高级模型：VASA-1 模型。通过 VASA-1 模型，仅需一张人像照片以及音频片段，即可生成与口型脸型完全吻合的动态视频。

VASA-1 模型的主要特点有：

保持口型吻合
能还原出面部细微差别
能还原出头部的运动情况
生成的视频在初始阶段拥有极低的延迟（官方宣称可以忽略不计）
在 512 * 512 分辨率下可以提供 40 FPS 的帧率

VASA-1 生成的一些视频片段案例如下：

关于 VASA-1 的具体介绍可以查看这里：VASA-1: Lifelike Audio-Driven Talking Faces