Pippo – Meta 推出的单图生成多视角高清人像视频模型

Ai项目2个月前发布 Agixxw

Pippo是什么

Pippo是Meta Reality Labs推出的图像到视频生成模型，能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器，预训练了30亿张人像图像，在2500张工作室捕捉的图像上进行了后训练。Pippo的核心技术包括ControlMLP模块，用于注入像素对齐的条件，以及注意力偏差技术，能在推理时生成比训练时多5倍以上的视角。Pippo引入了重投影误差，用于评估多视角生成的3D一致性。

Pippo的主要功能

多视角生成：Pippo可以从单张全身或面部照片生成多视角的高清视频，支持全身、面部或头部的生成。
高效内容生成：通过多视角扩散变换器，Pippo能生成多达5倍于训练视角的视频内容。
高分辨率支持：Pippo首次实现了1K分辨率下的一致多视角人像生成。
空间锚点与ControlMLP：通过ControlMLP模块注入像素对齐的条件，如Plücker射线和空间锚点，实现更好的3D一致性。
自动补全细节：在处理单目视频时，Pippo可以自动补全缺失的细节，如鞋子、面部或颈部等。

Pippo的技术原理

多阶段训练策略：
- 预训练阶段：Pippo首先在30亿张无结构的人像图像上进行预训练，这些图像没有标注信息。
- 中间训练阶段：在高质量工作室数据集上，模型联合生成多个视角的图像，使用低分辨率的视图进行去噪，通过浅层MLP粗略编码目标相机。
- 后训练阶段：在高分辨率下对少量视图进行去噪，引入像素对齐控制（如空间锚点和Plücker射线），实现3D一致性。
像素对齐控制（ControlMLP模块）：Pippo通过ControlMLP模块注入像素对齐的条件，如Plücker射线和空间锚点，这些条件在训练阶段使用，在推理阶段固定为任意位置。
注意力偏差技术：在推理阶段，Pippo提出了注意力偏差技术，支持模型同时生成比训练阶段多5倍以上的视角。
3D一致性评估指标：Pippo引入了改进的3D一致性评估指标——重投影误差（Re-projection Error），用于评估多视角生成的3D一致性。

Pippo的项目地址

项目官网：https://yashkant.github.io/pippo/
Github仓库：https://github.com/facebookresearch/pippo
技术论文：https://yashkant.github.io/pippo/pippo.pdf

Pippo的应用场景

虚拟现实（VR）和增强现实（AR）：Pippo能生成高质量的多视角人像视频，可直接用于VR和AR环境中的虚拟角色生成，提升沉浸感。
影视制作：在影视后期制作中，Pippo可用于快速生成多视角的特效镜头，减少拍摄成本和时间。
视频会议：通过从单张照片生成多视角视频，Pippo可以在视频会议中为远程参与者提供更自然的交互体验。
游戏开发：Pippo可用于生成游戏中的角色动画，提升游戏的视觉效果和玩家的沉浸感。
社交媒体和内容创作：创作者可以用Pippo生成多视角视频，为社交媒体平台提供更丰富的内容。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

OminiControl – AI图像生成框架，实现图像主题控制和空间精确控制

OminiControl – AI图像生成框架，实现图像主题控制和空间精确控制

2个月前

1,1350

MedReason – 美国加州联合南洋理工等机构推出的医学推理框架

MedReason – 美国加州联合南洋理工等机构推出的医学推理框架

2个月前

01,1350

k1.5 – Kimi推出的多模态思考模型

k1.5 – Kimi推出的多模态思考模型

2个月前

1,0250

GameFactory – 香港大学和快手联合推出的可泛化游戏场景框架

GameFactory – 香港大学和快手联合推出的可泛化游戏场景框架

2个月前

1,2050

暂无评论

暂无评论...