Hi3DGen – 港中文、字节、清华联合推出的3D几何生成框架

Ai项目5天前发布 Agixxw
200 0 0

Hi3DGen是什么

Hi3DGen 是香港中文大学(深圳)、字节跳动和清华大学的研究人员共同推出的高保真3D几何生成框架。能从2D图像生成高保真3D模型,通过基于法线图作为中间表示,Hi3DGen 可以生成丰富的几何细节,显著优于现有方法。框架包含三个关键组件:图像到法线估计器、法线到几何学习方法和3D数据合成管道。

Hi3DGen的主要功能

  • 从2D图像生成高保真3D模型:能将2D图像转换为具有丰富细节的3D几何模型。
  • 图像到法线估计:通过噪声注入和双流训练,将低频和高频图像模式解耦,实现可泛化、稳定且锐利的法线估计。
  • 法线到几何学习:基于法线正则化的潜在扩散学习,增强3D几何生成的保真度。
  • 3D数据合成:构建高质量的3D数据集,支持训练。

Hi3DGen的技术原理

  • 图像到法线估计器:组件通过噪声注入和双流训练,将图像的低频和高频模式解耦。低频模式负责整体形状和结构,高频模式负责细节和纹理。能生成可泛化、稳定且锐利的法线图,为后续的3D几何生成提供高质量的中间表示。
  • 法线到几何学习方法:基于法线图作为正则化手段,对潜在扩散模型进行训练。增强了3D几何生成的保真度,使生成的3D模型能保留更多的细节。
  • 3D数据合成管道:通过3D数据合成管道,构建高质量的3D数据集,用于训练模型。支持模型学习从2D图像到3D几何的映射关系。
  • 两阶段生成过程:Hi3DGen 采用两阶段生成过程:
    • 第一阶段:基础多视角生成:使用预训练的视频扩散模型,通过额外的相机姿态条件进行微调,将单视角图像转换为低分辨率的3D感知序列图像(轨道视频)。
    • 第二阶段:3D感知多视角细化:将第一阶段生成的低分辨率多视角图像输入到3D感知视频到视频细化器中,进一步提升图像的分辨率和纹理细节。
  • 3D高斯散射(3DGS):从生成的高分辨率多视角图像中学习隐式3D模型,通过3DGS渲染额外的插值视图。
  • 基于SDF的重建:通过基于SDF(Signed Distance Function)的重建方法,从增强的密集视图中提取高质量的3D网格。

Hi3DGen的项目地址

Hi3DGen的应用场景

  • 游戏开发:快速生成高质量的3D游戏资产,如角色、道具和场景。
  • 影视制作:用于创建逼真的3D特效和动画,节省传统建模的时间和成本。
  • 3D可视化:从不同角度查看和分析3D模型,适用于建筑设计、工业设计等领域。
  • 虚拟摄影:生成不同视角的高质量图像,用于在线展示和营销。
  • 文物保护:从文物的单张照片重建3D模型,用于数字化保存和研究。
  • 医学成像:从医学图像(如X光、CT)生成3D模型,辅助诊断和治疗。
© 版权声明

相关文章

暂无评论

none
暂无评论...