PixelHacker是什么
PixelHacker 是华中科技大学和 VIVO AI Lab联合推出的图像修复(Image Inpainting)模型。基于引入潜在类别引导(Latent Categories Guidance, LCG)范式,分别对前景和背景进行编码,基于线性注意力将特征注入去噪过程中,实现结构和语义的一致性。模型基于大规模数据集(包含 1400 万图像 – 掩码对)进行预训练,在多个开源基准数据集(如 Places2、CelebA-HQ 和 FFHQ)上微调,展现出卓越的修复效果。
PixelHacker的主要功能
- 高质量图像修复:在自然场景、人脸图像等多种数据集上表现出色,生成逼真的修复内容。
- 结构和语义一致性:确保修复区域与周围环境在纹理、形状和颜色上自然过渡,逻辑上符合场景。
- 适应多种场景:对不同类型的图像(如风景、人脸、复杂背景)具有良好的适应性,支持多种分辨率和掩码类型。
PixelHacker的技术原理
- 潜在类别引导(LCG):将图像分为前景和背景两部分,分别用在两个固定大小的嵌入(embeddings)编码潜在特征。方法避免对具体类别标签的依赖。在训练时,用多种掩码(如随机笔刷掩码、对象语义掩码、场景语义掩码等)构造图像-掩码对,分配到前景或背景嵌入中。
- 扩散模型架构:基于扩散模型(Diffusion Model)作为其生成框架。扩散模型基于逐步去噪的过程生成图像内容,生成高质量且多样化的图像。在去噪过程中,基于线性注意力(Linear Attention)将前景和背景的潜在特征注入到模型中。
- 训练和微调:在包含 1400 万图像掩码对的大规模数据集上进行预训练,学习到丰富的图像分布和语义信息。在预训练的基础上,PixelHacker 在多个开源基准数据集(如 Places2、CelebA-HQ 和 FFHQ)上进行微调,适应特定任务和数据分布,进一步提升性能。
- 多步交互:在去噪的每一步中,基于线性注意力将前景和背景的潜在特征与当前的图像特征进行交互,确保生成内容在结构和语义上与周围环境保持一致。
- 分类器自由引导(CFG):在推理阶段,用分类器自由引导(Classifier-Free Guidance)技术,调整引导规模(guidance scale)平衡生成内容的多样性和一致性。
PixelHacker的项目地址
- 项目官网:https://hustvl.github.io/PixelHacker/
- GitHub仓库:https://github.com/hustvl/PixelHacker
- arXiv技术论文:https://arxiv.org/pdf/2504.20438
PixelHacker的应用场景
- 修复老旧照片:自动填补划痕、污渍或缺失部分,恢复照片完整性。
- 移除无关对象:从图像中去除不需要的元素(如行人、杂物),保持背景自然。
- 创意内容生成:辅助艺术家和设计师快速生成高质量图像,用于广告、海报或艺术创作。
- 医学影像修复:填补医学图像中的缺失或损坏区域,提升诊断准确性。
- 文化遗产保护:修复文物和古籍图像,填补缺失部分,助力文化传承。
© 版权声明
文章版权归作者所有,未经允许请勿转载。