PixelHacker – 华中科技联合VIVO推出的图像修复模型

PixelHacker是什么

PixelHacker 是华中科技大学和 VIVO AI Lab联合推出的图像修复（Image Inpainting）模型。基于引入潜在类别引导（Latent Categories Guidance, LCG）范式，分别对前景和背景进行编码，基于线性注意力将特征注入去噪过程中，实现结构和语义的一致性。模型基于大规模数据集（包含 1400 万图像 – 掩码对）进行预训练，在多个开源基准数据集（如 Places2、CelebA-HQ 和 FFHQ）上微调，展现出卓越的修复效果。

PixelHacker的主要功能

高质量图像修复：在自然场景、人脸图像等多种数据集上表现出色，生成逼真的修复内容。
结构和语义一致性：确保修复区域与周围环境在纹理、形状和颜色上自然过渡，逻辑上符合场景。
适应多种场景：对不同类型的图像（如风景、人脸、复杂背景）具有良好的适应性，支持多种分辨率和掩码类型。

PixelHacker的技术原理

潜在类别引导（LCG）：将图像分为前景和背景两部分，分别用在两个固定大小的嵌入（embeddings）编码潜在特征。方法避免对具体类别标签的依赖。在训练时，用多种掩码（如随机笔刷掩码、对象语义掩码、场景语义掩码等）构造图像-掩码对，分配到前景或背景嵌入中。
扩散模型架构：基于扩散模型（Diffusion Model）作为其生成框架。扩散模型基于逐步去噪的过程生成图像内容，生成高质量且多样化的图像。在去噪过程中，基于线性注意力（Linear Attention）将前景和背景的潜在特征注入到模型中。
训练和微调：在包含 1400 万图像掩码对的大规模数据集上进行预训练，学习到丰富的图像分布和语义信息。在预训练的基础上，PixelHacker 在多个开源基准数据集（如 Places2、CelebA-HQ 和 FFHQ）上进行微调，适应特定任务和数据分布，进一步提升性能。
多步交互：在去噪的每一步中，基于线性注意力将前景和背景的潜在特征与当前的图像特征进行交互，确保生成内容在结构和语义上与周围环境保持一致。
分类器自由引导（CFG）：在推理阶段，用分类器自由引导（Classifier-Free Guidance）技术，调整引导规模（guidance scale）平衡生成内容的多样性和一致性。