DCEdit – 北交大联合美图推出的双层控制图像编辑方法

DCEdit是什么

DCEdit 是新型的双层控制图像编辑方法，是北京交通大学和美图2MT实验室联合推出的。DCEdit基于精确语义定位策略（PSL），用视觉和文本自注意力优化交叉注意力图，提供更精准的区域线索指导图像编辑。DCEdit 引入双层控制机制（DLC），在特征层和隐空间层同时融入区域线索，实现更精细的编辑控制。DCEdit 无需额外训练或微调，应用在现有的基于扩散变换器（DiT）的编辑方法，在背景保留和编辑准确性方面表现出色。

DCEdit的主要功能

精确语义定位：精确定位图像中需要编辑的语义区域，同时保留背景和其他未编辑区域的细节。
双层控制机制：在特征层和隐空间层同时融入区域线索，实现对编辑过程的细粒度控制，提升编辑效果。
支持复杂图像编辑：适用于高分辨率、复杂背景的真实世界图像，支持处理多种编辑任务，如改变颜色、替换对象、添加或删除对象等。

DCEdit的技术原理

精确语义定位策略（PSL）：结合视觉自注意力和文本自注意力，优化交叉注意力图。视觉自注意力矩阵捕捉图像内部的亲和关系，文本自注意力矩阵用于解耦语义之间的纠缠。基于视觉自注意力矩阵的重加权和文本自注意力矩阵的逆操作，优化交叉注意力图，更准确地反映目标语义区域。优化后的交叉注意力图作为区域线索，指导编辑过程，确保编辑效果集中在目标区域。
双层控制机制（DLC）：在特征层中，基于软融合机制，用优化后的交叉注意力图选择性地保留与编辑文本激活的特征，避免直接替换特征导致的编辑效果丢失。在隐空间层中，基于扩散混合方法，用二值化后的交叉注意力图保留背景信息，防止背景区域被错误编辑。反演过程将源图像映射到初始噪声，在采样过程中应用双层控制机制，生成编辑后的图像。
RW-800基准：包含高分辨率的真实世界图像，确保测试数据的多样性和复杂性。提供详细的文本描述，支持复杂的编辑任务。