# 研究动机 ## 当前模型缺陷 - 编辑方式受限:只能转换风格/添加物体 - 编辑对象受限:特定域/仅能处理合成图像 - 需要辅助输入:mask ## 本文模型优势 - 仅需要一段修改描述和图像 # 方法 ![](assets/Imagic/img-240425225015478.png) 1. Text embedding optimize 1. 通过文本编码器获得$e_{tgt}$,其中$e_{tgt} \in R^{T * d}$。 2. 冻结Diffusion模型参数,对$e$进行优化。 2. Diffusion Model fine-tuning 对Difffusion模型进行调优, 3. Linear interpolation $\bar e = \eta \cdot e_{tgt} + (1 - \eta) \cdot e_{opt}$ 根据$\eta$选定原始文本嵌入和优化文本嵌入之间的文本嵌入,从而调整输出图像与原图的相似度。