Obsidian/Paper/Diffusion/Imagic.md

# 研究动机
## 当前模型缺陷
- 编辑方式受限：只能转换风格/添加物体
- 编辑对象受限：特定域/仅能处理合成图像
- 需要辅助输入：mask
## 本文模型优势
- 仅需要一段修改描述和图像
# 方法
![](assets/Imagic/img-240425225015478.png)
1. Text embedding optimize
   1. 通过文本编码器获得$e_{tgt}$，其中$e_{tgt} \in R^{T * d}$。
   2. 冻结Diffusion模型参数，对$e$进行优化。
2. Diffusion Model fine-tuning
   对Difffusion模型进行调优，
3. Linear interpolation
   $\bar e = \eta \cdot e_{tgt} + (1 - \eta) \cdot e_{opt}$
   根据$\eta$选定原始文本嵌入和优化文本嵌入之间的文本嵌入，从而调整输出图像与原图的相似度。