研究动机
当前模型缺陷
- 编辑方式受限:只能转换风格/添加物体
- 编辑对象受限:特定域/仅能处理合成图像
- 需要辅助输入:mask
本文模型优势
方法

- Text embedding optimize
- 通过文本编码器获得$e_{tgt}$,其中$e_{tgt} \in R^{T * d}$。
- 冻结Diffusion模型参数,对$e$进行优化。
- Diffusion Model fine-tuning
- Linear interpolation
\bar e = \eta \cdot e_{tgt} + (1 - \eta) \cdot e_{opt}