vault backup: 2024-04-26 10:23:36

This commit is contained in:
2024-04-26 10:23:37 +08:00
16 changed files with 430 additions and 344 deletions

View File

@@ -1,3 +1,14 @@
模型微调
需要注意的是,通过生成扩散过程传递优化后的嵌入 eopt 并不一定能完全得到输入图像 x,因为我们的优化只运行了少量步骤(见图7左上角的图像)。因此,在我们方法的第二阶段,我们通过优化模型参数 θ 来弥补这一差距,使用与等式2中相同的损失函数,同时冻结优化后的嵌入。这个过程将模型调整到适合输入图像 x 在 eopt 点的状态。同时,我们还对基础生成方法中存在的任何辅助扩散模型(如超分辨率模型)进行微调。我们使用相同的重建损失对它们进行微调,但以 etgt 为条件,因为它们将在编辑后的图像上运行。对这些辅助模型的优化确保保留了输入图像 x 中存在但基础分辨率中不存在的高频细节。经验上我们发现,在推理时,将 etgt 输入到辅助模型中的效果优于使用 eopt。
# 研究动机
## 当前模型缺陷
- 编辑方式受限:只能转换风格/添加物体
- 编辑对象受限:特定域/仅能处理合成图像
- 需要辅助输入mask
## 本文模型优势
- 仅需要一段修改描述和图像
# 方法
![](assets/Imagic/img-240425225015478.png)
1. Text embedding optimize
1. 通过文本编码器获得$e_{tgt}$,其中$e_{tgt} \in R^{T * d}$。
2. 冻结Diffusion模型参数对$e$进行优化。
2. Diffusion Model fine-tuning
3. Linear interpolation

Binary file not shown.

After

Width:  |  Height:  |  Size: 186 KiB