vault backup: 2025-12-24 11:44:20
This commit is contained in:
@@ -59,20 +59,20 @@
|
|||||||
"expandedKeys": []
|
"expandedKeys": []
|
||||||
},
|
},
|
||||||
"Paper/FSL Image Classification/heidariLearningCleanReinforcement2025.md": {
|
"Paper/FSL Image Classification/heidariLearningCleanReinforcement2025.md": {
|
||||||
"scroll": 106.84309240622142,
|
"scroll": 2.1689922480620156,
|
||||||
"cursor": {
|
"cursor": {
|
||||||
"from": {
|
"from": {
|
||||||
"line": 112,
|
"line": 7,
|
||||||
"ch": 3
|
"ch": 133
|
||||||
},
|
},
|
||||||
"to": {
|
"to": {
|
||||||
"line": 112,
|
"line": 7,
|
||||||
"ch": 3
|
"ch": 133
|
||||||
}
|
}
|
||||||
},
|
},
|
||||||
"expandedKeys": [
|
"expandedKeys": [
|
||||||
"item-2-2",
|
"item-1-0",
|
||||||
"item-1-0"
|
"item-2-2"
|
||||||
]
|
]
|
||||||
}
|
}
|
||||||
}
|
}
|
||||||
4
.obsidian/workspace.json
vendored
4
.obsidian/workspace.json
vendored
@@ -199,6 +199,7 @@
|
|||||||
},
|
},
|
||||||
"active": "4f4081000e4e799b",
|
"active": "4f4081000e4e799b",
|
||||||
"lastOpenFiles": [
|
"lastOpenFiles": [
|
||||||
|
"Paper/FSL Image Classification/heidariLearningCleanReinforcement2025.md",
|
||||||
"Paper/FSL Image Classification/Context Attribute words for Prompt Tuning.md",
|
"Paper/FSL Image Classification/Context Attribute words for Prompt Tuning.md",
|
||||||
"Paper/FSL Image Classification/heidariLearningCleanReinforcement2025.md",
|
"Paper/FSL Image Classification/heidariLearningCleanReinforcement2025.md",
|
||||||
"Untitled.md",
|
"Untitled.md",
|
||||||
@@ -235,7 +236,6 @@
|
|||||||
"Paper/Open-Vocabulary Semantic Segmentation.md",
|
"Paper/Open-Vocabulary Semantic Segmentation.md",
|
||||||
"Books/动手学深度学习/引言.md",
|
"Books/动手学深度学习/引言.md",
|
||||||
"Paper/未命名.md",
|
"Paper/未命名.md",
|
||||||
"Books/动手学深度学习/基础概念.md",
|
"Books/动手学深度学习/基础概念.md"
|
||||||
"liangOpenVocabularySemanticSegmentation2023.md"
|
|
||||||
]
|
]
|
||||||
}
|
}
|
||||||
@@ -1,7 +1,6 @@
|
|||||||
# 方法概述
|
# 方法概述
|
||||||
|
|
||||||
## 3.1 问题设定
|
## 3.1 问题设定
|
||||||
|
|
||||||
我们假设一个带噪声的分类训练数据集 $\mathcal{D} = (\mathbf{X}, \tilde{\mathbf{Y}}) = \{(\mathbf{x}_i, \tilde{\mathbf{y}}_i)\}_{i=1}^N$,其中每个输入实例 $\mathbf{x}_i \in \mathcal{X}$ 与一个观测到的标签向量 $\tilde{\mathbf{y}}_i \in \mathcal{Y}$ 配对,该标签向量可能是真实标签向量 $\mathbf{y}_i$ 的噪声污染版本。目标是学习一个有效的预测模型,定义为复合函数 $h_\psi \circ f_\theta: \mathcal{X} \to \mathcal{Y}$,其中 $f_\theta$ 表示参数为 $\theta$ 的特征提取器,$h_\psi$ 表示参数为 $\psi$ 的分类器。我们的目标是开发一种有效的标签清洗技术,以纠正噪声标签,并使预测模型能够高效训练,而不受标签噪声带来的挑战所阻碍。
|
我们假设一个带噪声的分类训练数据集 $\mathcal{D} = (\mathbf{X}, \tilde{\mathbf{Y}}) = \{(\mathbf{x}_i, \tilde{\mathbf{y}}_i)\}_{i=1}^N$,其中每个输入实例 $\mathbf{x}_i \in \mathcal{X}$ 与一个观测到的标签向量 $\tilde{\mathbf{y}}_i \in \mathcal{Y}$ 配对,该标签向量可能是真实标签向量 $\mathbf{y}_i$ 的噪声污染版本。目标是学习一个有效的预测模型,定义为复合函数 $h_\psi \circ f_\theta: \mathcal{X} \to \mathcal{Y}$,其中 $f_\theta$ 表示参数为 $\theta$ 的特征提取器,$h_\psi$ 表示参数为 $\psi$ 的分类器。我们的目标是开发一种有效的标签清洗技术,以纠正噪声标签,并使预测模型能够高效训练,而不受标签噪声带来的挑战所阻碍。
|
||||||
|
|
||||||
## 3.2 基于强化学习的噪声标签校正
|
## 3.2 基于强化学习的噪声标签校正
|
||||||
@@ -22,15 +21,21 @@ RLNLC 的核心是一个概率策略函数 $\pi_\theta$,它以随机方式将
|
|||||||
|
|
||||||
令 $\mathcal{N}(\mathbf{x}_i)$ 表示基于当前 $f_\theta$ 提取的嵌入空间 $\mathcal{Z} = f_\theta(\mathbf{X})$ 中实例 $\mathbf{x}_i$ 在数据集 $\mathcal{D}$ 内的 $k$-近邻索引。对于每个实例 $\mathbf{x}_i$,我们使用注意力机制聚合其 $k$-近邻在当前状态 $s_t$ 中的标签,生成一个新的标签预测 $\bar{\mathbf{y}}_i$,该预测与 $f_\theta$ 编码的局部数据结构对齐。具体来说,$\bar{\mathbf{y}}_i$ 计算如下:
|
令 $\mathcal{N}(\mathbf{x}_i)$ 表示基于当前 $f_\theta$ 提取的嵌入空间 $\mathcal{Z} = f_\theta(\mathbf{X})$ 中实例 $\mathbf{x}_i$ 在数据集 $\mathcal{D}$ 内的 $k$-近邻索引。对于每个实例 $\mathbf{x}_i$,我们使用注意力机制聚合其 $k$-近邻在当前状态 $s_t$ 中的标签,生成一个新的标签预测 $\bar{\mathbf{y}}_i$,该预测与 $f_\theta$ 编码的局部数据结构对齐。具体来说,$\bar{\mathbf{y}}_i$ 计算如下:
|
||||||
|
|
||||||
$$\bar{\mathbf{y}}_i = \sum_{j \in \mathcal{N}(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^t$$
|
$$
|
||||||
|
\bar{\mathbf{y}}_i = \sum_{j \in \mathcal{N}(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^t
|
||||||
|
$$
|
||||||
|
|
||||||
注意力权重 $\{\alpha_{ij}\}$ 使用嵌入空间中的实例对相似度计算:
|
注意力权重 $\{\alpha_{ij}\}$ 使用嵌入空间中的实例对相似度计算:
|
||||||
|
|
||||||
$$\alpha_{ij} = \frac{\exp(\text{sim}(f_\theta(\mathbf{x}_i), f_\theta(\mathbf{x}_j)) / \tau)}{\sum_{j' \in \mathcal{N}(\mathbf{x}_i)} \exp(\text{sim}(f_\theta(\mathbf{x}_i), f_\theta(\mathbf{x}_{j'})) / \tau)}$$
|
$$
|
||||||
|
\alpha_{ij} = \frac{\exp(\text{sim}(f_\theta(\mathbf{x}_i), f_\theta(\mathbf{x}_j)) / \tau)}{\sum_{j' \in \mathcal{N}(\mathbf{x}_i)} \exp(\text{sim}(f_\theta(\mathbf{x}_i), f_\theta(\mathbf{x}_{j'})) / \tau)}
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $\tau$ 是温度超参数,$\text{sim}(\cdot, \cdot)$ 表示余弦相似度。最后,在状态 $s_t$ 中为实例 $\mathbf{x}_i$ 采取每个元素动作 $a_i^t = 1$ 的概率(即策略函数)通过比较 $k$-近邻预测的标签向量 $\bar{\mathbf{y}}_i$ 与当前标签向量 $\tilde{\mathbf{y}}_i^t$ 来计算:
|
其中 $\tau$ 是温度超参数,$\text{sim}(\cdot, \cdot)$ 表示余弦相似度。最后,在状态 $s_t$ 中为实例 $\mathbf{x}_i$ 采取每个元素动作 $a_i^t = 1$ 的概率(即策略函数)通过比较 $k$-近邻预测的标签向量 $\bar{\mathbf{y}}_i$ 与当前标签向量 $\tilde{\mathbf{y}}_i^t$ 来计算:
|
||||||
|
|
||||||
$$\pi_\theta(s_t)_i = p(a_i^t = 1) = \frac{\sum_{j=1}^C \mathbb{1}(\bar{y}_{ij} > \bar{y}_{i\tilde{y}_i}) \cdot \bar{y}_{ij}}{\sum_{j=1}^C \mathbb{1}(\bar{y}_{ij} \ge \bar{y}_{i\tilde{y}_i}) \cdot \bar{y}_{ij}}$$
|
$$
|
||||||
|
\pi_\theta(s_t)_i = p(a_i^t = 1) = \frac{\sum_{j=1}^C \mathbb{1}(\bar{y}_{ij} > \bar{y}_{i\tilde{y}_i}) \cdot \bar{y}_{ij}}{\sum_{j=1}^C \mathbb{1}(\bar{y}_{ij} \ge \bar{y}_{i\tilde{y}_i}) \cdot \bar{y}_{ij}}
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $C$ 表示标签向量的长度(分类的类别数),$\tilde{y}_i = \arg \max_j \tilde{y}_{ij}$ 表示状态 $s_t$ 中实例 $\mathbf{x}_i$ 的原始预测类别索引。
|
其中 $C$ 表示标签向量的长度(分类的类别数),$\tilde{y}_i = \arg \max_j \tilde{y}_{ij}$ 表示状态 $s_t$ 中实例 $\mathbf{x}_i$ 的原始预测类别索引。
|
||||||
|
|
||||||
@@ -38,11 +43,13 @@ $$\pi_\theta(s_t)_i = p(a_i^t = 1) = \frac{\sum_{j=1}^C \mathbb{1}(\bar{y}_{ij}
|
|||||||
|
|
||||||
**具有随机策略的确定性转移** 给定状态 $s_t$,我们使用上述随机策略函数 $\pi_\theta$ 确定动作向量 $\mathbf{a}^t$,增强学习过程的探索行为。具体来说,我们从伯努利分布 $\text{Bernoulli}(p_i)$ 中随机采样每个二进制值动作元素 $a_i^t$ 的值,其中 $p_i = p(a_i^t = 1)$。给定 $(s_t, \mathbf{a}^t)$,我们然后部署一个确定性转移模型来诱导下一个状态 $s_{t+1} = \{(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})\}_{i=1}^N$,使得:
|
**具有随机策略的确定性转移** 给定状态 $s_t$,我们使用上述随机策略函数 $\pi_\theta$ 确定动作向量 $\mathbf{a}^t$,增强学习过程的探索行为。具体来说,我们从伯努利分布 $\text{Bernoulli}(p_i)$ 中随机采样每个二进制值动作元素 $a_i^t$ 的值,其中 $p_i = p(a_i^t = 1)$。给定 $(s_t, \mathbf{a}^t)$,我们然后部署一个确定性转移模型来诱导下一个状态 $s_{t+1} = \{(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})\}_{i=1}^N$,使得:
|
||||||
|
|
||||||
$$\tilde{\mathbf{y}}_i^{t+1} =
|
$$
|
||||||
|
\tilde{\mathbf{y}}_i^{t+1} =
|
||||||
\begin{cases}
|
\begin{cases}
|
||||||
\tilde{\mathbf{y}}_i^t & \text{if } a_i^t = 0 \\
|
\tilde{\mathbf{y}}_i^t & \text{if } a_i^t = 0 \\
|
||||||
\bar{\mathbf{y}}_i & \text{if } a_i^t = 1
|
\bar{\mathbf{y}}_i & \text{if } a_i^t = 1
|
||||||
\end{cases}$$
|
\end{cases}
|
||||||
|
$$
|
||||||
|
|
||||||
该机制在向量空间中维护软标签分布,确保标签校正基于标签为噪声的可能性概率性地发生。通过引入随机性,学习过程探索更广泛的状态-动作对,增加发现更好策略的机会,同时避免次优解。此外,它减轻了由突然标签变化引起的干扰,允许模型自适应地从以不同状态为特征的演化环境中学习,最终增强学习系统的整体鲁棒性。
|
该机制在向量空间中维护软标签分布,确保标签校正基于标签为噪声的可能性概率性地发生。通过引入随机性,学习过程探索更广泛的状态-动作对,增加发现更好策略的机会,同时避免次优解。此外,它减轻了由突然标签变化引起的干扰,允许模型自适应地从以不同状态为特征的演化环境中学习,最终增强学习系统的整体鲁棒性。
|
||||||
|
|
||||||
@@ -52,19 +59,25 @@ $$\tilde{\mathbf{y}}_i^{t+1} =
|
|||||||
|
|
||||||
**标签一致性奖励** 通过确定性转移机制,下一个状态 $s_{t+1}$ 是通过在给定状态 $s_t$ 下采取动作 $a_t$ 以固定方式获得的。因此,$s_{t+1}$ 中标签 $\{\tilde{\mathbf{y}}_i^{t+1}\}_{i=1}^N$ 的质量直接反映了状态-动作对 $(s_t, a_t)$ 的质量。我们设计标签一致性奖励(LCR)函数 $R_{\text{LCR}}$ 来评估 $s_{t+1}$ 中的标签质量——即每个标签与数据集的拟合程度——基于 $k$-近邻标签预测机制。为了将策略函数的影响与标签质量评估分开,我们使用一个在原始数据集上预训练的固定骨干模型 $f_\omega$ 来提取 $s_{t+1}$ 中数据实例的嵌入特征,支持 $k$-近邻标签预测。具体来说,标签一致性奖励函数量化了所有 $N$ 个实例中给定标签与 $k$-近邻预测标签之间的负 Kullback-Leibler(KL)散度,如下所示:
|
**标签一致性奖励** 通过确定性转移机制,下一个状态 $s_{t+1}$ 是通过在给定状态 $s_t$ 下采取动作 $a_t$ 以固定方式获得的。因此,$s_{t+1}$ 中标签 $\{\tilde{\mathbf{y}}_i^{t+1}\}_{i=1}^N$ 的质量直接反映了状态-动作对 $(s_t, a_t)$ 的质量。我们设计标签一致性奖励(LCR)函数 $R_{\text{LCR}}$ 来评估 $s_{t+1}$ 中的标签质量——即每个标签与数据集的拟合程度——基于 $k$-近邻标签预测机制。为了将策略函数的影响与标签质量评估分开,我们使用一个在原始数据集上预训练的固定骨干模型 $f_\omega$ 来提取 $s_{t+1}$ 中数据实例的嵌入特征,支持 $k$-近邻标签预测。具体来说,标签一致性奖励函数量化了所有 $N$ 个实例中给定标签与 $k$-近邻预测标签之间的负 Kullback-Leibler(KL)散度,如下所示:
|
||||||
|
|
||||||
$$R_{\text{LCR}}(s_t, a_t) = -\mathbb{E}_{i \in [1:N]} \left[ \text{KL} \left( \tilde{\mathbf{y}}_i^{t+1}, \sum_{j \in \mathcal{N}_\omega(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^{t+1} \right) \right]$$
|
$$
|
||||||
|
R_{\text{LCR}}(s_t, a_t) = -\mathbb{E}_{i \in [1:N]} \left[ \text{KL} \left( \tilde{\mathbf{y}}_i^{t+1}, \sum_{j \in \mathcal{N}_\omega(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^{t+1} \right) \right]
|
||||||
|
$$
|
||||||
|
|
||||||
这里,$\mathcal{N}_\omega(\mathbf{x}_i)$ 表示在 $s_{t+1}$ 内实例 $\mathbf{x}_i$ 的全局 $k$-近邻索引,使用 $f_\omega$ 提取的嵌入计算。注意力权重 $\alpha_{ij}$ 以与公式 (2) 类似的方式计算,但基于特征提取器 $f_\omega$。该奖励函数从预测角度评估基于局部数据结构的标签的统计平滑性,与支持预测模型训练的最终目标一致。
|
这里,$\mathcal{N}_\omega(\mathbf{x}_i)$ 表示在 $s_{t+1}$ 内实例 $\mathbf{x}_i$ 的全局 $k$-近邻索引,使用 $f_\omega$ 提取的嵌入计算。注意力权重 $\alpha_{ij}$ 以与公式 (2) 类似的方式计算,但基于特征提取器 $f_\omega$。该奖励函数从预测角度评估基于局部数据结构的标签的统计平滑性,与支持预测模型训练的最终目标一致。
|
||||||
|
|
||||||
**噪声标签对齐奖励** 此外,为了评估标签校正动作 $a_t$ 的稳定性和鲁棒性,我们将状态 $s_{t+1}$ 中的数据分为两个子集:一个干净子集 $\mathcal{D}_{\text{cle}}^{t+1}$,包含标签未更改的实例索引——即 $a_i^t = 0$,和一个噪声子集 $\mathcal{D}_{\text{noi}}^{t+1}$,包含标签被校正的实例索引——即 $a_i^t = 1$。我们设计噪声标签对齐(NLA)奖励函数 $R_{\text{NLA}}$ 来评估噪声子集 $\mathcal{D}_{\text{noi}}^{t+1}$ 中的噪声标签与干净子集 $\mathcal{D}_{\text{cle}}^{t+1}$ 中的干净标签基于子集间 $k$-近邻标签预测机制的对齐程度,如下所示:
|
**噪声标签对齐奖励** 此外,为了评估标签校正动作 $a_t$ 的稳定性和鲁棒性,我们将状态 $s_{t+1}$ 中的数据分为两个子集:一个干净子集 $\mathcal{D}_{\text{cle}}^{t+1}$,包含标签未更改的实例索引——即 $a_i^t = 0$,和一个噪声子集 $\mathcal{D}_{\text{noi}}^{t+1}$,包含标签被校正的实例索引——即 $a_i^t = 1$。我们设计噪声标签对齐(NLA)奖励函数 $R_{\text{NLA}}$ 来评估噪声子集 $\mathcal{D}_{\text{noi}}^{t+1}$ 中的噪声标签与干净子集 $\mathcal{D}_{\text{cle}}^{t+1}$ 中的干净标签基于子集间 $k$-近邻标签预测机制的对齐程度,如下所示:
|
||||||
|
|
||||||
$$R_{\text{NLA}}(s_t, a_t) = -\mathbb{E}_{i \in \mathcal{D}_{\text{noi}}^{t+1}} \left[ \text{KL} \left( \tilde{\mathbf{y}}_i^{t+1}, \sum_{j \in \mathcal{N}_{\text{cle}}(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^{t+1} \right) \right]$$
|
$$
|
||||||
|
R_{\text{NLA}}(s_t, a_t) = -\mathbb{E}_{i \in \mathcal{D}_{\text{noi}}^{t+1}} \left[ \text{KL} \left( \tilde{\mathbf{y}}_i^{t+1}, \sum_{j \in \mathcal{N}_{\text{cle}}(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^{t+1} \right) \right]
|
||||||
|
$$
|
||||||
|
|
||||||
这里,$\mathcal{N}_{\text{cle}}(\mathbf{x}_i)$ 表示对于来自噪声子集的实例 $\mathbf{x}_i$,在干净子集中识别的 $k$-近邻。$\mathcal{N}_{\text{cle}}(\mathbf{x}_i)$ 和注意力权重 $\{\alpha_{ij}\}$ 再次使用 $f_\omega$ 提取的嵌入计算。每个噪声标签 $\tilde{\mathbf{y}}_i^{t+1}$ 与其 $k$-近邻干净邻居的基于注意力的聚合之间的对齐——负 KL 散度——反映了动作 $a_t$ 应用于 $\mathbf{x}_i$ 的标签校正的统计一致性。
|
这里,$\mathcal{N}_{\text{cle}}(\mathbf{x}_i)$ 表示对于来自噪声子集的实例 $\mathbf{x}_i$,在干净子集中识别的 $k$-近邻。$\mathcal{N}_{\text{cle}}(\mathbf{x}_i)$ 和注意力权重 $\{\alpha_{ij}\}$ 再次使用 $f_\omega$ 提取的嵌入计算。每个噪声标签 $\tilde{\mathbf{y}}_i^{t+1}$ 与其 $k$-近邻干净邻居的基于注意力的聚合之间的对齐——负 KL 散度——反映了动作 $a_t$ 应用于 $\mathbf{x}_i$ 的标签校正的统计一致性。
|
||||||
|
|
||||||
复合奖励函数 $R(s_t, a_t)$ 将上述两个子奖励函数集成如下:
|
复合奖励函数 $R(s_t, a_t)$ 将上述两个子奖励函数集成如下:
|
||||||
|
|
||||||
$$R(s_t, a_t) = \exp\left( R_{\text{LCR}}(s_t, a_t) + \lambda R_{\text{NLA}}(s_t, a_t) \right)$$
|
$$
|
||||||
|
R(s_t, a_t) = \exp\left( R_{\text{LCR}}(s_t, a_t) + \lambda R_{\text{NLA}}(s_t, a_t) \right)
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $\lambda$ 是一个权衡超参数,用于平衡两个子奖励函数的贡献。由于负 KL 散度的值是非正且无界的,我们部署指数函数 $\exp(\cdot)$ 将奖励值重新缩放到 $(0, 1]$ 的范围。这种缩放机制对于确保奖励有界和归一化至关重要,促进了稳定的学习过程。
|
其中 $\lambda$ 是一个权衡超参数,用于平衡两个子奖励函数的贡献。由于负 KL 散度的值是非正且无界的,我们部署指数函数 $\exp(\cdot)$ 将奖励值重新缩放到 $(0, 1]$ 的范围。这种缩放机制对于确保奖励有界和归一化至关重要,促进了稳定的学习过程。
|
||||||
|
|
||||||
@@ -74,33 +87,47 @@ $$R(s_t, a_t) = \exp\left( R_{\text{LCR}}(s_t, a_t) + \lambda R_{\text{NLA}}(s_t
|
|||||||
|
|
||||||
在该框架中,策略函数 $\pi_\theta$ 被视为“Actor”,而参数化为 $\varphi$ 的动作值函数 $Q_\varphi(s, a)$ 被引入作为“Critic”,以直接估计 Q 值,定义为 $Q(s, a) = \mathbb{E}_{\pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) | s_0 = s, a_0 = a \right]$,它表示从状态 $s$ 采取动作 $a$ 开始的期望折扣累积奖励。Actor-Critic 方法中策略函数的学习目标可以写为:
|
在该框架中,策略函数 $\pi_\theta$ 被视为“Actor”,而参数化为 $\varphi$ 的动作值函数 $Q_\varphi(s, a)$ 被引入作为“Critic”,以直接估计 Q 值,定义为 $Q(s, a) = \mathbb{E}_{\pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t R(s_t, a_t) | s_0 = s, a_0 = a \right]$,它表示从状态 $s$ 采取动作 $a$ 开始的期望折扣累积奖励。Actor-Critic 方法中策略函数的学习目标可以写为:
|
||||||
|
|
||||||
$$J(\pi_\theta) = \mathbb{E}_{s \sim \rho_{\pi_\theta}} \left[ \sum_a \pi_\theta(a|s) Q(s, a) \right]$$
|
$$
|
||||||
|
J(\pi_\theta) = \mathbb{E}_{s \sim \rho_{\pi_\theta}} \left[ \sum_a \pi_\theta(a|s) Q(s, a) \right]
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $\rho_{\pi_\theta}$ 表示平稳状态分布。目标关于 $\theta$ 的梯度可以表示为:
|
其中 $\rho_{\pi_\theta}$ 表示平稳状态分布。目标关于 $\theta$ 的梯度可以表示为:
|
||||||
|
|
||||||
$$\nabla_\theta J(\pi_\theta) = \mathbb{E}_{s \sim \rho_{\pi_\theta}, a \sim \pi_\theta(s)} \left[ \nabla_\theta \log \pi_\theta(a|s) Q(s, a) \right]$$
|
$$
|
||||||
|
\nabla_\theta J(\pi_\theta) = \mathbb{E}_{s \sim \rho_{\pi_\theta}, a \sim \pi_\theta(s)} \left[ \nabla_\theta \log \pi_\theta(a|s) Q(s, a) \right]
|
||||||
|
$$
|
||||||
|
|
||||||
上述目标中涉及的 Q 值使用 Critic 网络 $Q_\varphi$ 估计。为了学习 Critic 网络,我们使用 SARSA 方法计算时间差分(TD)误差,以对 Critic 函数进行同策略更新。时间步 $t-1$ 的 TD 误差由下式给出:
|
上述目标中涉及的 Q 值使用 Critic 网络 $Q_\varphi$ 估计。为了学习 Critic 网络,我们使用 SARSA 方法计算时间差分(TD)误差,以对 Critic 函数进行同策略更新。时间步 $t-1$ 的 TD 误差由下式给出:
|
||||||
|
|
||||||
$$\delta_{t-1} = R(s_{t-1}, a_{t-1}) + \gamma Q(s_t, a_t) - Q_\varphi(s_{t-1}, a_{t-1})$$
|
$$
|
||||||
|
\delta_{t-1} = R(s_{t-1}, a_{t-1}) + \gamma Q(s_t, a_t) - Q_\varphi(s_{t-1}, a_{t-1})
|
||||||
|
$$
|
||||||
|
|
||||||
Critic 网络的参数 $\varphi$ 通过以下使用 TD 误差 $\delta_{t-1}$ 的随机梯度步骤更新:
|
Critic 网络的参数 $\varphi$ 通过以下使用 TD 误差 $\delta_{t-1}$ 的随机梯度步骤更新:
|
||||||
|
|
||||||
$$\varphi \leftarrow \varphi + \beta \delta_{t-1} \nabla_\varphi Q_\varphi(s_{t-1}, a_{t-1})$$
|
$$
|
||||||
|
\varphi \leftarrow \varphi + \beta \delta_{t-1} \nabla_\varphi Q_\varphi(s_{t-1}, a_{t-1})
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $\beta$ 是 Critic 的学习率。
|
其中 $\beta$ 是 Critic 的学习率。
|
||||||
|
|
||||||
**Critic 的输入编码** Critic 网络 $Q_\varphi$ 需要状态和动作作为输入。考虑到与训练数据集大小相对应的状态和动作的潜在大维度,高效的输入编码方案对于降低计算成本至关重要。为此,我们设计了一个简单而有效的两步编码方案。首先,鉴于我们提出的 RLNLC 框架利用确定性转移机制,下一个状态 $s_{t+1}$ 由当前状态-动作对 $(s_t, a_t)$ 唯一确定。因此,我们可以使用 $s_{t+1}$ 替换相应的输入对 $(s_t, a_t)$。我们计算单个实例对 $(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$ 的奖励 $r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$,其原理与标签一致性奖励相同:
|
**Critic 的输入编码** Critic 网络 $Q_\varphi$ 需要状态和动作作为输入。考虑到与训练数据集大小相对应的状态和动作的潜在大维度,高效的输入编码方案对于降低计算成本至关重要。为此,我们设计了一个简单而有效的两步编码方案。首先,鉴于我们提出的 RLNLC 框架利用确定性转移机制,下一个状态 $s_{t+1}$ 由当前状态-动作对 $(s_t, a_t)$ 唯一确定。因此,我们可以使用 $s_{t+1}$ 替换相应的输入对 $(s_t, a_t)$。我们计算单个实例对 $(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$ 的奖励 $r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$,其原理与标签一致性奖励相同:
|
||||||
|
|
||||||
$$r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1}) = \exp\left( -\text{KL} \left( \tilde{\mathbf{y}}_i^{t+1}, \sum_{j \in \mathcal{N}_\omega(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^{t+1} \right) \right)$$
|
$$
|
||||||
|
r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1}) = \exp\left( -\text{KL} \left( \tilde{\mathbf{y}}_i^{t+1}, \sum_{j \in \mathcal{N}_\omega(\mathbf{x}_i)} \alpha_{ij} \tilde{\mathbf{y}}_j^{t+1} \right) \right)
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $\mathcal{N}_\omega(\mathbf{x}_i)$ 是 $\mathcal{D}$ 中 $f_\omega(\mathbf{x}_i)$ 的邻居集索引,$\{\alpha_{ij}\}$ 使用公式 (2) 计算。$\exp(\cdot)$ 函数用于归一化奖励并将其限制在 $(0, 1]$ 内。接下来,我们采用分箱策略基于奖励评估对状态 $s_{t+1} = \{(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})\}_{i=1}^N$ 进行编码,显著降低其维度。具体来说,我们考虑 $N_b$ ($N_b \ll N$) 个箱,并根据以下规则将 $s_{t+1}$ 中的每个实例-标签对 $(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$ 分配到一个箱中:
|
其中 $\mathcal{N}_\omega(\mathbf{x}_i)$ 是 $\mathcal{D}$ 中 $f_\omega(\mathbf{x}_i)$ 的邻居集索引,$\{\alpha_{ij}\}$ 使用公式 (2) 计算。$\exp(\cdot)$ 函数用于归一化奖励并将其限制在 $(0, 1]$ 内。接下来,我们采用分箱策略基于奖励评估对状态 $s_{t+1} = \{(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})\}_{i=1}^N$ 进行编码,显著降低其维度。具体来说,我们考虑 $N_b$ ($N_b \ll N$) 个箱,并根据以下规则将 $s_{t+1}$ 中的每个实例-标签对 $(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$ 分配到一个箱中:
|
||||||
|
|
||||||
$$(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1}) \in B_j \quad \text{if} \quad r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1}) \in \left( \frac{j-1}{N_b}, \frac{j}{N_b} \right]$$
|
$$
|
||||||
|
(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1}) \in B_j \quad \text{if} \quad r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1}) \in \left( \frac{j-1}{N_b}, \frac{j}{N_b} \right]
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $B_j$ 表示第 $j$ 个箱,$j \in [1 : N_b]$,$r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$ 是使用公式 (12) 在单个给定实例上计算的标签一致性奖励的指数。分箱后,我们构建一个长度为 $N_b$ 的向量 $\mathbf{v}_{t+1}$ 来编码状态 $s_{t+1}$,每个条目表示分配到对应箱的实例比例,使得:
|
其中 $B_j$ 表示第 $j$ 个箱,$j \in [1 : N_b]$,$r(\mathbf{x}_i, \tilde{\mathbf{y}}_i^{t+1})$ 是使用公式 (12) 在单个给定实例上计算的标签一致性奖励的指数。分箱后,我们构建一个长度为 $N_b$ 的向量 $\mathbf{v}_{t+1}$ 来编码状态 $s_{t+1}$,每个条目表示分配到对应箱的实例比例,使得:
|
||||||
|
|
||||||
$$v_{t+1}^j = |B_j| / N$$
|
$$
|
||||||
|
v_{t+1}^j = |B_j| / N
|
||||||
|
$$
|
||||||
|
|
||||||
其中 $|B_j|$ 表示第 $j$ 个箱中的实例数。该编码过程作为 Critic 网络 $Q_\varphi$ 的一部分部署,将输入 $(s_t, a_t)$ 转换为一个简单的向量 $\mathbf{v}_{t+1}$,促进后续学习并提高计算效率。
|
其中 $|B_j|$ 表示第 $j$ 个箱中的实例数。该编码过程作为 Critic 网络 $Q_\varphi$ 的一部分部署,将输入 $(s_t, a_t)$ 转换为一个简单的向量 $\mathbf{v}_{t+1}$,促进后续学习并提高计算效率。
|
||||||
|
|
||||||
@@ -110,22 +137,22 @@ $$v_{t+1}^j = |B_j| / N$$
|
|||||||
|
|
||||||
## 流程图概述
|
## 流程图概述
|
||||||
|
|
||||||
```graph TD
|
```mermaid
|
||||||
A[初始噪声数据集 D] --> B[预训练特征提取器 fθ]
|
graph TD
|
||||||
B --> C[初始化状态 s0]
|
A[初始噪声数据集 D] --> B[预训练特征提取器 fθ]
|
||||||
C --> D{Actor-Critic 学习循环}
|
B --> C[初始化状态 s0]
|
||||||
D --> E[Actor πθ: 基于KNN计算校正概率]
|
C --> D{Actor-Critic 学习循环}
|
||||||
E --> F[采样动作 at]
|
D --> E[Actor πθ: 基于KNN计算校正概率]
|
||||||
F --> G[确定性转移至 st+1]
|
E --> F[采样动作 at]
|
||||||
G --> H[Critic Qφ: 计算奖励 Rst,at]
|
F --> G[确定性转移至 st+1]
|
||||||
H --> I[更新 Actor 和 Critic 参数]
|
G --> H[Critic Qφ: 计算奖励 Rst,at]
|
||||||
I --> J{达到终止条件?}
|
H --> I[更新 Actor 和 Critic 参数]
|
||||||
J --否--> D
|
I --> J{达到终止条件?}
|
||||||
J --是--> K[使用训练好的 πθ 进行 T' 步标签清洗]
|
J --否--> D
|
||||||
K --> L[获得清洗后标签 sT']
|
J --是--> K[使用训练好的 πθ 进行 T' 步标签清洗]
|
||||||
L --> M[在清洗后数据上微调预测模型 hψ∘fθ]
|
K --> L[获得清洗后标签 sT']
|
||||||
M --> N[最终模型]
|
L --> M[在清洗后数据上微调预测模型 hψ∘fθ]
|
||||||
|
M --> N[最终模型]
|
||||||
|
```
|
||||||
|
|
||||||
该流程图概括了 RLNLC 方法的关键步骤:从初始化开始,通过 Actor-Critic 框架迭代学习标签校正策略,然后应用该策略清洗标签,最后在清洗后的数据上训练最终预测模型。
|
该流程图概括了 RLNLC 方法的关键步骤:从初始化开始,通过 Actor-Critic 框架迭代学习标签校正策略,然后应用该策略清洗标签,最后在清洗后的数据上训练最终预测模型。
|
||||||
|
|
||||||
Comment: NeurIPS 2025
|
|
||||||
Reference in New Issue
Block a user