5.3 基于权重自适应的方法_迁移学习导论-QQ阅读轻小说男生网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

5.3　基于权重自适应的方法

与样本选择法不同，样本权重法则假设源域和目标域的条件分布大致相同，即Ps（y|x）≈Pt（y|x），而边缘分布不同Ps（x）≠Pt（x）。由经典工作[Jiang and Zhai，2007]得到启发，我们使用最大似然估计来解决权重问题。

令θ表示模型待学习参数，则目标域模型的最优参数可以被表示为

利用贝叶斯公式，上式可以被计算为

注意到，其中的Pt（y|x）是未知的，恰恰是求解目标。我们能利用的分布只有Ps（x，y）。因此，我们能否通过一定的变换，利用Ps（x，y）巧妙地避开对目标域条件概率Pt（y|x）的计算，来学习到目标域的模型参数？

答案是肯定的。我们通过巧妙地构建两种概率之间的关系，利用条件概率近似相等（Ps（y|x）≈Pt（y|x））这一条件可以进行如下的变换：

其中的这一项，我们将其称为概率密度比（Density Rati），它将直接指导今后的样本权重学习。

通过概率密度比，可以构建出源域和目标域的概率密度之间的关系。总结来看，目标域的模型参数可以被重新表示为

上式中的每一项都是可被求解的，因此，问题得到了解决。

通过上面的分析我们知道，概率密度比可以构建源域和目标域概率分布之间的关系，因此可以作为后续方法构建的桥梁。为了方便表示，我们将概率密度比记为

因此，β向量便表示概率密度比。

那么，概率密度比如何发挥作用？我们回顾4.3节中的迁移学习统一表征，则目标域的判别函数可以被重新表示为

上式是一个通用的表征算法，可以在具体算法中应用。例如，在逻辑回归中，可以重新表征为

而在SVM公式中，可以重新表征为

特别地，样本权重法也可以与基于特征变换的迁移方法有机结合，如果我们将此密度比与最大均值差异MMD距离进行结合，其可以被表示为

应用核技巧，上式可以被化简为

此方法便是经典的核均值匹配（Kernel Mean Matching，KMM）算法[Huang et al.，2007]，其中ϵ和B为预先定义好的阈值。关于KMM的详细推导和说明，请参照其原始论文。

基于上述分析，后续又出现很多方法进行样本权重的学习。值得一提的是，此方法可以直接集成在深度学习中进行样本权重的深度学习。例如，[Wang et al.，2019e，Wang et al.，2019f]就在迁移和微调过程中进行权重的学习，[Moraffah et al.，2019]则加入了一些因果推断（Casuality）来帮助更好地学习。