![迁移学习导论](https://wfqqreader-1252317822.image.myqcloud.com/cover/69/38507069/b_38507069.jpg)
5.3 基于权重自适应的方法
与样本选择法不同,样本权重法则假设源域和目标域的条件分布大致相同,即Ps(y|x)≈Pt(y|x),而边缘分布不同Ps(x)≠Pt(x)。由经典工作[Jiang and Zhai,2007]得到启发,我们使用最大似然估计来解决权重问题。
令θ表示模型待学习参数,则目标域模型的最优参数可以被表示为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-086-2.jpg?sign=1738829377-2dywhG7Ou1V3xdhxR4VBUltxjle7wi1E-0-c771656d4e9d4ce69128e1883e4c64fc)
利用贝叶斯公式,上式可以被计算为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-086-3.jpg?sign=1738829377-PnGfbFIZJDxfMyM2PvD5X1FtANP8Trs3-0-3a3ea856bbbfcec8bd82dff740693f02)
注意到,其中的Pt(y|x)是未知的,恰恰是求解目标。我们能利用的分布只有Ps(x,y)。因此,我们能否通过一定的变换,利用Ps(x,y)巧妙地避开对目标域条件概率Pt(y|x)的计算,来学习到目标域的模型参数?
答案是肯定的。我们通过巧妙地构建两种概率之间的关系,利用条件概率近似相等(Ps(y|x)≈Pt(y|x))这一条件可以进行如下的变换:
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-087-2.jpg?sign=1738829377-rZK8E5Bjbx44S1YDu0k0JrTH5pYBiiat-0-25e6c2f0d36a4c2b87f7630fc9218cd3)
其中的这一项,我们将其称为概率密度比(Density Rati),它将直接指导今后的样本权重学习。
通过概率密度比,可以构建出源域和目标域的概率密度之间的关系。总结来看,目标域的模型参数可以被重新表示为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-087-4.jpg?sign=1738829377-9FijgiQ5FLjnZCpMH7cWEdTqmJpBYbTX-0-368a08900289b9274483d2b6bbcaa6e6)
上式中的每一项都是可被求解的,因此,问题得到了解决。
通过上面的分析我们知道,概率密度比可以构建源域和目标域概率分布之间的关系,因此可以作为后续方法构建的桥梁。为了方便表示,我们将概率密度比记为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-087-5.jpg?sign=1738829377-dA0RepJVv9NZHeGD3EuPp3PH4WULyIrX-0-9f4802b0b5576fce5f763bebf174afd0)
因此,β向量便表示概率密度比。
那么,概率密度比如何发挥作用?我们回顾4.3节中的迁移学习统一表征,则目标域的判别函数可以被重新表示为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-087-6.jpg?sign=1738829377-f2JePhlXIdpZmIx43NlrVKBFqYcUZe9Y-0-15798270b4dcf6630b897b76a59130c3)
上式是一个通用的表征算法,可以在具体算法中应用。例如,在逻辑回归中,可以重新表征为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-087-7.jpg?sign=1738829377-Rs9Z8dtgEFBpuAF6H1lDnPYFKGM8pBPv-0-dbeef19d96a08c3ea3b421c2643cf7ba)
而在SVM公式中,可以重新表征为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-088-1.jpg?sign=1738829377-XNvVU2peYl260mj7Jf1oze3Wo89YdP02-0-0e8905d367fb0cfb22334bc5c13e3276)
特别地,样本权重法也可以与基于特征变换的迁移方法有机结合,如果我们将此密度比与最大均值差异MMD距离进行结合,其可以被表示为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-088-2.jpg?sign=1738829377-CH3Xp2OHJDPrkftqSlkjj0jfq6EPbRA3-0-0d2658df341580577c8bc02b25318cf5)
应用核技巧,上式可以被化简为
![](https://epubservercos.yuewen.com/FF452F/20266983801430906/epubprivate/OEBPS/Images/41089-00-088-3.jpg?sign=1738829377-4mwt5laTTPUzeZr7urFHKmAkQXsvwi4U-0-e5c243f7dc5075ec28bd18049779612b)
此方法便是经典的核均值匹配(Kernel Mean Matching,KMM)算法[Huang et al.,2007],其中ϵ和B为预先定义好的阈值。关于KMM的详细推导和说明,请参照其原始论文。
基于上述分析,后续又出现很多方法进行样本权重的学习。值得一提的是,此方法可以直接集成在深度学习中进行样本权重的深度学习。例如,[Wang et al.,2019e,Wang et al.,2019f]就在迁移和微调过程中进行权重的学习,[Moraffah et al.,2019]则加入了一些因果推断(Casuality)来帮助更好地学习。