最新轻量ViT综述!后Transformer时代如何发展?(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
[47]提出了另一种新的解决方案,即通过Fine-Grain Manifold Distillation进行定向学习。在流形学习中,维数被非线性地降低。它通过学习嵌入在原始特征空间中的平滑流形来构建低维特征。KD最近引入了流形学习的概念。通过这些方法[47],学生们学习如何保持教师所教样本之间的关系。这些主要尝试是粗略的,可以进一步改进,因为补丁而不是图像是ViT的基本输入元素。该方法利用矩阵的正交分解将流形关系映射解耦为三部分。关系图有三个部分,图像内关系图、图像间关系图和随机采样关系图。例如,在论文[47]中,计算了包含相同颜色的每组面片的流形关系图,如图7所示。
知识蒸馏方法 :使用流形蒸馏损失(MD损失),它是图像内patch级蒸馏损失+图像间patch级蒸馏损失+随机采样patch级流形蒸馏损失与原始知识蒸馏损失函数的组合。计算Manifold distillation损失以映射教师和学生模型特征。图7说明了图像级和patch级流形,如下所示:
所提出的蒸馏方法的总体结构如图8所示:
主要观察结果 :
使用流形空间映射学生和教师特征,并将映射损失解耦为三项以降低计算复杂性; 解耦显著减少了计算和内存空间,但如果patch太小,则计算和存储开销太高; 对于224×224的输入大小,Swin Trans中的patch数N为3136。使用如此大的patch数量显著增加了图像内流形损失Lintra的计算复杂性和存储空间需求。 Cross Inductive Bias DistillationSucheng等人[48]提出了另一种新的解决方案,称为Cross Inductive Bias Distillation(Coadvice)。论文[48]中的作者指出,教师准确度不是学生准确度的主要因素,但感应式教师偏差是。建议学生Transformer可以与具有不同架构感应式偏差的轻量级教师一起很好地完成,从而提供卓越的结果。因此,尽管在同一数据集上接受过训练,但具有不同归纳偏差的教师拥有不同的知识,而具有不同归纳偏差的模型往往侧重于不同的模式。在蒸馏过程中,由于多教师网络提取了不同的知识,学生对数据和组件有了更准确和全面的理解。还提出了一种令牌感应偏差对齐方法,以将令牌的感应偏差与其目标教师模型对齐。[48]中提出的视觉Transformer(CiT)优于所有现有的ViT,仅使用具有交叉感应偏置蒸馏方法的轻量级教师。
主要观察点 :
根据这项研究,教师内在的归纳偏见比教师的准确性更重要; CNN和INN具有归纳偏见,这会导致互补模式,而归纳偏见较少的视觉Transformer可以从两种架构中继承信息; 当老师具有不同的归纳偏见时,给多个具有不同归纳偏见的老师的学生更有可能学习各种知识; 与在变压器中引入归纳偏见相比,知识蒸馏使学生Transformer的性能与各种归纳偏见教师相似; 本研究开发了一种cross-inductive bias ViT(CiT),其性能优于相同架构的所有现有ViT。本研究中使用的超轻量级教师的DeiTi和DeiT-S参数分别只有20%和50%。99科技网:http://www.99it.com.cn
