针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习(4)

2022-08-30 17:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

接下来，为了测试SWIL是否可以在更复杂的环境中工作，作者团队训练了一个具有全连接输出层的6层非线性CNN（图4A），以识别CIFAR10数据集中剩余8个不同类别（“cat”和“car”除外）的图像。他们还对模型进行了重新训练，在之前定义的5种不同训练条件（FoL、FIL、PIL、SWIL和EqWIL）下学习“cat”（“猫”）类。图4C显示了5种情况下每类图像的分布。对于SWIL、PIL和EqWIL条件，每个epoch的总图像数为2400，而对于FIL和FoL，每个epoch的总图像数分别为45000和5000。作者团队针对每种情况对网络分别进行训练，直到性能趋于稳定。他们在之前未见过的总共9000张图像（1000张图像/类，不包括“car”（“轿车”）类）上对该模型进行了测试。图4B是作者团队基于CIFAR10数据集计算的相似性矩阵。“cat”类和“dog”（“狗”）类更类似，而其他动物类属于同一分支（图4B左）。根据树状图（图4B），将“truck” （“货车”）、“ship”（“轮船”）和 “plane”（“飞机”）类别称为不同的旧类别，除“cat”类外其余的动物类别称为相似的旧类别。对于FoL，模型学习了新的“cat”类，但遗忘了旧类别。与Fashion-MNIST数据集结果类似，“dog”类（与“cat”类相似性最大）和“truck”类（与“cat”类相似性最小）均存在干扰梯度，其中“dog”类的遗忘率最高，而“truck”类遗忘率最低。如图4D所示，FIL算法学习新的“cat”类时克服了灾难性的干扰。对于PIL算法，模型在每个epoch使用18.75倍的数据量学习新的“cat”类，但“cat”类的召回率比FIL（H=5.72，P<0.05）低。对于SWIL，在新类别、相似和不同旧类别上的召回率、总准确率和损失与FIL相当（H=0.42，P>0.05；见表2和图4D）。SWIL对新“cat”类的召回率高于PIL（H=7.89，P<0.05）。使用EqWIL算法时，新“cat”类的学习情况与SWIL和FIL相似，但对相似旧类别的干扰较大（H=24.77，P<0.05；见表2）。 FIL、PIL、SWIL和EqWIL这4种算法预测不同旧类别的性能相当（H=0.6，P>0.05)。SWI比PIL更好地融合了新的“cat”类，并有助于克服EqWIL中的观测干扰。与FIL相比，使用SWIL学习新类别速度更快，加速比=31.25x (45000×10/(2400×6))，同时使用更少的数据量 (内存比=18.75x)。这些结果证明，即使在非线性CNN和更真实的数据集上，SWIL也可以有效学习新类别事物。图4：( A ) 作者团队使用具有全连接输出层的6层非线性CNN学习CIFAR10数据集中的8类事物。( B ) 相似度矩阵（右）是在呈现新的“cat”类之后，作者团队根据最后一个卷积层的激活函数计算获得。对相似矩阵应用层次聚类（左），在树状图中显示动物（橄榄绿）和交通工具（蓝色）两个上义词类别的分组情况。( C ) 作者团队在5种不同的条件下预训练CNN学习新的“cat”类（橄榄绿），直到性能平稳：1）FoL（共计n=5000张图像/epoch）；2）FIL（共计n=45000张图像/epoch）；3) PIL（共计n=2400张图像/epoch）；4) SWIL（共计n=2400张图像/epoch）；5) EqWIL（共计n=2400张图像/epoch）。每个条件重复10次。（D）FoL（黑色）、FIL（蓝色）、PIL（棕色）、SWIL（洋红色）和 EqWIL（金色）预测新类别、相似旧类别（CIFAR10数据集中的其他动物类）和不同旧类别（“plane” 、“ship” 和 “truck”）的召回率，预测所有类别的总准确率，以及在测试数据集上的交叉熵损失，其中横坐标都是epoch数。新内容与旧类别的一致性对学习时间和所需数据的影响

99科技网：http://www.99it.com.cn

共8页: