主页 > 快资讯 > 正文

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远(5)

2022-08-30 18:23来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

情况1:监督学习

到目前为止,我们只讨论了自监督学习,但深度学习的典型例子仍然是监督学习,毕竟深度学习的 “ImageNet时刻”是来自ImageNet。那么,我们上面所探讨的内容是否适用于监督学习呢? 首先, 有监督的大规模深度学习的出现,在某种程度上是一个历史性的意外,这得益于大型高质量标记数据集(即 ImageNet)的可用性。 可以想象另一种历史:深度学习首先通过无监督学习在自然语言处理方面取得突破性进展,然后才转移到视觉和监督学习中。 其次,有一些证据表明, 即使监督学习与自监督学习使用完全不同的损失函数,它们在“幕后”的行为也相似。两者通常都能达到相同的性能。 在“Revisiting Model Stitching to Compare Neural Representations”这篇论文中也发现,它们学习了相似的内部表示。具体来说,对于每一个 ,都可以将通过自监督训练的深度 d 模型的首 k 层数与监督模型的最后 d-k 层数“缝合”起来,并且使性能几乎保持原有水平。 图注:来自 Hinton 团队论文“Big Self-Supervised Models are Strong Semi-Supervised Learners”的表格。请注意监督学习、微调 (100%) 自监督和自监督 + 线性探测在性能上的普遍相似性 图注:摘自论文“Revisiting Model Stitching to Compare Neural Representations”的自监督与监督模型。左图——如果自监督模型的准确度比监督模型低3%,那么,完全兼容的表示将造成 p·3% 的拼接惩罚(p层来自自监督模型时)。如果模型完全不兼容,那么随着更多模型的缝合,预计准确度会急剧下降。右图——拼接不同自监督模型的实际结果。 自监督 + 简单模型的优势在于,它们可以将特征学习或“深度学习魔法”(深度表示函数的结果)与统计模型拟合(由线性或其他“简单”分类器完成,分离出来在此表示之上)。 最后,虽然是推测,但“元学习”似乎通常等同于学习表示这一事实(详情看论文“Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML”),可以视为另一个支持本文观点的证据,不管模型表面上优化的目标是什么。

情况2:过度参数化

读者可能已经注意到,我跳过了统计学习模型与深度学习模型在实际应用中存在差异的典型例子,即缺少“偏差-方差权衡”以及过度参数化模型出色的泛化能力。 我不详细讲这些例子的原因有两个: 一是如果监督学习确实等于自监督 + 简单的“底层”学习,那么就可以解释它的泛化能力(详情请看论文“For self-supervised learning, Rationality implies generalization, provably”); 二是我认为 过度参数化并不是深度学习成功的关键。 深度网络之所以特别,并不是因为它们与样本数量相比很大,而是因为它们的绝对值很大。实际上, 无监督/自监督学习模型中通常没有过度参数化。即使是大规模的语言模型,它们也只是数据集更大,但这也并没有减少它们性能的神秘性。 图注:在“The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers”这篇论文中,研究者的发现表明,如今的深度学习架构在“过度参数化”与“欠采样”状态下表现相似(其中,模型在有限数据上训练多代,直到过度拟合:也就是上图所示的“真实世界”),在“参数化不足”与“在线”情况下也如此(其中,模型只训练一代,每个样本只看到一次:也就是上图中的“理想世界”)

99科技网:http://www.99it.com.cn

相关推荐
理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远

统计学习在深度学习中扮演着重要的角色,这是毋庸置疑的。

快资讯2022-08-30

MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流 MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流

近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上

快资讯2022-08-30

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习 针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习

本文介绍了神经科学和机器学习的进一步发展。

快资讯2022-08-30

百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限 百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限

在王井东看来,百度搜索引擎、自动驾驶、智能云、小度等等不同的业务线中,

快资讯2022-08-28

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远

本文介绍了深度学习或机器学习中的概念归纳为统计学中的词义,也引起了大多

快资讯2022-08-28

中科院上海分院——科学家“逆行”守护实验室 中科院上海分院——科学家“逆行”守护实验室

面对疫情挑战,中科院上海分院许多科技工作者背上行囊,住进实验室,既有年

快资讯2022-08-13

经典新星爆发过程中白矮星混合理论研究取得新进展 经典新星爆发过程中白矮星混合理论研究取得新进展

经典新星是发生在白矮星表面的热核反应现象, 对星系化学演化起着重要的作用

快资讯2022-08-12

科学家研究了植物在月球上生长的可行性,月壤中首次成功培育出植物 科学家研究了植物在月球上生长的可行性,月壤中首次成功培育出植物

《通讯·生物学》杂志12日发表一项太空生物学实验,科学家研究了植物在月球

快资讯2022-08-10

科学家构建高质量水稻泛基因组 科学家构建高质量水稻泛基因组

近日,中国农业科学院作物科学研究所水稻分子设计技术与应用创新团队和上海

快资讯2022-08-02

科学家实现可调控的马约拉纳零能模格点阵列,助力量子计算技术进一步发展 科学家实现可调控的马约拉纳零能模格点阵列,助力量子计算技术进一步发展

新华社北京6月8日电(记者张泉)马约拉纳零能模是一类存在于固体材料中的准

快资讯2022-07-26