主页 > 元宇宙 > 正文

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远(3)

2022-08-31 12:20来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

场景A:拟合统计模型

通常来说,将统计模型与数据进行拟合的步骤如下: 1、我们观察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵,y 视为一个 n 维向量;数据来源于一个结构和噪声模型:每个坐标 的得到形式是 ,其中 是对应的噪声,为简单起见使用了加性噪声,而 是正确的真实标签。) 2、通过运行某种优化算法,我们可以将模型 拟合到数据中,使 的经验风险最小。也就是说,我们使用优化算法来找到 的最小化数量 ,其中 是一个损失项(捕捉 距离 y 有多近), 是一个可选的规范化项 (试图使得 偏向更简单的模型)。 3、我们希望,我们的模型能具有良好的总体损失,因为泛化误差/损失 很小(这种预测是基于实验数据所在的总体数据来获得的)。 图注:Bradley Efron经过对噪音的观察所复现的牛顿第一定律漫画 这种非常通用的范式包含了许多设置,包括最小二乘线性回归、最近邻、神经网络训练等等。在经典的统计设置中,我们期望观察到以下情况: 偏差/方差权衡: 将 F 作为优化的模型集。(当我们处于非凸设置和/或有一个正则器项,我们可以让 F作为这种模型的集合,考虑到算法选择和正则器的影响,这些模型可以由算法以不可忽略的概率实现。) F 的偏差是对正确标签的最佳近似,可以通过元素 来实现。F 的类越大,偏差越小,当 ,偏差甚至可以是零。然而,当 F 类越大, 则需要越多样本来缩小其成员范围,从而算法输出模型中的方差就越大。总体泛化误差是偏差项和方差贡献的总和。 因此,统计学习通常会显示偏差/方差权衡,并通过正确模型复杂性的“金发姑娘选择”来最小化整体误差。事实上,Geman 等人也是这么做的,通过说“偏差-方差困境导致的基本限制适用于包括神经网络在内的所有非参数推理模型”来证明他们对神经网络的悲观情绪是合理的。 更多并非总是最好的。 在统计学习中,获得更多的特征或数据并不一定能提高性能。 例如,从包含许多不相关特征的数据中学习更具挑战性。类似地,从混合模型中学习,其中数据来自两个分布之一(例如 和 ),比独立学习单个更难。 收益递减。 在许多情况下,将预测噪声降低到某个参数 ,其所需的数据点数量在某些参数 k 下以 的形式拓展。在这种情况下,需要大约 k 个样本来“起飞”,而一旦这样做,则会面临收益递减的制度,即假设花耗 n 个点来达到(比如)90%的准确度,那么想要将准确度提高到95%,则大约需要另外 3n 个点。一般来说,随着资源增加(无论是数据、模型的复杂性,还是计算),我们希望捕捉到更多更细的区别,而不是解锁新的质量上的能力。 对损失、数据的强烈依赖。 在将模型拟合到高维数据时,一个很小的细节就有可能造成结果的很大不同。统计学家知道,诸如 L1 或 L2 正则化器之类的选择很重要,更不用说使用完全不同的数据集,不同数量的高维优化器将具有极大的差异性。 数据点没有自然的“难度”(至少在某些情况下)。 传统上认为,数据点是独立于某个分布进行采样的。尽管靠近决策边界的点可能更难分类,但考虑到高维度的测量集中现象,可预计大多数点的距离将存在相似的情况。因此,至少在经典数据分布中,并不期望点在其难度水平上有很大差异。然而,混合模型可以显示这种差异的不同难度级别,所以与上述其他问题不同,这种差异在统计设置中不会非常令人惊讶。

99科技网:http://www.99it.com.cn

相关推荐
MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流 MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流

近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上

元宇宙2022-08-31

针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习 针对深度学习的“失忆症”,科学家提出基于相似性加权交错学习

本文介绍了神经科学和机器学习的进一步发展。

元宇宙2022-08-28

资产组合理论对公司决策的影响 资产组合理论对公司决策的影响

一、数学建模中的灵敏度分析问题 看你自己定义。 灵敏度是相对的,比如分析

元宇宙2022-08-06

28岁计算机专业女生,未来该如何发展? 28岁计算机专业女生,未来该如何发展?

虽然计算机领域近两年确实有点卷了,但是总体上来说,计算机领域的创新空间

元宇宙2022-07-23

马斯洛需求层次论这个理论对设计的指导意义是什么? 马斯洛需求层次论这个理论对设计的指导意义是什么?

因为本人从事多年企业法务,在不清楚你说的设计具体是指哪一块的情况下,仅

元宇宙2022-07-21

混沌理论是什么?状态是如何演化的 混沌理论是什么?状态是如何演化的

恒星是特指的,是宇航员看到的恒星,整个宇宙中恒星很多,距离我们的远近也

元宇宙2022-07-06

计算机还能火多久呢? 计算机还能火多久呢?

要问计算机行业还能火几年,我们先来看几个概念, 服务器、电脑、笔记本电

元宇宙2022-07-06

简述宇宙学发展的历史线索和大爆炸宇宙理论的基本观点及其深远影响。 简述宇宙学发展的历史线索和大爆炸宇宙理论的基本观点及其深远影响。

地心说(托勒密) 日心说(哥白尼) 大爆炸 它的主要观点是认为我们的宇宙曾

元宇宙2022-07-05

为什么是霍金黑洞理论? 为什么是霍金黑洞理论?

1974年,霍金提出黑洞蒸发的概念,认为在黑洞周围,在虚粒子产生的相对瞬间

元宇宙2022-07-04

多重宇宙理论的概念如何? 多重宇宙理论的概念如何?

  科学家休埃弗莱特在1957年提出了“多重宇宙理论”。多重宇宙 十理论是以量

元宇宙2022-07-01