理论计算机科学家 Boaz Barak：深度学习并非“简单的统计”，二者距离已越来越远(3)

2022-08-30 18:23来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

场景A：拟合统计模型

通常来说，将统计模型与数据进行拟合的步骤如下： 1、我们观察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵，y 视为一个 n 维向量；数据来源于一个结构和噪声模型：每个坐标的得到形式是，其中是对应的噪声，为简单起见使用了加性噪声，而是正确的真实标签。） 2、通过运行某种优化算法，我们可以将模型拟合到数据中，使的经验风险最小。也就是说，我们使用优化算法来找到的最小化数量，其中是一个损失项（捕捉距离 y 有多近)，是一个可选的规范化项（试图使得偏向更简单的模型）。 3、我们希望，我们的模型能具有良好的总体损失，因为泛化误差/损失很小（这种预测是基于实验数据所在的总体数据来获得的）。图注：Bradley Efron经过对噪音的观察所复现的牛顿第一定律漫画这种非常通用的范式包含了许多设置，包括最小二乘线性回归、最近邻、神经网络训练等等。在经典的统计设置中，我们期望观察到以下情况：偏差/方差权衡：将 F 作为优化的模型集。(当我们处于非凸设置和/或有一个正则器项，我们可以让 F作为这种模型的集合，考虑到算法选择和正则器的影响，这些模型可以由算法以不可忽略的概率实现。) F 的偏差是对正确标签的最佳近似，可以通过元素来实现。F 的类越大，偏差越小，当，偏差甚至可以是零。然而，当 F 类越大，则需要越多样本来缩小其成员范围，从而算法输出模型中的方差就越大。总体泛化误差是偏差项和方差贡献的总和。因此，统计学习通常会显示偏差/方差权衡，并通过正确模型复杂性的“金发姑娘选择”来最小化整体误差。事实上，Geman 等人也是这么做的，通过说“偏差-方差困境导致的基本限制适用于包括神经网络在内的所有非参数推理模型”来证明他们对神经网络的悲观情绪是合理的。更多并非总是最好的。在统计学习中，获得更多的特征或数据并不一定能提高性能。例如，从包含许多不相关特征的数据中学习更具挑战性。类似地，从混合模型中学习，其中数据来自两个分布之一（例如和），比独立学习单个更难。收益递减。在许多情况下，将预测噪声降低到某个参数，其所需的数据点数量在某些参数 k 下以的形式拓展。在这种情况下，需要大约 k 个样本来“起飞”，而一旦这样做，则会面临收益递减的制度，即假设花耗 n 个点来达到（比如）90%的准确度，那么想要将准确度提高到95%，则大约需要另外 3n 个点。一般来说，随着资源增加（无论是数据、模型的复杂性，还是计算），我们希望捕捉到更多更细的区别，而不是解锁新的质量上的能力。对损失、数据的强烈依赖。在将模型拟合到高维数据时，一个很小的细节就有可能造成结果的很大不同。统计学家知道，诸如 L1 或 L2 正则化器之类的选择很重要，更不用说使用完全不同的数据集，不同数量的高维优化器将具有极大的差异性。数据点没有自然的“难度”（至少在某些情况下）。传统上认为，数据点是独立于某个分布进行采样的。尽管靠近决策边界的点可能更难分类，但考虑到高维度的测量集中现象，可预计大多数点的距离将存在相似的情况。因此，至少在经典数据分布中，并不期望点在其难度水平上有很大差异。然而，混合模型可以显示这种差异的不同难度级别，所以与上述其他问题不同，这种差异在统计设置中不会非常令人惊讶。

99科技网：http://www.99it.com.cn

共6页: