PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

2022-08-30 17:55来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

来源 | AI科技评论作者 | 王玥编辑 | 陈彩娴近日，一项新研究发布于PNAS，再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题，而且还是麻省理工数学课程难度的数学题！在这项新研究中，研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题，并通过小样本学习自动解决数据集中 81%的数学课程问题，并且 Codex 在这些任务的表现上达到了人类水平。原文链接：https://www.pnas.org/doi/10.1073/pnas.2123433119 这项研究的出现，颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出，Codex 之所以能做到实现这样的能力，正是因为团队进行了一大创新，过去那些不成功的研究只使用了基于文本的预训练，而此次现身的 Codex 神经网络不仅要基于文本进行预训练，并且还对代码进行了微调。研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程，从七门课程中随机抽取 25 个问题：MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。同时，研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH，用 MATH 来检测OpenAI Codex 的能力，MATH 从6大数学板块：初级代数，代数，计数和概率，中级代数，数论，和初级微积分中各抽取15个问题。图注：研究中使用的课程问题数据集和MATH基准测试研究显示，Codex 解决了问题数据集和 MATH 数据集中的 265 个问题，其中有 213 个是自动解决的。

创新何所在

在 Transformer 发布后，基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务，包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练，所以这些模型基本上不能解决数学问题，GPT-3就是一个典型例子。后来，通过小样本学习（few-shot learning）和思维链 (Chain-of-thought， CoT) 提示，GPT-3 的数学推理能力得到了提高；然而，在没有代码的情况下，即便有小样本学习和 CoT 提示， GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。过去关于解数学题的研究，可能在相对简单的数学水平上有一定成绩。举个例子，基于协同训练输出来验证或预测表达式树的技术，比如MAWPS 和 Math23k，能够以超过 81% 的准确率解决小学级别的数学问题，但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树，能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案，并且产生了过拟合，不能推广到其他课程。而这项工作的最大创新点之一就是，不仅对Codex 这种Transformer 模型进行了文本上的预训练，还在代码上进行了微调，使得其可以生成大规模解决数学问题的程序。研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中，仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。相比之下，使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络（OpenAI Codex code-davinci-002）合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。而使用相同的神经网络 Codex 再加上少样本学习，便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题，最后通过手动提示解决。小样本学习方式的补充，则是这项研究的第二大创新点。从上图中可以看出，当零样本学习无法解答问题时，便会使用（问题，代码）对（pair）执行小样本学习： 1）使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题； 2）使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题； 3）将最相似的问题及其相应的代码作为小样本问题的示例。图注：4种方式的自动解题率对比上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出，橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现，基本上在每个数学领域上的表现都强于其他3种方式。这项研究的第三大创新点，便是提供了一条解决数学问题和解释为何如此解答的管道，下图展示了MIT 5门数学课程中管道的执行流程。以 18.01 单变量微积分问题为例，给定一个问题和自动生成的前缀“使用 SymPy”，Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后，程序会自动提示再次输入 Codex，从而生成生成的代码解释。

99科技网：http://www.99it.com.cn

共2页:
上一页
1
2
下一页

相关推荐

MetaAI科学家解读最新模型：200+语言互译，千倍翻译数据，全球元宇宙用户自由交流
近日，MetaAI发布了NLLB-200模型，宣布在200多种语言（其中有70%是低资源语言）上

快资讯2022-08-30

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门
近日，一项新研究发布于PNAS，再次刷新了神经网络的能力。

快资讯2022-08-30

图形学人物简史：两位图灵奖与奥斯卡得主的图形学研究往事
神经网络的构思出现在 50 多年前，当其逐步走向实用，便给我们带来了深度学

快资讯2022-08-30

人工智能符号接地问题研究的意义和挑战
符号接地问题要解决符号如何获得意义、符号和它们的意义如何联系起来的问题

快资讯2022-08-30

百度计算机视觉首席科学家王井东：在视觉的竞技场，研究与落地没有明显的界限
在王井东看来，百度搜索引擎、自动驾驶、智能云、小度等等不同的业务线中，

快资讯2022-08-28

机器学习方法在经济研究中的应用综述
机器学习方法在经济研究中的应用综述。

快资讯2022-08-28

惠崮尔最新消息：兑付时代终降临，出借人最新通知
惠崮尔新消息官方发布 , 惠崮尔千呼万唤终于看到清退兑付回款最新消息 , 惠崮

快资讯2022-08-20

惠农聚宝最新消息：兑付时代终降临，出借人最新通知
惠农聚宝最新进展消息 , 惠农聚宝查询出借人回款进度 , 惠农聚宝兑付工作。

快资讯2022-08-20

金蛋理财最新消息：兑付时代终降临，出借人最新通知
金蛋理财好消息 , 金蛋理财最新消息兑付还款进度查询在这里 , 金蛋理财回款最

快资讯2022-08-20

金蛋理财最新消息：兑付时代终降临，出借人最新通知
金蛋理财好消息 , 金蛋理财最新消息兑付还款进度查询在这里 , 金蛋理财回款最

快资讯2022-08-20

头条资讯

元宇宙概念为何爆发，互联网技术枯竭

音乐对顾客心理的影响

县级加盟什么店挣钱？

加盟雪丰建材需要什么条件？

未来经济发展的趋势？

推荐资讯

win7系统应用程序提示0x00000010错误怎么解决方法

OPPO,Vivo,华为，小米，哪个手机和智能手表更胜一筹？

在小县城开一家什么店比较赚钱?

在县城，做什么项目能挣大钱？

未来价值投资在哪里，未来经济世界又有着怎样的联系？

最近更新

合并在即，关于以太坊下半场的主题Layer2，这些你一定要知道

网算星球：当泡沫散去，数字藏品还能“火”吗？

网算星球：两年成为收藏界的“新宠儿”——NFT

以太坊的价值观叙事

北美矿业专栏（十三）：气候、能源巨变的时代，挖矿业何去何从？