主页 > 快资讯 > 正文

没有这些，别妄谈做ChatGPT了(3)

2023-03-01 09:31来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

单机多卡根本训不动千亿参数模型，你需要多机多卡分布式训练

当你开始多机训练时，你发现A100的算力都被网络通信延迟给吃掉了，多机可能还没有你单机训的快

然后你会发现训练ChatGPT的海量数据存储也是个问题，就算存下来了，数据读取的IO效率又极大的制约了模型的训练效率

一通基础设施问题下来，A100的算力被浪费了7、8成，模型训练实验无法开展

因此，没有一个面向AI高度优化的云计算平台，训练GPT-3和ChatGPT这种级别的模型怪兽，是相当不现实的。

这里面有两个重点，一个叫“面向AI”，另一个叫“高度优化”。

“高度优化”不必多说，考验的是一个云计算平台底层的优化能力，包括网络、存储、计算、通信等方方面面的系统化工程能力。

什么叫“面向AI”呢？

这里引用一下《ChatGPT，和聪明地设计 Infra》这篇文章里的表述：

云计算很多时候在关注资源的池化和虚拟化：

怎么把计算，存储，网络，从物理资源变成虚拟的概念，“批发转零售”；

如何在这种虚拟环境下把利用率做上去，或者说超卖；

怎么更加容易地部署软件，做复杂软件的免运维（比如说，容灾、高可用）等等，不一而足。

但是 AI 的计算不一样。对于 AI 而言，尤其是今天 AI 的训练：

并不要求特别强的虚拟化。一般训练会“独占”物理机，除了简单的例如建立虚拟网络并且转发包之外，并没有太强的虚拟化需求。

需要很高性能和带宽的存储和网络。例如，网络经常需要几百 G 以上的 RDMA 带宽连接，而不是常见的云服务器几 G 到几十 G 的带宽。

对于高可用并没有很强的要求，因为本身很多离线计算的任务，不涉及到容灾等问题。

没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高（否则 GPU 运维团队就该去看了），同时训练本身经常以分钟级别来做 checkpointing，在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。

也就是说，对于 AI 训练而言，尤其是今天那么大规模的训练，性能和规模是第一位的，传统云服务所涉及到的一些能力，是第二位的。

这里还是以达摩院为例，为什么达摩院能训练出多个万亿级模型，因为他们背后有阿里云的飞天智算平台做支撑。这是一个超大规模的高性能计算集群，是国内唯一能实现万卡规模的AI集群。

99科技网：http://www.99it.com.cn

共4页:

3

相关推荐

AI文章挤爆投稿邮箱！刊龄17年杂志被迫暂停征稿，“这些人就是为赚快钱”

AI文章挤爆投稿邮箱！刊龄17年杂志被迫暂停征稿，“这些人就是为赚快钱”

ChatGPT大火，却把知名科幻杂志气到“掀桌子”了。

快资讯2023-02-23

球探即时比分:拉比奥：尤文没有主力替补之分；客战里昂会很困难

球探即时比分:拉比奥：尤文没有主力替补之分；客战里昂会很困难

在尤文图斯主场2-0击败布雷西亚之后，拉比奥在接受采访时强调，他们可以进一

快资讯2022-11-21

C盘清理瘦身扩容搬家没有效果？磨针一键永久解决C盘问题

C盘清理瘦身扩容搬家没有效果？磨针一键永久解决C盘问题

您在使用windows的过程中是否经常碰到以下问题： 1、C管不管多大，总会变红、

快资讯2022-11-08

Hinton、Yann LeCun、李飞飞谈深度学习十年：AI没有走入死胡同，“革命”仍如火如荼

Hinton、Yann LeCun、李飞飞谈深度学习十年：AI没有走入死胡同，“革命”仍如火如荼

Geoffrey Hinton是十年前深度学习初创“革命”的开拓者之一。他看来，未来 AI 技

快资讯2022-09-21

AI没有“无人区”

AI没有“无人区”

人工智障和AI艺术家的差距，更多是人工智能中“人”的差距。

快资讯2022-09-21

为何能让年轻女性一见倾心以内X3扫地机器人做到了这些

为何能让年轻女性一见倾心以内X3扫地机器人做到了这些

快节奏的城市中，大多数女性压力大、工作忙，没有太多时间花在家务上。为减

快资讯2022-09-06

AI企业上市困局：秀肌肉时代已远去，还是没有新故事

AI企业上市困局：秀肌肉时代已远去，还是没有新故事

AI企业“上市潮”已然来临，但遗憾的是，资本市场似乎已容不下“烧钱大户”

快资讯2022-08-30

非科班AI小哥火了：他没有ML学位，却拿到DeepMind的offer

非科班AI小哥火了：他没有ML学位，却拿到DeepMind的offer

这两天，DeepMind研究工程师小哥Aleksa Gordić的个人经验贴在Twitter上火了一把。

快资讯2022-08-30

百度计算机视觉首席科学家王井东：在视觉的竞技场，研究与落地没有明显的界限

百度计算机视觉首席科学家王井东：在视觉的竞技场，研究与落地没有明显的界限

在王井东看来，百度搜索引擎、自动驾驶、智能云、小度等等不同的业务线中，

快资讯2022-08-28

iPhone14全家福图片曝光，没有mini版

iPhone14全家福图片曝光，没有mini版

近日，iPhone14突然登上热搜。一海外爆料达人晒出了该机全系四款新机的“全家

快资讯2022-08-13

头条资讯

推荐资讯

最近更新

99科技网—新锐科技媒体！: 关于我们 | 联系我们 | 商务合作; 寻求报道 | 免责声明 | 网站地图; 申请友链 | 加入我们 | 意见反馈

投诉建议: 通过E-mail将您的想法和建议发给我们; 稿件投诉：; 合作网站：99科技网

联系我们: 服务热线：; 官方客服QQ：; 微信公众号：

Copyright © 2009-2022 99科技网—提供有价值的科技领域报道和服务