没有这些,别妄谈做ChatGPT了(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
单机多卡根本训不动千亿参数模型,你需要多机多卡分布式训练
当你开始多机训练时,你发现A100的算力都被网络通信延迟给吃掉了,多机可能还没有你单机训的快
然后你会发现训练ChatGPT的海量数据存储也是个问题,就算存下来了,数据读取的IO效率又极大的制约了模型的训练效率
一通基础设施问题下来,A100的算力被浪费了7、8成,模型训练实验无法开展
因此, 没有一个面向AI高度优化的云计算平台,训练GPT-3和ChatGPT这种级别的模型怪兽,是相当不现实的。
这里面有两个重点,一个叫“面向AI”,另一个叫“高度优化”。
“高度优化”不必多说,考验的是一个云计算平台底层的优化能力,包括网络、存储、计算、通信等方方面面的系统化工程能力。
什么叫“面向AI”呢?
这里引用一下 《ChatGPT,和聪明地设计 Infra》 这篇文章里的表述:
云计算很多时候在关注资源的池化和虚拟化:
怎么把计算,存储,网络,从物理资源变成虚拟的概念,“批发转零售”;
如何在这种虚拟环境下把利用率做上去,或者说超卖;
怎么更加容易地部署软件,做复杂软件的免运维(比如说,容灾、高可用)等等,不一而足。
但是 AI 的计算不一样。对于 AI 而言,尤其是今天 AI 的训练:
并不要求特别强的虚拟化。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。
需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽。
对于高可用并没有很强的要求,因为本身很多离线计算的任务,不涉及到容灾等问题。
没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。
也就是说,对于 AI 训练而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的。
这里还是以达摩院为例,为什么达摩院能训练出多个万亿级模型,因为他们背后有阿里云的 飞天智算平台 做支撑。这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的AI集群。
99科技网:http://www.99it.com.cn
Geoffrey Hinton是十年前深度学习初创“革命”的开拓者之一。他看来,未来 AI 技
快资讯2022-09-21
这两天,DeepMind研究工程师小哥Aleksa Gordić的个人经验贴在Twitter上火了一把。
快资讯2022-08-30