主页 > 快资讯 > 正文

为什么所有公开的对 GPT-3 的复现都失败了?复现和使用GPT-3/ChatGPT,你所应该知道的(4)

2023-02-23 12:03来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

训练过程中的修改。OPT 做了很多中途调整并从最近的 checkpoint 重启训练,包括改变截断梯度范数 (clip gradient norm) 和学习率,切换到简单的 SGD 优化器然后回到 Adam,重置动态损失标量 (dynamic loss scalar),切换到更新版本的 Megatron 等等。

这种中途调整可能是 OPT 失败的原因之一。相比之下,PaLM 几乎没有做任何中途调整。它只是当损失尖峰出现时,从尖峰开始前大约 100 步的 checkpoint 重新开始训练,并跳过了大约 200-500 个 batch 的数据。仅仅依靠这种简单的重启,PaLM 就取得神奇的成功。这是由于它在预训练数据构建期间就已经完成采样,因此模型具有在 Bit 意义上的确定性,以及它对模型架构和训练设置进行了许多修改以获得更好的稳定性。PaLM 中的此类修改在下一点中展示。

模型架构/训练设置:为了使训练更稳定,PaLM 对模型架构和训练设置进行了多项调整,包括使用 Adafactor 的修改版本作为优化器,缩放在 softmax 之前的输出 logit,使用辅助损失来鼓励 softmax 归一化器接近 0,对词向量和其他层权重使用不同的初始化,在前馈层和层归一化中不使用偏差项,并且在预训练期间不使用 dropout。

请注意,GLM-130B 中还有更多有价值的内容关于如何稳定地训练非常大的模型,例如:使用基于 DeepNorm 的后置层归一化而不是前置层归一化,以及词向量层梯度收缩。以上大多数模型修改没有被 OPT 和 BLOOM 采用,这可能会导致它们的不稳定和失败。

训练过程:如下表所示,原始的 GPT-3 预训练过程见过的 token 数与 OPT 和 BLOOM 接近,而 PaLM 则远远超过了它们。同样,PaLM 和 GPT-3 预训练语料库都大于 BLOOM 和 OPT。因此,在更多的 token 上、用更大规模的高质量语料库进行预训练可能是 GPT-3 和 PaLM 成功的一个重要因素。

除了上面列出的四点,还有一些其它因素,它们可能对于更稳定的训练并不重要,但仍然可能影响最终的性能。

第一点,PaLM 和 GPT-3 都使用了在训练过程中从小到大逐渐增加的 batch size,这已经被展示对于训练一个更好的 LLM 是有效的,然而 OPT 和 BLOOM 都使用了恒定的 batch size。

第二点,OPT 使用了 ReLU 激活函数,而 PaLM 使用 SwiGLU 激活函数,GPT-3 和 BLOOM 使用 GeLU,它通常使得训练的 LLM 的性能更好。

第三点,为了更好的建模更长的序列,PaLM 使用 RoPE 词向量,BLOOM 使用 ALiBi 词向量,而原始的 GPT-3 和 OPT 使用学习得到的词向量,这可能影响在长序列上的性能。

2 我们应该在哪些任务上使用GPT-3.5或ChatGPT?

99科技网:http://www.99it.com.cn

相关推荐
大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言? 大语言模型爆火引发大厂产品潮,为什么百度能做出文心一言?

时隔6年,OpenAI发布通用型对话机器人ChatGPT,以超出预期的表现,开启了新一轮

快资讯2023-02-23

所有2H23新款iPhone均舍弃Lighting并改为USB-C 所有2H23新款iPhone均舍弃Lighting并改为USB-C

原标题:郭明錤:2023财年下半年,苹果所有新iPhone均改为USB-C接口 郭明錤:所

快资讯2022-11-17

真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA 真正的“皇室寝具”,凡尔赛女王公开展示的顶奢品牌DOLOMIA

真正的皇室寝具,凡尔赛女王公开展示的顶奢品牌DOLOMIA 对于奢华级睡眠品牌

快资讯2022-11-10

创新突破,广州研创为什么能完美替代国外手性色谱 创新突破,广州研创为什么能完美替代国外手性色谱

新冠肺炎疫情突如其来肆虐全球,国家间合作共赢的可能性与利益冲突的现实性

快资讯2022-11-05

顾均辉说定位:年轻人为什么喜欢用“小熊电器”? 顾均辉说定位:年轻人为什么喜欢用“小熊电器”?

大多数人认识小熊电器,都是从一个养生壶开始的。养生壶早已不再是老年人的

快资讯2022-10-19

OPPO A57口碑为什么这么好?离不开这两个配置 OPPO A57口碑为什么这么好?离不开这两个配置

目前国内的中端机性能跑分都是非常不错的,基本上都达到了30万分以上。基本

快资讯2022-09-27

为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案! 为什么PANDAER能圈粉年轻消费者?从秋季新品上新周找答案!

在时尚界,提及魅族 PANDAER , 很多人都会耳熟能详,并且其凭借自身的不俗实

快资讯2022-09-23

OPPO A97为什么能得到98%好评率 颜值+品控过硬 OPPO A97为什么能得到98%好评率 颜值+品控过硬

随着用户对手机品质和综合表现有了更多的了解,大众对中端机的要求也越来越

快资讯2022-09-21

引领数据领域AI工程化落地,为什么会是云测数据? 引领数据领域AI工程化落地,为什么会是云测数据?

毫无疑问,在AI加速实现场景落地的今天,“AI工程化”已经成为行业普遍的议

快资讯2022-09-19

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了 “在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了

仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。

快资讯2022-09-15