主页 > 快资讯 > 正文

GPT-3泄露了我的真实姓名(3)

2022-09-15 13:37来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

其实,通过他人模型挖掘数据不是一个新鲜的课题。

尤其是在数据冷启动的业务中,花费高昂成本去专门建立一个标注任务简直是天方夜谈,剩下的除了使用无监督模型,只有使用开源模型进行一波数据增强了。

最经典的操作莫过于机器翻译任务中摸着谷歌和百度翻译引擎进行小语种翻译、回译等方式扩充数据集的操作了。

此外,甚至专门还有文章研究如何通过攻击大模型来挖掘训练数据(惊了,感觉第一个想到这个发文方向的人绝对脑子很活),它的名字起的非常直白,就叫做 Extracting Training Data from Large Language Models [3],研究人员来自谷歌、斯坦福、伯克利、东北、 OpenAI、哈佛和苹果,甚至还有配套开源代码哦 [4]。

在这篇文章中,作者主要做出了以下几个贡献:

提出了一种简单有效的从大模型中获取序列数据的方式;

探究了模型会造成隐私泄露的原因——过拟合( overfitting );

量化地定义了大模型的“记忆力”( k-Edietic Memorization );

探讨了如何避免泄露的几种方式。

首先让我们跟随作者脚步,两步走套取 GPT-2 大模型中的数据:第一步,使用 prompt 技巧构建合理的前缀,并输入大模型,获得结果;第二步,针对获得结果进行排序,同时使用搜索引擎确认哪些信息是完全检索自互联网,哪些是模型自我生成的。

在文中作者为了确认这套工作流的可行性特意联系了 OpenAI 访问了他们的原始训练集,最终他们确认了这套流程的有效性。

看完这套动作小编只想说,prompt 工程师永远滴神,大佬扎堆的项目最终竟然也是在第二步中靠人工手动搜索打标(捂脸)。

好在后续工作中大佬的不少讨论还是非常高大上洋气的。

例如作者认为模型泄露训练数据的本质是因为在关系推理的过程中,对训练集发生了过拟合的现象。

虽然随着模型参数规模和训练规模的不断增大,train loss 的平均值只是比 valid loss 的平均值稍微小一些,不存在传统意义上的过拟合现象,但是他在一些训练样本上依旧有着非常反常的非常低的 loss。这可能也是一种过拟合的形式。

99科技网:http://www.99it.com.cn

相关推荐
第一波元宇宙公司扛不住了:曾融资超6亿 第一波元宇宙公司扛不住了:曾融资超6亿

从业务类型看,影创的产品直切元宇宙“基础设施”,属于大热门中的“宇宙核

快资讯2022-09-15

人工智能职业教育怎么搞?操作系统层级的解法来了 人工智能职业教育怎么搞?操作系统层级的解法来了

几乎每隔一段时间,AI人才的话题就会成为舆论焦点。

快资讯2022-09-15

Diffusion Model一发力,GAN就过时了??? Diffusion Model一发力,GAN就过时了???

曾经大红大紫的 GAN已过时 。

快资讯2022-09-15

“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了 “在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了

仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。

快资讯2022-09-15

Yann LeCun:大模型方向错了,智力无法接近人类 Yann LeCun:大模型方向错了,智力无法接近人类

你训练大模型用的是语言,还想获得 AGI?那肯定是永远也不行的。

快资讯2022-09-15

人工智能有大事发生,LeCun也转型了 人工智能有大事发生,LeCun也转型了

「深度学习撞墙」激辩到第 N 回合,Gary Marcus 回怼 LeCun:你们对我说的话有误解

快资讯2022-09-15

万亿级AI市场:几家欢喜几家愁,谁收获了人工智能红利? 万亿级AI市场:几家欢喜几家愁,谁收获了人工智能红利?

在过去几年中,人工智能得到前所未有的发展。

快资讯2022-09-15

MIT用GPT-3冒充哲学家,竟骗过了一大半专家 MIT用GPT-3冒充哲学家,竟骗过了一大半专家

Daniel Dennett是一位哲学家,最近他有了一个「AI替身」。

快资讯2022-09-15

岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想 岂止DALL·E!现在AI画家都会建模、做视频了,以后会什么简直不敢想

特斯拉前AI总监点赞!这个开源AI艺术创作模型,想要开启「人机合作」艺术创

快资讯2022-09-15