OpenAI公布炸裂研究:让AI注释AI黑箱,人类无法明

2023-05-10 08:47 文章来源: 作者:网络 阅读(

就算在新产物满天飞,商业文明正在被 AI 重修的当下,我们仍然不知道,这些令人赞叹的手艺是若何运作的。

AI,语言模子,它是个黑箱(black box),人类无法明晰,我们甚至不知道怎样研究才气够明晰。

若是,研究这个黑箱的不是人类,而是 AI 自己呢?

这是一个令人好奇但又异常危险的想法。由于你甚至不知道,这一研究方式发生的效果,是否会彻底推翻多年来人类对人脑和 AI 的明晰。

然则有人这样做了。几小时前,OpenAI 公布了最新的研究功效,他们用 GPT-4 注释 GPT-2 的行为,获得了劈头的功效。

绝不夸张地说,人们震惊极了:「求求你们让它离醒悟远点吧!」

「AI 明晰 AI,然后很快,AI 训练 AI,然后再过几年,AI 缔造新的 AI。」

但客观来说,学术界为之感应兴奋:「疯了,OpenAI 刚刚搞定了可注释性问题。」

人与机械之间是 GPT-4

OpenAI 刚刚在官网公布博客文章《语言模子可以注释语言模子中的神经元》(Language models can explain neurons in language models)。

简朴来说,他们开发了一个工具,挪用 GPT-4 来盘算出其他架构更简朴的语言模子上神经元的行为,这次针对的是 GPT-2,公布于 4 年前的开源大模子。

大模子(LLM)和人脑一样,由「神经元」(neurons)组成,这些神经元会考察文本中的特定纪律,进而影响到模子自己生产的文本。

举例来说,若是有一个针对「漫威超级英雄」的神经元,当用户向模子提问「哪个超级英雄的能力最强」时,这个神经元就会提高模子在回覆中说出漫威英雄的概率。

OpenAI 开发的工具行使这种规则制订了一套评估流程。

最先之前,先让 GPT-2 运行文本序列,守候某个特定神经元被频仍「激活」的情形。

然后有三个评估步骤:

*步,让 GPT-4 针对这段文本,天生注释。好比在下面的案例中,神经元主要针对漫威内容。GPT-4 吸收到文本和激活情形后,判断这与影戏、角色和娱乐有关。

第二步,用 GPT-4 模拟这个 GPT-2 的神经元接下来会做什么。下图就是 GPT-4 天生的模拟内容。

最后一步,对比评估打分。对比 4 代模拟神经元和 2 代真实神经元的效果,看 GPT-4 猜的有多准。

通过这样的方式,OpenAI 对每个神经元的行为作出了劈头的自然语言注释,并对这种注释和现执行为的匹配水平举行了评分。

最终他们对 GPT-2 中 307200 个神经元所有举行了注释,这些注释汇编成数据集,与工具代码一起在 GitHub 上公布。

逾越语言的机械

人类无法明晰的机械

据 OpenAI 在博客文章中示意,现在 GPT-4 天生的注释还不*,尤其要注释比 GPT-2 更大的模子时,显示效果很差,「可能是由于后面的 layer 更难明释」。

对于 GPT-2 注释的评分大多也异常低,仅有 1000 个左右的注释获得了较高的评分(0.8 以上)。

OpenAI 可拓展对齐团队的 Jeff Wu 示意,「大多数注释的得分很低,或者无法注释现实神经元那么多的行为。好比,许多神经元以一种难以判断的方式保持活跃,它们在五六件事上保持激活,但却没有可以鉴其余模式。有时刻存在显著的模式,但 GPT-4 有无法找到它。」

虽然现阶段成就欠好,然则 OpenAI 却对照有信心,他们以为可以使用机械学习的方式提高 GPT-4 产出注释的能力。

好比通过频频产出注释,并凭证激活情形修改注释;或者使用更大的模子作出注释;以及调整注释模子的结构等等。

OpenAI 还提到,这一方式现在尚有许多局限性。

使用简短的自然语言举行注释,也许并不匹配神经元可能异常庞大的行为,不能精练地举行形貌。神经元可能会具备多个差异观点,也可能,会具备一小我私人类没有语言形貌甚至无法明晰的观点。

最终 OpenAI 希望能够自动化找到并注释能够实现庞大行为的整个神经回路,而现在的方式只注释了神经元的行为,并没有涉及下游影响。

投资界24h | 领英突然宣布关闭,裁员700人;又一家新能源车企申请破产;中国人寿携手菜鸟物流成立30亿新基金

注释了神经元的行为,但没有注释发生这种行为的机制。这意味着纵然是拿了高分的注释,也只能形貌相关性。

整个历程是盘算麋集型的。

在论文中,OpenAI 示意:「语言模子可能代表了人类无法用语言表达的生疏观点。这可能是由于语言模子体贴差其余事情,好比统计结构对下一个token展望义务有用,或者由于模子已经发现了人类尚未发现的自然的抽象,例如在差异领域的类似观点家族。」

它把 LLM 的这种属性,称为 Alien Feature,在生物领域翻译为「异类特征」。

Founder Park 微信后台回复「注释神经元论文」,获取论文链接和中英对照 PDF 链接(机翻)。

把对齐问题也交给 AI

「我们正试图开生长望『AI 系统会泛起什么问题』的方式,」OpenAI 可注释性团队卖力人 William Saunders 对媒体说,「我们希望能够真正做到,让这些模子的行为和生产的回覆是可以被信托的。」

Sam Altman 也转发博客文章称:GPT-4 对 GPT-2 做了一些可注释性事情。

可注释性(interpretability)是机械学习的研究子领域,指的是对模子的行为有清晰的明晰和对模子效果的明晰能力。

简朴来说,目的就是注释机械学习模子「若何做到」(how)。

2019 年最先,可注释性成为机械学习的主要领域,相关研究有助于开发职员对模子举行优化和调整。针对当下 AI 模子大规模应用时,亟需解决的可信度(trust)、平安性(safety)和决议参考(decision making)等问题。

若是我们不知道 AI 是若何作出决议的,始终把它当做一个黑箱,那么就算 AI 在种种场景下显示得再*,也无法解决部门人类的信托问题。

OpenAI 这次使用 GPT-4 来解决可注释性的问题,就是希望能够使用自动化的方式,让机械完成 AI 研究。

「这是我们对齐研究的第三支柱的一部门:我们希望自动化对齐研究。令人期待的是,这一偏向能让它(对齐)与 AI 生长的措施相匹配。」

在 2022 年炎天,OpenAI 曾公布文章《我们做对齐研究的方式》(Our approach to alignment research)。

文中提到,宏观来看,OpenAI 的对齐研究将由三大支柱支持:

1、行使人工反馈训练 AI

2、训练 AI 系统协助人类评估

3、训练 AI 系统举行对齐研究

「语言模子异常适合自动化对齐研究,由于它们通过阅读互联网『预装』了大量有关人类价值观的知识和信息。开箱即用,它们不是自力署理,因此不会在天下上追求自己的目的。」

太快了

连认知都范式革命了

虽然 OpenAI 本意很好,然则这样的研究功效着实吓坏了网友。

OpenAI 的推文下梗图横飞,有不少人在认真地建议 OpenAI 搞慢点。

「用我们不明晰的器械,注释另一个我们不明晰的器械,这合理吗?」

「护栏都被你撤了」

「这太迷人了,但也让我感应极端不适。」

「自然缔造了人类来明晰自然。我们缔造了 GPT-4 来明晰自己。」

「我们要怎么判断注释者是好的?这就像... 谁监视着监视者?」(who watches the watchers)

尚有人看到了更深的一层:

「大模子很快就能比人类更好地注释他们自己的头脑历程,我想知道我们未来要缔造若干新的词汇,来形貌那些 AI 发现的观点(观点自己也禁绝确)?我们还没有一个合适的词形貌它们。或者,我们是否会以为这些观点有意义?它们又能教会我们若何熟悉自己呢?」

另一网友回应道:「人类自己对自己行为的注释,大多是谣言、捏造、幻觉、错误的影象、事后推理,就像 AI 一样。」

上一篇:2023加班讲述:64%的人周末也在干,年轻人加班有
下一篇:领英中国:一场无人意外的退出-商品期货
我要开户 我要开户 软件下载 客户端