OpenAI 闹剧中被忽略的一部分——AI对齐

首页 热门新闻 最新资讯

OpenAI 闹剧中被忽略的一部分——AI对齐

热搜大全 2023-11-24

OpenAI 闹剧中被忽略的一部分——AI对齐

文 | 电厂,作者 | 肖余林,编辑 | 高宇雷

OpenAI 公司与它的大模型产品 ChatGPT 最大的共同点是什么?

人们知道它们每天发生了什么,但是不知道是如何发生的。

我们使用 AI 大模型,惊喜于它给出的每一个回复,但还没有谁弄清楚 AI 的智能是如何起作用的。为了确保大模型能够按照人类的意愿工作, 几乎每个大模型产品内部都会被注入一段算法,这段算法保证 AI 工作与人类意愿对齐。不同的力量都在试图对齐这家公司,Ilya Sutskever 成为「执剑者」,Sam Altman 给出了反击,双方的两种立场让这家 AI 大模型公司内部的分歧浮出水面。

这种分歧会体现在理念、公司方向、利益和资源分配,以及产品的市场表现等方面。把目光聚焦在分歧之上,对于大模型创业公司来说更有意义。

技术追求和商业扩张主导着商业体成长,OpenAI 和大多数商业公司一样,长期以来保持着两股力量的微妙平衡,直到 11 月 17 日,天平发生了倾斜。

这种平衡是如何保持的?围绕 AI 有哪些分歧?裂缝又是如何扩大的?ChatGPT 现象让全世界知道了大模型、Transformer 等新事物,但另一个起关键作用的力量 —— AI 对齐被忽视了。

被忽视的算法

OpenAI 的在初代 GPT-3 上投喂了 3000 亿单词的语料,其中拥有 1750 亿参数。这样训练出来的模型就像掌握了世界知识的儿童,懂得很多,但交流困难。

让 OpenAI 在全世界范围破圈的 ChatGPT 来自于 GPT-3 的变体,它比 GPT-3 的表现更稳定,更能够模拟人与人之间的正常对话。

ChatGPT 一发布就成为现象级产品,在此之前,GPT-3 的 API 已经推向市场很长时间,但仅在小范围引发讨论。

成就 ChatGPT 的关键技术是 RLHF 算法 —— 基于人类反馈的强化学习。

OpenAI 闹剧中被忽略的一部分——AI对齐

GPT-3 在与人的交流中给出的回答质量参差不齐,OpenAI 通过人工干预的方式,对高质量回答标记正反馈,从而强化 GPT 做出更多高质量的回答。这样的工作得到了出乎意料的效果,ChatGPT 因此有了建模对话历史、增加对话信息量,以及拒绝回答超纲问题等能力。RLHF 算法就像是家长的角色,帮助掌握了知识的儿童学会顺畅地沟通表达。可需要强调的是,RLHF 并没有额外注入能力,而是帮助大模型解锁了能力。

比如,ChatGPT 拒绝回答问题时会回复统一的开头:「作为 OpenAI 训练的语言模型」。这句话因为在 RLHF 训练中得到了更多的正反馈,因此被 ChatGPT 拿来当做标准模板。事实上,并没有一个命令让 ChatGPT 必须使用这句话。

OpenAI 认为,ChatGPT 的突破之所以可能,离不开 RLHF。而 RLHF 算法的工作就叫做 AI 对齐。

AI 对齐是为了保证 AI 按照人类的意图和价值观做事,给出人类有用的、诚实的和无害的结果。在今天运行的大模型训练当中,对齐已经成为最为必要的部分之一。

除了上面提到的 ChatGPT 的例子,AI 对齐还要解决 AI 在交流中会给出错误信息和算法歧视等问题,被人类滥用、「越狱」等问题,以及应对未来随着 AI 能力「涌现」而可能出现的失控风险。因此可以把 AI 对齐比作是一场人类跟 AI 进化的赛跑,更强的 AI 系统需要更多的对齐工作,也面临更高等级的风险。

但 AI 大模型内部原理对于前沿的 AI 实验室来说仍然是个「黑箱」,这就要求 AI 对齐要尽量跑在大模型的前面,并要求大模型是一个稳定的研究对象。

OpenAI 超级对齐负责人 Jan Leike 做过一个预判,构建高性能的强 AI 系统需要两个因素:能力和对齐。但在当前的弱 AI 时期,大模型没有能力带来灾难性后果,与 GPT 给人类带来的惊喜相比,AI 对齐的重要性存在被轻视的情况。对齐算法会在大模型运行过程中分走部分算力资源,也会影响大模型输出的结果,人们常把这种影响叫做「性能阉割」,把对齐分走的算力称为「对齐税」。

CEO 和首席科学家的分歧

回到 OpenAI 的这场闹剧,如果把 OpenAI 看作一个 AI 大模型,Sam Altman 主张提升能力,通过融资和商业化等操作吞噬巨量资源,追求变快变强。Ilya Sutskever 领导的部分则像 AI 对齐一样的存在,主张小心翼翼地把车开稳。

随着 AI 大模型发展加速,OpenAI 意识到要把对齐工作提升到新的高度。今年 7 月,OpenAI 宣布成立超级对齐团队(Superalignment),由 Ilya Sutskever 和 Jan Leike 两位科学家领导,他们将带着公司 20% 的算力资源,在 4 年内解决超智能 AI 系统的价值对齐和安全问题。

与此同时,Sam Altman 带着 GPT 进化,连续推动发布性能更强的 GPT 版本。

可以看到,两个工作团队即使不存在分歧,至少也存在张力,裂缝可能从这里开始产生。

Ilya Sutskever 指责 Sam Altman 在与董事会的沟通中始终不坦诚,阻碍了董事会履行职责的能力。而董事会的职责是确保 OpenAI 作为一家非营利组织能够开发造福全人类的「通用人工智能 AGI」。

在今年仅剩 6 人的董事会中,有 4 人更认可 AI 安全的重要性,Ilya Sutskever 因此能够使用投票权开除 Sam Altman。

Ilya Sutskever 曾提到,他参与创建 OpenAI 的动机之一,是为了探讨和解决 AGI 可能带来的问题,包括技术和道德方面的挑战。当他看到或者被告知这种挑战首先出现在公司内部而不是 AI 当中时,他有理由为了自己的信念行使权力,裂缝由此扩大。

可他始终没有给出具体的例证说明 Sam Altman 不坦诚在哪里,会带来哪些后果。Ilya Sutskever 挑起的风波就像 AI 对齐工作中被拿走的「对齐税」,他暂时限制了 OpenAI 的能力,又无法说明在他眼中这种限制的必要性。

房间里有一头大象,有少数人看到了,但只有更少数人行动。人们要做出符合自身角色和价值观的选择,因此分歧总是会不可避免地出现。

即便 Sam Altman 在很多时候是 OpenAI 安全政策的倡导者,但人们无法追问他的倡导是出于应对监管的需要,还是他真的看到了那头大象。即便 Ilya Sutskever 深知算力对 AI 的重要性,看到 AI 更远的未来的他只能把这种重要性放在价值排序的次席。

事件最后的焦点指向 OpenAI 的董事会,在复杂的矛盾中,董事会只支持做出 0 和 1 的选择,在功能上没有与这家公司的价值对齐。

闹剧以 Sam Altman 回归暂时结束,五天前罢免他的董事会解散,新的董事会雏形将由三人组成,Quora 首席执行官 Adam D'Angelo,Facebook 和 Salesforce 前高管 Bret Taylor,以及前美国财政部长 Lawrence H. Summers。

OpenAI 完成了它的对齐。

隐藏的模型

AI 对齐被大模型的声量遮盖,但暗暗决定着大模型的命运。

GPT 的发展和人类的反应一度超出了 OpenAI 的预料,在很多研究人员眼中,市面上的模型仍然远非完美,甚至只是半成品。他们对生成式人工智能推向市场的速度和规模感到担忧。

与之对应的,AI 对齐的重要性已经成为 OpenAI、DeepMind、Anthropic 等前沿 AI 实验室的共识。

按照 OpenAI 超级对齐工作负责人 Jan Leike 的说法,各家公司会很快拥有能力水平相当的预训练语言模型,AI 对齐将决定产品的竞争力。

而影响竞争力的关键是「对齐税」。

Jan Leike 把「对齐税」总结为三类:性能税、研发税、上线时间税。

以性能税为例,由于对齐模型在输出结果上更「保守」,用户想用它得到满意的结果,需要更多的算力,也需要调用更多次 API,性能税因此影响到产品的定价,进一步影响到用户规模。

Jan Leike 用一个例子说明了这种相关性:OpenAI 的 DALL · E 2 模型在市场规模上不如 Stable Diffusion 和 Midjourney,因为后面两个模型采取了较少的对齐限制。

另外,随着大模型能力不断增强,原来的对齐技术可能被 AI 绕过,需要不断更新对齐技术来跟上大模型迭代,这也可能导致研发税和上线时间税的增加。

AI 对齐在大模型训练中的存在感远非只有「对齐税」,存在于 OpenAI 的裂缝有更多延伸。

训练 ChatGPT 的 RLHF 算法证明了对齐的价值,但它依赖大量人工参与,只能作为初阶的对齐工具使用。更复杂的 AI 运行会涉及巨量的需要干预的环节,这样的对齐工作只能交给另一个或者一些 AI 来完成。即,用 AI 对齐模型帮助 AI 大模型对齐。

可以把 OpenAI 超级对齐团队的工作看作是研发 AI 对齐模型,在拥有最强大 AI 的实验室内部隐藏着一个将用来管理 AI 的 AI。其中涉及到「解剖」 AI 大模型、AI 对抗训练、以及这个 AI 对齐模型的对齐。

GPT 等大模型被设计用来处理自然语言,它的输出结果可以被用户部分地分辨真假。而 AI 对齐模型的输出结果会更难验证,越狱行为更隐蔽,因此需要更严格地对齐。

吊诡的地方就在于此,认为大模型发展太快,存在安全问题的 Ilya Sutskever,做着比 Sam Altman 更激进的工作。

低垂的果实

AI 能力的「涌现」来自于训练量,扩大训练规模成了玩家们坚信的方向,结果是天文数字的训练成本投入。

GPT-3 把大模型训练参数提高到千亿规模,开启了大模型训练的规模竞赛。百度文心、阿里通义、华为盘古等头部公司的大模型训练量都同步来到千亿。而最新的 GPT-4 的参数规模又上一个台阶,到达了百万亿。 

却有观点认为,训练规模给大模型带来的边际效益呈递减趋势,有人称为「数字泡沫」或者「AI 版摩尔定律」,在一定程度,AI 对齐工作成果支持了这种观点。

OpenAI 在博客中提到:安全与大模型能力息息相关。一方面强调在 AI 进化过程中安全问题的重要性。另一方面也指出,AI 对齐训练是提升 AI 能力的隐藏路径。

后一种情况在   InstructGPT 当中得到了验证。与 GPT-3 相比,经过对齐的   InstructGPT 在输出结果时更符合人类要求,InstructGPT 减少了生成有害内容的情况,也能给出更多真实可靠性的信息。

不仅如此,InstructGPT 比 GPT-3 使用更少的算力,它的训练参数减少了 100 多倍,仅 13 亿规模。

经历 OpenAI 的闹剧,赛道上的玩家或许会认识到,把所有的成本放在算力和规模之上过于奢侈,在追求超大规模、超高算力的路上存在未被发现的低垂的果实。

而面对将到来的淘汰赛,不同玩家将必须在 Ilya Sutskever 和 Sam Altman 之间选边站。

最受喜欢

越狱 董事会 ai ceo 人工智能 热点 本地 社区 美图 视频 直播 资讯

曾被卖出19万美元高价!这台初代iPhone太猛了

曾被卖出19万美元高价!这台初代iPhone太猛了

科技热搜 iphone 智能手机 乔布斯 本初 谷歌 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

苹果首次允许欧盟用户从网站安装应用/雷军称对汽车价格战做好准备/微博上线热搜投诉入口

科技热搜 微软 机器人 小米 马斯克 欧盟 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

在游戏里搞政治正确的幕后黑手,快被外国网友冲烂了。

科技热搜 战神 steam 自杀小队 安德森 ceo 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

苹果 MacBook 新专利获批:可录制3D 图像/视频、追踪空中手势

科技热搜 it之家 macbook 专利 传感器 苹果公司 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

芯片代工营收排行榜公布:台积电独占六成,狂揽近200亿美元

科技热搜 台积电 三星 芯片 高通 半导体 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-03-13