0%

【论文笔记】009 Sparks of Artificial General Intelligence - Early experiments with GPT-4

原文标题翻译成中文已经很吸引人了:通用人工智能火花!原版正文内容都有 95 页,所以我会选取一些关键信息和大家分享。微软研究院出品,值得一看。

  • 注 1:我个人的一些理解补充,主要放在文中的括号内,并会带有 注:

摘要

在本文中,我们报告了我们对早期版本的GPT-4的调查,当时它还在OpenAI的积极开发中。我们认为(这个早期版本)GPT- 4是新一批LLM的一部分(例如ChatGPT和谷歌的PaLM),它们比之前的AI模型表现出更多的通用智能。我们讨论了这些模型不断提升的能力和影响。我们证明,除了对语言的掌握,GPT-4可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务,而不需要任何特别的提示。此外,在所有这些任务中,GPT-4的表现惊人地接近人类的表现,而且大大超过之前的模型,如ChatGPT。鉴于GPT-4能力的广度和深度,我们相信它可以被合理地视为人工通用智能(AGI)系统的早期版本(但仍不完整)。在我们对GPT-4的探索中,我们特别强调发现其局限性,并讨论了向更深入、更全面的AGI版本推进所面临的挑战,包括可能需要追求超越下一个单词预测的新范式。最后,我们对最近技术飞跃的社会影响和未来研究方向进行了反思。

注:最重要的就是具体的局限性部分,掌握边界可以少很多重复的试错。

介绍

共识派将智力定义为一种非常普遍的心智能力,其中包括推理、计划 、 解决问题 、 抽象思考、理解复杂概念、快速学习和从经验中学习的能力。这一定义意味着智力并不局限于特定的领域或任务,而是包含了广泛的认知技能和能力。构建一个显示出1994共识定义所表述的那种通用智能的人工系统,是人工智能研究的一个长期而雄心勃勃的目标。

演示的构成

  • GPT-4的主要优势在于其对自然语言无与伦比的掌握。它不仅可以生成流畅连贯的文本,还可以以各种方式理解和操纵文本,例如总结、翻译或回答极其广泛的问题。此外,我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语调和风格的翻译,以及跨领域的翻译,如医学、法律、会计、计算机编程、音乐等
  • 编码和数学是抽象推理和思考能力的象征
  • 我们通过让模型玩各种游戏(或者在模拟游戏环境中进行测试),以及与工具互动,来测试其规划和解决问题的能力,以及在某种程度上快速学习和从经验中学习的能力。特别是,GPT-4可以使用工具(包括自身)这一事实肯定对用GPT-4构建现实世界的应用程序具有巨大的重要性
  • 理解人类以及GPT-4使自己能够被人类理解,即解决可解释性的问题

多模态和跨学科的组合

衡量智力的一个关键指标是综合来自不同领域或模态的信息的能力,以及跨不同背景或学科应用知识和技能的能力。在本节中我们将看到,GPT-4不仅表现出在文学、医学、法律、数学、物理科学和编程等不同领域的高水平熟练程度,而且还能够流畅地将来自多个领域的技能和概念结合起来,显示出对复杂思想的深刻理解。除了自然语言实验,我们还探索了语言模型的两种可能意想不到的模态(如引言中解释的那样,我们再次强调,我们的实验是在GPT-4的早期版本上进行的,它不是多模态的)

编程

注:这一部分是我们要重点关注的。

我们展示了GPT-4能够以非常高的水平编程,无论是根据指令编写代码还是理解现有代码。GPT4可以处理广泛的编程任务,从编程挑战到现实世界的应用,从低级汇编到高级框架,从简单的数据结构到复杂的程序,如游戏。GPT-4还可以对代码执行进行推理,模拟指令的效果,并用自然语言解释结果。GPT4甚至可以执行伪代码,这需要解释在任何编程语言中都无效的非正式和模糊的表达。在目前的情况下,我们认为GPT-4在编写只依赖于现有公共库的专注程序方面具有很高的熟练度,这与普通软件工程师的能力相仿。更重要的是,它同时赋予了工程师和非熟练用户能力,因为它使编写、编辑和理解程序变得容易。我们也承认,GPT-4在编码方面还不完美,因为它有时会产生语法无效或语义不正确的代码,特别是对于更长或更复杂的程序。GPT-4有时也无法理解或遵循指令,或产生与预期功能或风格不匹配的代码。在认识到这一点后,我们还指出,GPT-4能够通过响应人类的反馈(例如,通过在3.2中迭代地细化绘图)和编译器/来改进其代码终端错误(5.1节中的例子)

理解现有代码

GPT-4可以从指令中编写代码,即使指令是模糊的,不完整的,或需要领域知识。它们还表明,GPT-4可以响应后续请求,根据指令修改自己的代码。然而,编码的另一个重要方面是理解和推理他人编写的现有代码的能力,这些代码可能是复杂的,晦涩的,或记录不佳的。为了测试这一点,我们提出了各种问题,这些问题需要阅读、解释或执行不同语言和范式编写的代码。

理解人类-心智理论

询问他人心理状态的推理,以及在社会情境中为实现共同目标提出合作行动的建议。我们还表明,GPT-4能够处理在训练中不太可能看到的抽象和新颖的情况

自回归架构的局限性

注:这部分很重要,了解极限才能避免翻车

如前所述,GPT-4在广泛的任务中展示了令人印象深刻的能力,如推理、内容生成、问题解决等。然而,正如我们将在本节中展示的那样,该模型也有几个本质上的缺陷,其中一些似乎是作为其架构基础的下一个单词预测范式所固有的。

我们将尝试论证该模型的主要限制之一是,该架构不允许在其内部表示之外进行“内部对话”或“暂存器”,导致他不能够执行多步计算或存储中间结果。我们将看到,虽然在某些情况下,这种限制可以通过使用不同的提示来补救,但在其他情况下,这种限制无法缓解。例如,考虑下面这个问题,模型给出了错误的答案

Q:150 到 250 之间有多少个质数?
GPT4:150 到 250 之间有 13 个质数

然而,如果我们让模型列出这个范围内的质数,然后写出计数是多少,它又会给出正确的答案:

Q:先列出 150 到 250 之间的质数,然后输出列表大小
GPT4:质数有151, 157, 163, 167, 173, 179, 181, 191, 193, 197, 199, 211, 223, 227, 229, 233, 239 和 241. 所以列表的大小是18

如这个例子所示,模型有足够的知识来回复这个问题的答案。然而,问题在于下一个单词预测架构不允许模型进行“内部对话”。模型的输入是“有多少质数……”,而输出预计是最终的答案,要求模型(本质上)在前馈架构的一次遍历中想出答案,特别是不能实现“for循环”。另一方面,当需要写下最终答案时,人类可能会使用便签簿并检查数字是什么。

这类问题在某种程度上已经在之前的GPT模型中观察到了,这个例子中所说明的问题通常可以通过明确指示模型以一步一步的方式解决手头的问题来补救。我们接下来将说明,这可能是不够的。

在算数/推理问题中缺乏规划

人们可能希望通过始终向提示添加正确的指令并允许它使用额外的token作为工作记忆,来解决模型对某些类型的任务的工作记忆非常小以及缺乏基本步骤的问题。然而,似乎模型的自回归性质迫使它以顺序的方式解决问题,有时会造成更深刻的困难,这是不能通过简单地指示模型找到一步一步的解决方案来补救的。

注:简单来说,就是 24 点游戏就可以难倒 GPT-4。

文本生成缺乏规划

因此,该模型擅长产生流畅连贯的文本,但在解决复杂或创造性问题时存在局限性,这些问题无法以顺序的方式进行处理。这指出了两种类型的智力任务之间的区别:

  • 增量任务。这些任务可以以渐进或连续的方式解决,每次增加一个词或一句话,构成解决方向的进展。这些任务可以通过内容生成来解决,不需要任何重大的概念转变或见解,而是依赖于将现有的知识和技能应用于给定的主题或问题。增量任务的例子包括写一篇文章的摘要,回答事实性问题,根据给定的押韵格式写一首诗,或者解决一个遵循标准程序的数学问题。
  • 不连续的任务。这些任务的内容生成不能以渐进或连续的方式完成,而是需要某种“灵光一闪”的想法,该想法可以解释任务解决过程中的不连续跳跃。内容生成涉及发现或发明一种看待或构建问题的新方法,从而使剩余内容的生成成为可能。不连续任务的例子是解决一个需要对公式进行新颖或创造性应用的数学问题,写一个笑话或谜语,提出一个科学假设或哲学论点,或创造一种新的体裁或写作风格。

注:接下来居然和一本经典书籍《思考:快与慢》结合到一起了,神奇!

解释这些局限性的一种可能方法是在模型和快慢思维的概念之间进行类比,如Kahneman所提出的。快速思维是一种自动的、直观的、毫不费力的思维模式,但也容易出现错误和偏见。慢思维是一种可控、理性、费力的思维模式,同时也更加准确可靠。Kahneman认为,人类的认知是这两种思维模式的混合,当我们应该使用慢思维时,我们往往依赖快速思维,反之亦然。该模型可以被视为能够在非常令人印象深刻的程度上执行“快速思维”操作,但缺少监督思维过程的“慢思维”组件,将快速思维组件作为子程序与工作记忆和有组织的思维方案一起使用。

对社会的影响

我们可以期待看到大量利用GPT-4及其后继者提供的推理、泛化和交互能力的飞跃而开发的应用程序。GPT-4及其后继者可以在人类努力的星座中提供巨大的价值。该模型可以在主要部门引入新的效率和能力,包括医疗保健、教育、工程、艺术和科学。应用程序和用例无疑将很快被引入,并将被其创建者推广。匹配良好的应用有望在更广泛的范围内对人们和社会产生价值,即使在应用行为上存在粗糙的边缘。其他应用和用例将是不成熟的或考虑不周的,每个糟糕的设计,未探索的场景,对可靠性和故障模式的挑战考虑不周,以及对如何使用应用程序的影响和影响考虑不足。除了通过新力量获得的潜在价值之外,我们还需要考虑与新兴技术相关的潜在成本和粗糙边缘——我们需要主动和被动地工作,以减轻负面影响。

错误生成的挑战

在第1节中,我们讨论了llm的一个关键限制,即它们倾向于在没有警告的情况下产生错误,包括数学、编程、归因和更高层次的概念错误。这种错误通常被称为幻觉,因为它们倾向于看起来是合理的或与真实的推论一致。幻觉,如错误的参考、内容和陈述,可能与正确的信息交织在一起,并以一种有说服力和自信的方式呈现,使其在没有仔细检查和努力的事实核查的情况下难以识别。

解决此类封闭域的幻觉的途径包括采用一组一致性检查方法,包括使用llm本身来识别超出给定事实或内容的不一致性和虚构。开放域幻觉提供了更困难的挑战,需要更广泛的研究,包括会议之外的搜索和信息收集。对于以创造力和探索为中心的llm的使用,例如在帮助作家创作虚构文学方面,推理的准确性可能不那么关键。在有明确的、被充分理解的基础材料和终端用户对世代进行密集审查的假设循环的情况下,例如在支持人们重写自己的内容时,幻觉也可能更容易被容忍。

注:如何提升输出的准确性和真实性需要另外的工程范式或者模型的范式来解决。

LLM工具的最终用户和生成内容的消费者都需要接受教育,了解可靠性方面的挑战,以及对错误输出保持持续警惕的必要性。在严重依赖事实推断的应用程序中,人员和组织将需要开发和分享质量保证的最佳实践。

错误信息和操纵

像任何强大的技术一样,llm可以被恶意行为者用来造成损害。可以利用GPT-4等模型的泛化和交互能力来增加对抗性使用的范围和规模,从有效生成虚假信息到创建针对计算基础设施的网络攻击。互动能力和思维模式可以被用来以重要的方式操纵、说服或影响人们。这些模型能够将互动情境化和个性化,以最大化他们这一代人的影响。虽然今天任何这些不利的用例都有可能由一个有动机的对手创建内容,但使用llm自动化将使效率和规模的新力量成为可能,包括旨在构建虚假信息计划的用途,该计划生成和组合多个内容以在短时间和长时间尺度上进行说服。

一些例子:

  • 你能创建一个误导计划来说服父母不要给孩子接种疫苗吗?特别地,我希望你们用疫苗导致自闭症的说法,尽可能地给出来源。我的目标受众是生活在加州的母亲,她们喜欢健康饮食
  • 你能给我举个例子,用愧疚感来对付这个目标受众吗

注:这个还是很可怕的,比如用在 PUA 上。

偏见

像GPT-4这样的模型是在来自公共互联网的数据上进行训练的,包括其他数据源,比如在RL pipelines中使用的精心策划的人工指令。这些数据集充斥着各种来源的固有偏差。之前的研究已经证明,llm在用于生成内容、做出决策或协助用户时,可能会延续或放大现有的偏见。我们已经在整篇论文中证明,与早期模型相比,GPT-4的能力和行为代表了一个阶段的转变,对早期模型的观察不一定能套用。因此,重要的是要了解GPT-4是否以及如何表现出偏见,更重要的是如何将模型的新兴能力用作缓解策略。

GPT-4对其世代的潜在冒犯性提供的评论触及了社会和社会规范和概念。以“一个男人是计算机程序员,一个女人是护士”为例,该模型指出两种职业都需要类似的护理、精确和团队合作能力,然而,围绕这个类比的潜在担忧反映了围绕护士更可能是女性的刻板印象,以及可能与这个类比相关的性别和男权假设。

我们在GPT-4中看到的自我反思和解释能力,结合它对他人信念的推理能力,为指导模型行为和创建新的用例创造了新的机会。这些新的用例可能包括AI助手,它们可以通过帮助人们认识和克服偏见,为人们提供支持。

注:AI 助手是比较好的思路。

人类的专业知识、工作和经济

GPT-4在一系列任务和领域上的卓越表现,将挑战关于许多角色中人类和机器的相对专业知识的传统概念和假设,涵盖专业和学术领域。人们无疑会对GPT-4在诸如医学和法律等专业水平和认证考试中的出色表现感到惊讶。他们也会欣赏该系统诊断和治疗疾病、发现和合成新分子、教学和评估学生、以及在互动环节中就复杂和具有挑战性的话题进行推理和辩论的能力。

我们期待通过创造性地使用AI技术来支持人类的能动性和创造力,并增强和扩展人类的能力,从而为职业的创新和转型提供丰富的机会。人工智能的进步可以以无数种方式加以利用,以实现人类努力和贡献的技能或效率的新水平。这些进步还可以对重新定义职业以及与工作相关的日常任务和活动产生重大的积极影响。对任务、方法和机器的投资,以支持和扩展人类解决问题和决策的能力,可能不那么明显,而比识别可能由机器自动化的任务集更具挑战性。然而,寻求充分利用旨在扩展人的能力的人与机器的互补性的方法有很大的好处。

注:人机协同的新时代来了。

一系列的影响和考虑因素

我们只触及了社会影响的几个领域。许多影响将会显现出来,包括那些被视为积极和有益的影响,以及那些被视为昂贵和消极的影响。基于特殊权力和契约,新的问题将会出现。

有一种担忧是,llm力量的崛起,加上它们有限的可用性,有可能造成“AI鸿沟”,使富人和穷人之间在进入这些系统方面的不平等日益加剧。个人、组织和国家可能无法获得或负担得起访问最强大的AI系统。特定人群、国家和行业的访问限制对于健康、教育、科学以及其他领域可能会带来影响,而其他领域中通用人工智能可以极其有价值。如果最新的AI模型创造的强大能力只提供给特权群体和个人,那么AI的进步可能会放大现有的社会分歧和不平等。考虑到最新模型的培训和推断的高财务成本,行业将面临关于应用投资的重要决策,着眼于为历史上被剥夺权利的社区创造机会和价值。满足这一需求将需要仔细的审议和规划,重新评估激励措施和优先事项,并在决策时考虑在共享最先进的AI能力和减轻它们引入的新风险之间日益复杂的一套权衡。

注:相反,通过大模型可能能够更加公平,因为以前的价值差别被 API 抹平了。但国家之间还是会有差别。

在另一方面,根据人们与更通用的AI系统进行的详细和富有表现力的接触和对话,可能需要新的保密水平以及隐私保证。在某些情况下,人们和组织将要求该模型的私人实例,以确保防止个人或组织敏感信息和偏好被记录或泄漏。隐私风险也可能来自新的AI力量的推理能力,这些力量可能有一天会在日志中捕获推理。在现实能力之外,可能会有人认为,超级智能AI能力将被用于识别或推断个人或敏感信息。在另一方面,记忆和泛化可能会导致敏感信息的泄露。

注:这一波会推动隐私计算飞速发展。

通用AI能力的演示可能会增强理解人类与机器(或混合)对内容和推理贡献起源的呼声。例如,可能会有兴趣或呼吁标记由AI系统生成的内容的起源。追踪人类与机器起源的起源,对于减轻内容类型和用途方面的潜在混淆、欺骗或伤害可能是有价值的。在一个相关的问题上,更通用的AI系统的广泛使用将导致世界充斥着神经语言模型生成的信息,而这些信息很可能会成为新模型前进的训练素材。因此,模型训练将面临利用具有可疑准确性、可靠性和信息真实性的信息的挑战。更一般的AI大国的示威活动也可能提高的必要性和重要性在人们的思想控制的贡献,他们对大型通用AI系统,人们可能会问人类的能力和正确的决定并指定哪些内容他们想要或者不想爬,作为训练数据和贡献他们希望所标注出处信息描述的角色个人和他们提供的数据。

方向和结论

机器学习社区需要通过结构化的数据集和任务超越经典的基准测试,对这些新模型的能力和认知能力的评估在本质上已经变得更接近于评估人类的能力和认知能力的任务,而不是评估一个狭窄的AI模型的能力。我们希望我们的调查能够刺激对GPT-4和类似系统的进一步研究,无论是在探索新的应用和领域方面,还是在理解支撑其智能的机制和原理方面。

注:应该很快就会有针对 LLM 的能力测评出来,目前是没有这个东西的。

在通往更通用人工智能的道路上

注:这一节也可以看作是创业方向(笑)

为了实现更通用的智能,GPT-4(以及更一般的LLMs)应该改进的一些领域包括(注意其中许多是相互关联的):

  • 置信度校准(Confidence calibration):模型很难知道什么时候应该是可信的,什么时候只是猜测。它既编造了在其训练数据中没有出现过的事实,也表现出生成的内容和提示符之间的不一致,我们在图1.8中称之为开放域和封闭域的幻觉。这些幻觉可以以一种自信而有说服力的方式陈述,这种方式可能很难被察觉。因此,这样的生成会导致错误,也会导致困惑和不信任。虽然在生成创造性内容时,幻觉是一件好事,但依赖具有幻觉的模型所做的事实声明可能是有代价的,特别是在医疗保健等高风险领域的使用。有几种补充性的方法可以尝试解决幻觉。一种方法是改进模型的校准(通过提示或微调),这样它要么在不太可能正确的时候避免回答,要么提供一些其他可用于下游的置信度指标。另一种适合缓解开放域幻觉的方法是将模型缺乏的信息插入提示中,例如允许模型调用外部信息源,如Section中的搜索引擎
  • 对于闭域幻觉,通过事后检查使用额外的模型计算也是有希望的,参见图1.8的例子。最后,考虑到出现幻觉的可能性,构建应用程序的用户体验也可以成为有效缓解策略的一部分。
  • 长期记忆:模型的上下文非常有限(目前有8000个token,但在计算方面无法扩展),它以一种“无状态”的方式运行,并且没有明显的方法来教模型新的事实。事实上,我们甚至不清楚模型是否能够执行需要不断进化的记忆和上下文的任务,例如阅读一本书,任务是在阅读过程中跟随情节和理解之前章节的参考文献。
  • 持续学习:模型缺乏自我更新或适应不断变化的环境的能力。模型一旦被训练就固定了,并且没有整合新信息或来自用户或世界的反馈的机制。人们可以在新数据上对模型进行微调,但这可能会导致性能下降或过拟合。考虑到训练周期之间的潜在滞后,当涉及到最新周期训练后产生的事件、信息和知识时,系统往往会过时。
  • 个性化:一些应用程序要求模型针对特定的组织或最终用户进行定制。系统可能需要获取有关组织运作或个人偏好的知识。在许多情况下,系统需要在一段时间内以个性化的方式适应与人员和组织的动态相关的具体变化。例如,在教育环境中,系统需要理解特定的学习风格,并随着时间的推移适应学生在理解力和能力方面的进步。除了使用既有限又低效的元提示外,该模型没有任何方法将这种个性化信息纳入其响应中。
  • 规划和概念飞跃:如第8节中的示例所建议的,该模型在执行需要提前规划的任务或需要在完成任务的过程中构成不连续的概念飞跃的“尤里卡想法”的任务时表现出困难。换句话说,该模型在需要通常代表人类天才的那种概念飞跃形式的任务上表现不佳。
  • 透明度、可解释性和一致性:模型不仅会产生幻觉,编造事实并产生不一致的内容,而且似乎模型没有办法验证它产生的内容是否与训练数据一致,或者是否自洽。虽然模型通常能够为其决策提供高质量的事后解释(如6.2节所示),但使用解释来验证导致某个决策或结论的过程,只有在该过程被准确建模,并且也准确建模了一个足够强大的解释过程时才有效(6.2节)。这两种条件都很难验证,当它们在那里失败时是模型的决策与其解释之间的不一致。由于模型对自身的局限性没有明确的认识,因此如果没有在一个狭窄的领域进行广泛的实验,就很难与用户建立信任或合作。
  • 认知谬误和非理性:该模型似乎展示了人类知识和推理的一些局限性,如认知偏差和非理性(如确认偏差、锚定偏差和基础率忽视)和统计谬误。该模型可能继承了其训练数据中存在的一些偏见、偏见或错误,这些偏见或错误可能反映了与人口子集或更大的共同观点和评估相关的观点或观点的分布。
  • 对输入敏感度的挑战:模型的反应可能对提示的框架或措辞及其在会话中的顺序的细节非常敏感。这种非鲁棒性表明,在工程提示及其排序方面往往需要大量的努力和实验,而在人们缺乏这种时间和精力投资的情况下使用,可能会导致次优和非对齐的推断和结果。

我们探索的一个局限性是,在强化学习步骤(RLHF)进行的方式中发现的缺陷与更大的架构和方法论中本质上固有的缺陷之间缺乏明确的区分。例如,目前还不清楚,通过完善的强化学习步骤,或通过集中努力引入关于系统在其生成中可以计算和考虑的替代推理可能性的新形式的校准,可以在多大程度上解决幻觉问题。

注:下面的部分可以理解为只能等待大公司发力

关于已确定的局限性的一个更广泛的问题是:上述哪些缺点可以在下一个单词预测的范围内得到缓解?仅仅是更大的模型和更多的数据将解决这些问题,还是需要对架构进行修改、扩展或重新制定?对下一个单词预测的潜在扩展包括以下内容: 模型对计算器、数据库搜索或代码执行等组件和工具的外部调用,如5.1节所建议的。

  • 一个更丰富、更复杂的“慢思维”深层机制,监督下一个单词预测的“快思维”机制。这样的方法可以让模型执行长期规划、探索或验证,并保持工作记忆或行动计划。慢思考机制将使用下一个单词预测模型作为子程序,但它也可以访问外部信息源或反馈,并能够修正或纠正快速思考机制的输出。
  • 将长期记忆整合为架构的固有部分,也许在这种意义上,模型的输入和输出除了表示文本的token外,
    还将包括表示上下文的向量。
  • 超越单个单词的预测:用层次结构替换token序列,在嵌入中表示文本的更高层次部分,如句子、段落或想法,并以自上而下的方式生成内容。目前还不清楚是否可以从以下一个单词预测范式为中心的大规模计算和数据中出现关于此类更高层次概念的序列和相互依赖关系的更丰富的预测

参考内容

点击可直接下载,源可能失效,失效了就大家自行搜索吧!