研究人员开发了一种称为自然语言嵌入式程序(NLEPs)的技术,该技术通过生成Python程序来解决复杂任务,从而提高大型语言模型的性能。

这种方法不仅提高了准确性和效率,而且增加了透明度,因为用户可以直接看到和修改生成的代码。NLEP允许像GPT-4这样的大型模型以更高的精度解决更广泛的任务,并且可以潜在地改善数据隐私和小型模型的性能,而无需进行广泛的再培训。

提高大型语言模型的推理能力

大型语言模型(LLM),例如那些支持ChatGPT的语言模型,在起草法律摘要、分析客户评论的情绪或将文档翻译成不同的语言等任务上,表现出了令人印象深刻的性能。

这些机器学习模型通常只使用自然语言来处理信息和回答查询,这使得它们很难执行需要数字或符号推理的任务。

例如,一个大型语言模型可能能够记忆和背诵最近的美国总统及其生日的列表,但如果被问到“1950年之后当选的美国总统中有哪些是在星期三出生的?”时(答案是吉米·卡特),同样的模型可能会失败。

通过NLEP增强模型能力

麻省理工学院和其他地方的研究人员提出了一种新技术,使大型语言模型能够通过生成程序来解决自然语言、数学和数据分析以及符号推理任务。

他们的方法被称为自然语言嵌入式程序(NLEPs),包括提示语言模型创建并执行Python程序来解决用户的查询,然后将解决方案作为自然语言输出。

提高准确性和透明度

他们发现,NLEP使大型语言模型能够在广泛的推理任务中达到更高的准确性。该方法还具有通用性,这意味着一个NLEP提示符可以用于多个任务。

NLEP还提高了透明度,因为用户可以检查程序,看看模型是如何对查询进行推理的,如果模型给出了错误的答案,可以修复程序。

“我们希望人工智能能够以透明和值得信赖的方式进行复杂的推理。还有很长的路要走,但我们已经证明,将编程和自然语言的能力结合在大型语言模型中,是迈向未来的一个非常好的潜在的第一步,人们可以完全理解和信任他们的人工智能模型内部发生的事情,”麻省理工学院博士后、NLEP论文的共同主要作者罗红音(音译)博士说。

与罗教授一起撰写论文的还有香港中文大学研究生张天华(音译);北京大学本科生葛佳欣;Yoon Kim,麻省理工学院电气工程与计算机科学系助理教授,计算机科学与人工智能实验室(CSAIL)成员;资深作者James Glass,资深研究科学家,CSAIL口语系统小组负责人;以及其他。这项研究将在计算语言学协会北美分会年会上发表。

NLEP设计与运行机制

许多流行的大型语言模型都是通过预测给定一些自然语言输入的下一个单词或标记来工作的。虽然像GPT-4这样的模型可以用来编写程序,但它们将这些程序嵌入到自然语言中,这可能导致程序推理或结果出现错误。

对于NLEP,麻省理工学院的研究人员采取了相反的方法。它们提示模型完全用Python代码生成一个循序渐进的程序,然后将必要的自然语言嵌入到程序中。

NLEP是一个解决问题的模板,包含四个步骤。首先,模型调用必要的包或函数,它将需要解决任务。第二步涉及导入任务所需知识的自然语言表示(比如美国总统的生日列表)。对于第三步,模型实现一个计算答案的函数。最后一步,如果需要,模型会将结果输出为带有自动数据可视化的自然语言行。

“它就像一个数字计算器,只要程序是正确的,它总是给你正确的计算结果,”罗教授说。

用户可以很容易地调查程序并直接修复代码中的任何错误,而不需要重新运行整个模型来排除故障。

这种方法也比其他方法提供了更高的效率。如果用户有许多类似的问题,他们可以生成一个核心程序,然后替换某些变量,而无需重复运行模型。

为了促使模型生成NLEP,研究人员给了它一个编写Python程序的总体指令,提供了两个NLEP示例(一个带有数学,一个带有自然语言),以及一个测试问题。

“通常情况下,当人们做这种少数提示时,他们仍然需要为每个任务设计提示。我们发现,我们可以用一个提示来完成许多任务,因为它不是一个提示来教LLM解决一个问题,而是一个提示来教LLM通过编写一个程序来解决许多问题。”

麻省理工学院- IBM沃森人工智能实验室的首席科学家Leonid Karlinsky表示:“让语言模型与代码进行推理,为工具使用、输出验证、对模型功能和思维方式的更结构化理解等提供了许多机会。”

“这里没有魔法”

NLEPs在提示GPT-4解决一系列符号推理任务(如跟踪打乱的物体或玩24的游戏)以及指令遵循和文本分类任务时,准确率超过90%。研究人员发现,NLEP甚至比特定任务提示方法的准确率高出30%。与开源LLM相比,该方法也有所改进。

除了提高大型语言模型的准确性外,NLEP还可以改善数据隐私。由于NLEP程序在本地运行,敏感的用户数据不需要发送到OpenAI或谷歌等公司由模型处理。

此外,NLEP可以使小型语言模型更好地执行,而不需要为特定任务重新训练模型,这可能是一个代价高昂的过程。

“这里没有魔法。我们没有更昂贵或更花哨的语言模型。我们所做的就是使用程序生成而不是自然语言生成,我们可以使它表现得更好,”罗教授说。

然而,NLEP依赖于模型的程序生成能力,因此该技术不适用于在有限数据集上训练的较小模型。在未来,研究人员计划研究可以使更小的语言模型产生更有效的NLEP的方法。此外,他们想要研究提示变量对NLEP的影响,以增强模型推理过程的鲁棒性。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com