OpenAI大方分享:瑞士团队挑战GPT-4不微调,全靠提示词
OpenAI授予瑞士洛桑联邦理工团队GPT-4原始版的访问权限,这一行为不仅展示了OpenAI对科研共享的支持,同时也为研究大语言模型的上下文学习能力提供了新的实验平台。下面将深入分析这一事件的影响和意义:
-
研究背景与目的
-
研究背景:EPFL团队获得GPT-4-Base版访问权限,旨在探索仅通过上下文学习而非指令微调的方法,能否有效指导大模型执行指令。
-
研究目的:此研究试图验证是否能够降低开发类ChatGPT大模型的难度,并探索免微调对齐的可能性。
-
实验方法与发现
-
增加示例数量:团队首先尝试增加示例的数量,但发现这并未显著提升性能。
-
贪心搜索算法:通过贪心搜索算法从众多示例中选择最佳添加到上下文,虽然提升了性能,但与指令微调模型仍存在差距。
-
特定模型的最佳示例:研究发现,为某个特定模型找到的最佳示例,并不能可靠地迁移到其他模型上。
-
免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。
-
目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法) URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。
-
-
但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。
-
实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。
-
其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。
-
-
EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。
-
首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。
-
-
然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。
-
这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。
-
-
此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。
-
也就是说,不同的示例适合不同的模型。
-
-
团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。
-
他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要。
-
这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。
-
-
实验结果的意义
-
上下文学习的限制:即使在长上下文的大模型上,完全缩小上下文学习和指令微调之间的差距仍然具有挑战性。
-
模仿与理解:大语言模型可能只是通过上下文学习模仿例子里的回答风格,而没有真正理解执行指令的逻辑。
-
对AI助手发展的影响
-
“听话”AI的挑战:要让AI助手更“听话”,目前看来还没有捷径可走,这是一个复杂的任务。
-
技术发展的新方向:尽管存在挑战,但这项研究为未来AI助手的发展提供了新的思路和研究方向。
-
对大模型研究的贡献
-
理论与实践的结合:通过实际操作和实验,该研究为大语言模型的理论研究与实践应用之间架起了桥梁。
-
多角度分析:研究不仅关注模型性能的提升,还从示例的选择、模型的适配等多个角度进行了分析。
-
对未来研究的启示
-
上下文学习的潜力与限制:未来的研究需要更深入地探索上下文学习的潜力及其局限性。
-
模型通用性问题:如何提高模型在不同任务和环境中的通用性和适应性,是未来研究的重要方向。
-
对AI伦理和安全性的影响
-
透明度与可控性:研究指出了在不进行微调的情况下,提高模型透明度和可控性的重要性。
-
伦理考量:在发展更“听话”的AI助手时,需要考虑到伦理和安全性的问题。
-
对社会的潜在影响
-
技术进步的社会影响:随着AI技术的发展,其在社会中的影响也日益增大,包括就业、教育、隐私等多个方面。
-
公众认知与接受度:研究成果的普及和公众对AI技术的理解和接受度,也是未来发展的关键因素。