OpenAI大方分享：瑞士团队挑战GPT-4不微调，全靠提示词

2024-06-03

OpenAI授予瑞士洛桑联邦理工团队GPT-4原始版的访问权限，这一行为不仅展示了OpenAI对科研共享的支持，同时也为研究大语言模型的上下文学习能力提供了新的实验平台。下面将深入分析这一事件的影响和意义：

研究背景与目的

研究背景：EPFL团队获得GPT-4-Base版访问权限，旨在探索仅通过上下文学习而非指令微调的方法，能否有效指导大模型执行指令。
研究目的：此研究试图验证是否能够降低开发类ChatGPT大模型的难度，并探索免微调对齐的可能性。

实验方法与发现

增加示例数量：团队首先尝试增加示例的数量，但发现这并未显著提升性能。
贪心搜索算法：通过贪心搜索算法从众多示例中选择最佳添加到上下文，虽然提升了性能，但与指令微调模型仍存在差距。
特定模型的最佳示例：研究发现，为某个特定模型找到的最佳示例，并不能可靠地迁移到其他模型上。
免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提示词中学会和用户对话、跟随指令，一直是业界关注的研究方向。
目前的 SOTA 方法（指某个领域在之前的研究中效果最好的方法） URIAL 来自艾伦研究所，使用系统提示词 + 少数风格示例就能达到不错的效果。
但 EPFL 团队发现，URIAL 仍无法完全弥补与指令微调模型的差距，尤其在多轮对话中的表现更差一些。
实验中，在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。
其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。
EPFL 团队从这里出发，尝试了各种办法来提升上下文学习的效果。
首先他们增加示例的数量，但发现帮助不大，没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。
然后他们使用了贪心搜索算法，从一大堆示例中选择最佳的添加到上下文。
这种方法可以进一步提高性能，但与指令微调模型的差距仍然存在，特别是在 AlpacaEval 2.0 基准测试中。
此外他们还发现，贪心搜索为某个特定模型找到的最佳示例，对于其他模型不能可靠地迁移。
也就是说，不同的示例适合不同的模型。
团队还进行了一系列消融实验（指移除或变换某个组件，来研究该组件对系统功能的影响），以更多地了解上下文学习的工作原理。
他们发现，在 MT-Bench 这样的综合评测中，示例包含正确的“问题-答案对”至关重要。
这与此前大模型在分类任务中，只要有大量示例，部分标签错了也无所谓的发现非常不同。

实验结果的意义

上下文学习的限制：即使在长上下文的大模型上，完全缩小上下文学习和指令微调之间的差距仍然具有挑战性。
模仿与理解：大语言模型可能只是通过上下文学习模仿例子里的回答风格，而没有真正理解执行指令的逻辑。

对AI助手发展的影响

“听话”AI的挑战：要让AI助手更“听话”，目前看来还没有捷径可走，这是一个复杂的任务。
技术发展的新方向：尽管存在挑战，但这项研究为未来AI助手的发展提供了新的思路和研究方向。

对大模型研究的贡献

理论与实践的结合：通过实际操作和实验，该研究为大语言模型的理论研究与实践应用之间架起了桥梁。
多角度分析：研究不仅关注模型性能的提升，还从示例的选择、模型的适配等多个角度进行了分析。

对未来研究的启示

上下文学习的潜力与限制：未来的研究需要更深入地探索上下文学习的潜力及其局限性。
模型通用性问题：如何提高模型在不同任务和环境中的通用性和适应性，是未来研究的重要方向。

对AI伦理和安全性的影响

透明度与可控性：研究指出了在不进行微调的情况下，提高模型透明度和可控性的重要性。
伦理考量：在发展更“听话”的AI助手时，需要考虑到伦理和安全性的问题。

对社会的潜在影响

技术进步的社会影响：随着AI技术的发展，其在社会中的影响也日益增大，包括就业、教育、隐私等多个方面。
公众认知与接受度：研究成果的普及和公众对AI技术的理解和接受度，也是未来发展的关键因素。

OpenAI大方分享：瑞士团队挑战GPT-4不微调，全靠提示词

昆仑万维的新突破：全球首创单台RTX 4090服务器推理，开...

人工智能初创企业5月融资额突破125亿美元

最新文章

推荐站点

AI导航网

OpenAI大方分享：瑞士团队挑战GPT-4不微调，全靠提示词

昆仑万维的新突破：全球首创单台RTX 4090服务器推理，开...

人工智能初创企业5月融资额突破125亿美元

最新文章

推荐站点