OpenAI大方分享:瑞士团队挑战GPT-4不微调,全靠提示词

2024-06-03
1

OpenAI授予瑞士洛桑联邦理工团队GPT-4原始版的访问权限,这一行为不仅展示了OpenAI对科研共享的支持,同时也为研究大语言模型的上下文学习能力提供了新的实验平台。下面将深入分析这一事件的影响和意义:

  1. 研究背景与目的

    • 研究背景:EPFL团队获得GPT-4-Base版访问权限,旨在探索仅通过上下文学习而非指令微调的方法,能否有效指导大模型执行指令。

    • 研究目的:此研究试图验证是否能够降低开发类ChatGPT大模型的难度,并探索免微调对齐的可能性。

  2. 实验方法与发现

    • 增加示例数量:团队首先尝试增加示例的数量,但发现这并未显著提升性能。

    • 贪心搜索算法:通过贪心搜索算法从众多示例中选择最佳添加到上下文,虽然提升了性能,但与指令微调模型仍存在差距。

    • 特定模型的最佳示例:研究发现,为某个特定模型找到的最佳示例,并不能可靠地迁移到其他模型上。

    • 免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。

    • 目前的 SOTA 方法(指某个领域在之前的研究中效果最好的方法) URIAL 来自艾伦研究所,使用系统提示词 + 少数风格示例就能达到不错的效果。

    • 图片

    • 但 EPFL 团队发现,URIAL 仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。

    • 实验中,在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。

    • 其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。

    • 图片

    • EPFL 团队从这里出发,尝试了各种办法来提升上下文学习的效果。

    • 首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

    • 图片

    • 然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。

    • 这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0 基准测试中。

    • 图片

    • 此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。

    • 也就是说,不同的示例适合不同的模型

    • 图片

    • 团队还进行了一系列消融实验(指移除或变换某个组件,来研究该组件对系统功能的影响),以更多地了解上下文学习的工作原理。

    • 他们发现,在 MT-Bench 这样的综合评测中,示例包含正确的“问题-答案对”至关重要

    • 这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。

    • 图片

  3. 实验结果的意义

    • 上下文学习的限制:即使在长上下文的大模型上,完全缩小上下文学习和指令微调之间的差距仍然具有挑战性。

    • 模仿与理解:大语言模型可能只是通过上下文学习模仿例子里的回答风格,而没有真正理解执行指令的逻辑。

  4. 对AI助手发展的影响

    • “听话”AI的挑战:要让AI助手更“听话”,目前看来还没有捷径可走,这是一个复杂的任务。

    • 技术发展的新方向:尽管存在挑战,但这项研究为未来AI助手的发展提供了新的思路和研究方向。

  5. 对大模型研究的贡献

    • 理论与实践的结合:通过实际操作和实验,该研究为大语言模型的理论研究与实践应用之间架起了桥梁。

    • 多角度分析:研究不仅关注模型性能的提升,还从示例的选择、模型的适配等多个角度进行了分析。

  6. 对未来研究的启示

    • 上下文学习的潜力与限制:未来的研究需要更深入地探索上下文学习的潜力及其局限性。

    • 模型通用性问题:如何提高模型在不同任务和环境中的通用性和适应性,是未来研究的重要方向。

  7. 对AI伦理和安全性的影响

    • 透明度与可控性:研究指出了在不进行微调的情况下,提高模型透明度和可控性的重要性。

    • 伦理考量:在发展更“听话”的AI助手时,需要考虑到伦理和安全性的问题。

  8. 对社会的潜在影响

    • 技术进步的社会影响:随着AI技术的发展,其在社会中的影响也日益增大,包括就业、教育、隐私等多个方面。

    • 公众认知与接受度:研究成果的普及和公众对AI技术的理解和接受度,也是未来发展的关键因素。

©️版权声明:若无特殊声明,本站所有文章版权均归爱音熊导航集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。