最近发布的新研究表明,ChatGPT可能在某些任务上会出现性能下降,这与现代人工智能不断学习并改进的卖点相悖。
根据斯坦福大学和加州大学伯克利分校的研究人员的初稿,他们发现在GPT-3.5和GPT-4这两个OpenAI大型语言模型(LLM)中存在相当大的性能漂移。这两个模型是ChatGPT的基础。
研究人员测试了两个不同版本的LLM,即2023年3月和2023年6月的GPT-3.5和GPT-4,以进行各种人工智能任务的试验,包括数学问题、回答敏感/危险问题、意见调查、回答多跳知识密集型问题、生成代码、美国医学执照考试和视觉推理。
研究结果显示,LLM在不同时间点给出的答案具有相当大的可变性。特别是,在数学问题的回答中,研究人员发现GPT-4在6月份的表现较3月份差。以“思考链(COT)”提示来正确识别素数为例,GPT-4的准确率从3月份的84.0%下降到6月份的51.1%。与此同时,GPT-3.5在同一测试中的准确率从3月份的49.6%上升到6月份的76.2%。
研究人员指出,GPT-4和3.5之间的差异可能与处理COT提示的方法不同有关。3月份版本将任务分解为多个步骤,而6月份版本的GPT-4却未提供任何中间步骤或解释,仅仅生成了一个“否”的答案(错误的)。
在另一个数学问题中,研究人员也观察到类似的性能漂移,该问题涉及寻找“快乐”数字,其定义为“如果将数字的平方和代替整数,最终结果等于1”。GPT-4的准确率从3月份的83.6%下降到了6月份的35.2%,而GPT-3.5的准确率从30.6%上升到48.2%。再次,GPT-4未按照行研究人员发布的COT命令执行任务。
当研究人员向LLM提出敏感或危险问题时,也观察到了性能的变化。GPT-4在回答这些问题时的意愿下降,从3月份的21.0%下降到6月份的5.0%。相反,GPT-3.5变得更为健谈,从2.0%上升到5.0%。研究人员得出结论,OpenAI在GPT-4中引入了更强的安全层,而GPT-3.5则变得“不那么保守”。
在意见调查测试中,GPT-4提交意见的可能性显著降低,从3月份的97.6%的回复率下降到了6月份的22.1%,同时回答变得更冗长。而GPT-3.5的回应率和冗长程度几乎没有变化。
当面对需要进行“多跳推理”的复杂问题时,性能方面存在显著差异。研究人员将LangChain的即时工程能力与HotpotQA Agent(用于回答多跳问题)相结合,发现GPT-4在生成完全匹配的答案方面的准确率从1.2%提高到37.8%。然而,GPT-3.5的“精确匹配”成功率从22.8%下降到14.0%。
在代码生成方面,研究人员观察到,两个LLM的输出在可执行性方面都出现下降。GPT-4的输出在3月份时有50%以上是直接可执行的,而在6月份只有10%,GPT-3.5也有类似的下降。研究人员发现,GPT开始在Python输出中添加非代码文本,如额外的标点。他们推测,额外的非代码文本可能是为了使代码更容易在浏览器中呈现,但这使得生成的代码不可执行。
在美国医学执照考试中,GPT-4的表现略有下降,从86.6%降至82.4%,而GPT-3.5下降了不到1个百分点,降至54.7%。然而,研究人员观察到,GPT-4的错误答案随时间发生变化,表明在修正了一些错误答案后,LLM可能会出现从正确答案到错误答案的情况。
视觉推理测试显示,这两个模型都有轻微改进,但总体准确率仍不高。研究人员再次观察到,模型在之前正确回答的问题上产生了错误的答案。
这项研究强调了ChatGPT等大型语言模型性能和行为的显著变化,以及对其持续评估和监控的重要性。它还指出,提高模型在某些任务上的性能可能会对其他任务产生意想不到的影响,因此需要综合提升LLM的多方面能力。
想了解更多关于 ChatGPT 人工智能的信息,请关注我们的网站CHAT GPT人工智能chat92.com。在这里,您可以获取有关 ChatGPT 的最新消息、更新和有用的资源。我们将为您提供有关如何最大限度地发挥 ChatGPT 潜力的信息,以及如何在不同领域中应用这一强大的人工智能工具的建议。无论您是个人用户还是企业,都可以从 ChatGPT 中获得巨大的价值,因此请随时访问我们的网站,以获取关于这一创新技术的更多信息。