奥特曼所用大模型提示方法遭质疑，CoT提示效果引争议

日期：2025-06-09 20:31:00 / 人气：149

近日，来自沃顿商学院等机构的最新研究引发了广泛关注，该研究发现备受奥特曼喜爱的“直接回答”提示会显著降低模型准确率，而思维链（CoT）提示也并非如想象中那样有效，甚至在某些情况下还会带来负面影响。

“直接回答”提示降低准确率
研究明确指出，奥特曼常用的“直接回答”提示方式会使模型准确率明显下降。这一结论打破了人们以往对这种提示方式的认知，提示我们在使用大模型时，不能盲目依赖某种特定的提示方法。

CoT提示效果复杂且存争议
对推理模型作用有限
在针对推理模型的测试中，CoT提示的效果十分有限。以o3 - mini为例，CoT带来的准确率提升仅为4.1%，但时间却增加了80%；Gemini 2.5 Flash在使用CoT提示后，所有指标全面下降。这表明对于推理模型而言，额外增加CoT提示不仅不能有效提升性能，反而会消耗更多的时间和计算资源。

对非推理模型影响利弊共存
对于非推理模型，CoT提示的作用则较为复杂。从整体上看，CoT提示能提升模型的平均评分和“51%正确”指标，如Gemini Flash 2.0的提升最为显著，Claude 3.5 Sonnet紧随其后。然而，在100%和90%正确率指标方面，部分模型加入CoT提示后指标反而下降，这意味着CoT虽然提高了整体准确率，但也增加了答案的不稳定性。

研究方法与过程严谨
研究团队使用GPQA Diamond数据集作为基准测试工具，该数据集包含了研究生水平的专家推理问题，确保了研究的权威性和专业性。实验过程中，对推理模型（o4 - mini、o3 - mini、Gemini 2.5 Flash）和非推理模型（Claude 3.5 Sonnet 3.5、Gemini 2.0 Flash、GPT - 4o - mini、GPT - 4o、Gemini Pro 1.5）进行了全面测试，并设置了“强制推理”“直接回答”“默认”三种实验环境，每个问题在每种条件下都被测试25次，共计统计了四个指标，保证了研究结果的可靠性和准确性。

研究结论与启示
默认设置或是最佳选择
结合研究结果可以发现，对于直接使用模型应用的用户来说，默认设置已经是一种很好的使用方式。因为部分模型已经内置了思维链相关内容，额外增加CoT提示可能并不会带来明显的性能提升，反而会增加成本和答案的不稳定性。

模型发展与提示方法适配
这一研究也提醒我们，在大模型不断发展的今天，需要不断探索和适配更加有效的提示方法。不能仅仅依赖于传统的提示方式，而应根据模型的特点和实际需求，灵活选择合适的提示策略，以充分发挥大模型的性能优势。

此次研究为我们深入了解大模型的使用提供了重要的参考依据，让我们认识到在使用大模型时，不能盲目遵循某种固定的提示模式，而要根据实际情况进行合理选择和调整。

作者：傲世皇朝平台

奥特曼所用大模型提示方法遭质疑，CoT提示效果引争议

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →