奥特曼所用大模型提示方法遭质疑,CoT提示效果引争议

日期:2025-06-09 20:31:00 / 人气:34


近日,来自沃顿商学院等机构的最新研究引发了广泛关注,该研究发现备受奥特曼喜爱的“直接回答”提示会显著降低模型准确率,而思维链(CoT)提示也并非如想象中那样有效,甚至在某些情况下还会带来负面影响。

“直接回答”提示降低准确率
研究明确指出,奥特曼常用的“直接回答”提示方式会使模型准确率明显下降。这一结论打破了人们以往对这种提示方式的认知,提示我们在使用大模型时,不能盲目依赖某种特定的提示方法。

CoT提示效果复杂且存争议
对推理模型作用有限
在针对推理模型的测试中,CoT提示的效果十分有限。以o3 - mini为例,CoT带来的准确率提升仅为4.1%,但时间却增加了80%;Gemini 2.5 Flash在使用CoT提示后,所有指标全面下降。这表明对于推理模型而言,额外增加CoT提示不仅不能有效提升性能,反而会消耗更多的时间和计算资源。

对非推理模型影响利弊共存
对于非推理模型,CoT提示的作用则较为复杂。从整体上看,CoT提示能提升模型的平均评分和“51%正确”指标,如Gemini Flash 2.0的提升最为显著,Claude 3.5 Sonnet紧随其后。然而,在100%和90%正确率指标方面,部分模型加入CoT提示后指标反而下降,这意味着CoT虽然提高了整体准确率,但也增加了答案的不稳定性。

研究方法与过程严谨
研究团队使用GPQA Diamond数据集作为基准测试工具,该数据集包含了研究生水平的专家推理问题,确保了研究的权威性和专业性。实验过程中,对推理模型(o4 - mini、o3 - mini、Gemini 2.5 Flash)和非推理模型(Claude 3.5 Sonnet 3.5、Gemini 2.0 Flash、GPT - 4o - mini、GPT - 4o、Gemini Pro 1.5)进行了全面测试,并设置了“强制推理”“直接回答”“默认”三种实验环境,每个问题在每种条件下都被测试25次,共计统计了四个指标,保证了研究结果的可靠性和准确性。

研究结论与启示
默认设置或是最佳选择
结合研究结果可以发现,对于直接使用模型应用的用户来说,默认设置已经是一种很好的使用方式。因为部分模型已经内置了思维链相关内容,额外增加CoT提示可能并不会带来明显的性能提升,反而会增加成本和答案的不稳定性。

模型发展与提示方法适配
这一研究也提醒我们,在大模型不断发展的今天,需要不断探索和适配更加有效的提示方法。不能仅仅依赖于传统的提示方式,而应根据模型的特点和实际需求,灵活选择合适的提示策略,以充分发挥大模型的性能优势。

此次研究为我们深入了解大模型的使用提供了重要的参考依据,让我们认识到在使用大模型时,不能盲目遵循某种固定的提示模式,而要根据实际情况进行合理选择和调整。

作者:傲世皇朝平台




现在致电 5243865 OR 查看更多联系方式 →

傲世皇朝平台 版权所有