
大语言模型攻克CFA三级:从答题到金融思考的飞跃
业
2
9-27原野: 你知道吗,最近科技圈和金融圈都有一件大事,就是人工智能,特别是那些顶尖的大语言模型,居然已经能通过CFA三级模拟考试了。我身边的金融朋友都说,CFA三级那可是投资管理领域的“珠穆朗玛峰”,特别硬核,过去AI根本摸不到边。
晓曼: 没错,这可不仅仅是AI在考试里拿了个高分那么简单。这背后代表的是一个质的飞跃。过去的研究也让AI考过,在一级二级的选择题上表现还行,可一到三级,尤其是那些需要深度分析的论述题,基本就全军覆没了。而这次,像o4-mini和Gemini 2.5 Pro这些顶尖模型,综合得分居然达到了79.1%和75.9%,远超了那个大家公认的63%左右的及格线。这第一次证明了,AI已经具备了专业级的金融推理能力。
原野: 专业级的金融推理能力,这个说法听起来就非常厉害。那从这项研究来看,AI能通过CFA三级,背后的深层原因到底是什么?是模型本身变聪明了,还是用了什么特殊的考试技巧?
晓曼: 嗯,可以说是两者兼而有之。模型本身的能力迭代当然是基础,它们能理解更复杂的文本和逻辑了。但更关键的,是研究里用的一种叫做“思维链”的高级提示策略。这就好比,你不是直接问AI答案,而是引导它,像一个老师带学生一样,说“你先别急着回答,一步一步地把你的思考过程写下来”。通过这种方式,AI就被迫去分解问题,进行逻辑推理,而不是瞎猜。这对处理那些复杂的、需要好几个步骤才能解决的金融问题,效果特别好。
原野: 我明白了。那我们把视角从技术拉回到现实,AI能通过CFA三级,这对我们这些金融从业者,或者说像我这样的普通人来说,到底意味着什么?是饭碗要被抢了吗?
晓曼: 哈哈,我觉得更多的是机遇,而不是威胁。这不代表AI要取代分析师了,而是说分析师们即将迎来一个超级强大的AI助手。你可以想象一下,你手头有一个复杂的投资组合,这个AI助手能在几分钟内帮你分析完风险、评估潜在回报,甚至给你草拟一份初步的投资建议。这会把金融专业人士从大量重复性的分析工作中解放出来,让他们能更专注于那些更高层次的战略思考、客户沟通和最终决策。
原野: 从LLMs首次在CFA三级考试中展现出专业级金融推理能力,我们确实看到了AI在金融领域应用的巨大潜力。不过,要真正理解这些模型的实力,我们可能还需要更深入地看看,它们在不同类型的题目上到底表现如何,特别是那些真正考验能力的难题。
晓曼: 对,这正是这项研究里另一个非常有意思的发现。
原野: 哦?说来听听。
晓曼: 研究发现,那些顶尖的AI模型,在做选择题的时候,分数都差不多,基本都挤在71%到75%这个区间。但是一到论述题,差距就立刻拉开了,有的模型表现优异,有的就明显跟不上了。要知道,论述题才是真正考验分析、综合和战略思维能力的地方。
原野: 有点意思。所以说,选择题就像是基础知识测验,大家都能考得不错,但论述题才是真正区分“学霸”和“普通学生”的考场。
晓曼: 没错,你这个比喻很贴切。论述题才是真正考验模型深层金融推理、批判性思维和清晰表达投资逻辑的“试金石”。这种表现上的分化告诉我们,不能只看AI的平均分,更要看它在处理那些复杂的、开放式问题时的真实能力。这也解释了为什么那些专门为推理任务优化过的模型,在论述题上表现要好得多。数据显示,推理增强模型在论述题上得分比非推理模型高出将近20%。
原野: 那为什么选择题的表现会趋同,而论述题的表现却差异巨大呢?这背后反映了AI在处理信息和生成内容上有什么根本性的区别吗?
晓曼: 这个问题问到点子上了。选择题,答案是A、B、C三个固定的选项,模型可以通过强大的模式匹配和信息检索能力来找到最可能的答案,这更像是一种知识的识别和应用。但论述题完全不同,它没有标准答案。它会给你一段很长的背景材料,也就是“vignette”,然后让你基于这个场景去分析。模型需要自己去理解问题,从材料里提取关键信息,把不同的金融概念融会贯通,形成一个逻辑自洽的论证,最后还要用清晰的语言表达出来。这个过程需要的是结构化思维和高级推理能力,而这恰恰是不同模型能力差异最大的地方。
原野: 我明白了。不过,这么强调论述题的表现,会不会让人们忽略了AI在快速处理大量数据和回答简单问题上的优势?毕竟在实际工作中,很多时候也需要快速获取信息。
晓曼: 这是一个很好的观点。当然不是要否定AI在标准化任务上的巨大效率优势。这项研究想强调的是,在金融这种高风险的决策场景里,只具备做对选择题的能力是远远不够的。论述题之所以重要,是因为它模拟了真实世界里金融专家需要面对的那些复杂、模糊、没有唯一正确答案的问题。所以,关注AI在论述题上的表现,其实是为了确保当我们把更关键、更需要深度思考的任务交给它时,它真的能够胜任。
原野: 从选择题的趋同到论述题的分化,我们确实看到了AI金融推理能力的层次。不过,模型的表现好像不光取决于它自己有多聪明,还跟我们怎么“问”它有很大关系。这就要说到你刚才提到的“提示策略”了。
晓曼: 对。这引出了研究中另一个非常实际的发现:性能和成本之间的权衡。
原野: 我看到报告里一个惊人的数字,说使用像“思维链”这样的高级策略,虽然能提高准确率,但成本居然会增加到11倍!
晓曼: 是的,这个发现非常关键。它完美诠释了“你如何提问,决定了你得到什么”这句话的另一层含义——得到更好的答案,需要付出更高的代价。比如“思维链”策略,它在多选题上能把准确率提高近8个百分点,在论述题上也拿到了最高分。但代价就是,处理时间是普通提问方式的十倍以上,花的钱也跟着飙升。
原野: 这个概念听起来有点抽象,咱们能不能用一个日常的例子来类比一下“思维链”和那种最简单的“零样本”提问方式?
晓曼: 当然可以。这就像你问一个学生一道复杂的数学应用题。用“零样本”的方式,就等于你直接问他:“答案是多少?” 他可能凭感觉或者记忆给你一个数字,对了就对了,错了你也不知道他错在哪。而“思维链”呢,就相当于你对他说:“你把解题的步骤一步一步写在草稿纸上,让我看看你是怎么想的。” 这样一来,他被迫去思考每一步的逻辑,就算最后答案错了,你也知道他是在哪一步卡住了。对于AI来说,这个“写出步骤”的过程,极大地提高了它最终得出正确答案的概率,尤其是在那些需要多步计算和推理的金融问题上。
原野: 哦,这么一说我就明白了!“思维链”就是让AI“秀出肌肉”,把思考过程亮出来。那研究里还提到了一个叫“自发现”的策略,好像是个中间选项?
晓曼: 是的,“自发现”策略更有趣。它像是让AI自己先成为解题方法论专家。在解题前,AI会先分析“要解决这个问题,我需要用到哪些思维模块?比如,概念定义、定量计算、还是比较分析?”然后它自己制定一个解题计划,再按计划执行。这个方法在选择题上效果不错,准确率提升很明显,成本增加又不像“思维链”那么夸张。但奇怪的是,它在论述题上却表现很差。
原野: 这是为什么呢?
晓曼: 研究推测,可能是因为CFA的论述题要求非常具体、严格遵循评分标准,而“自发现”这种让AI自由发挥的元认知规划,反而可能跟这种刻板的评分要求不太匹配。所以,综合来看,最佳的部署策略可能是一种分层的方法:对于那些简单、日常的查询,用小模型和简单提问,又快又省钱;而对于那些真正复杂、需要深度分析的核心任务,再调用像o4-mini这样的大模型,并启用“思维链”这种高成本但高精度的策略。这才是精打细算的办法。
原野: 有道理,好钢用在刀刃上。聊完了模型和策略,这项研究还有一个角度特别值得玩味,就是谁来给这些AI打分。我看到一个结论,说人类专家给出的分数,居然比AI评卷员平均高了5.6分。这是不是说,AI评卷员其实更严格?
晓曼: 是的,这是一个非常重要的发现。它揭示了用AI来评估AI时可能存在的系统性偏见。虽然让AI当评委可以做到大规模、标准化的评估,但它在处理主观性、灵活理解这些方面,和人类专家还是有显著差异的。
原野: 那为什么AI评卷员会比人类专家更“严苛”呢?是给它的指令有问题,还是它本身理解不了那些比较模糊的答案?
晓曼: 研究提到了两个可能的原因。第一,给AI评委的指令非常明确,要求它“严格地”、“精确地”遵循评分细则,不能给“差不多就行”的答案打分。第二,给AI参考的标准答案通常写得非常简洁、精炼。这两个因素加在一起,就可能导致AI在评分时缺少了人类的那种弹性。一个人类考官看到一个答案,虽然表达方式和标准答案不一样,但能看出思路是对的,可能就会酌情给分。但AI可能会因为字面不匹配或者结构不一样,就直接判定为错误。
原野: 但反过来说,严格难道不是一件好事吗?它能保证评估的客观和一致,避免了人类考官可能因为心情、偏好不同而导致评分差异。在标准化考试里,这不正是我们追求的吗?
晓曼: 你说的没错,这是一个两难。严格性确实能带来客观和一致,在很多场景下是优点。但问题的关键在于,像CFA三级论述题这种高级别的评估,它考验的很多是专业判断和综合分析能力,这些东西本身就很难用一套完全僵化的规则去量化。过度的严格,可能会扼杀掉那些虽然不完美但充满洞察力的回答。所以,我们需要的可能是在严格性、灵活性和对复杂性的理解之间找到一个平衡。这也再次提醒我们,尤其在金融这种高风险领域,AI的评估结果不能盲目相信,人类的监督和最终判断仍然是不可或缺的。
原野: 听你这么一说,我来总结一下今天聊到的几个关键点,看看我理解得对不对。首先,最顶尖的AI已经在金融推理能力上实现了质的飞跃,能通过CFA三级考试了。但它们的真正实力,不是看选择题,而是看那些复杂的论述题。
晓曼: 对。其次,这种高性能背后是有代价的。使用“思维链”这样的高级提问方式,能大幅提升准确率,但计算成本和时间也会成倍增加。所以在实际应用中,必须得学会分层处理,精打细算。
原野: 我明白了。第三点,也是我觉得最有意思的一点,就是当AI自己当考官时,它会比人类专家更“严格”,这背后可能存在系统性的偏见。这提醒我们,AI的评估结果需要谨慎看待,人类的监督非常重要。
晓曼: 完全正确。总的来说,AI应被视为强大的辅助工具,而不是能完全自主决策的金融专家,尤其是在那些涉及真金白银和信托责任的投资领域。
原野: LLMs通过CFA三级考试,无疑是人工智能发展的一个里程碑,它预示着AI在金融领域的应用将从辅助走向深度参与。然而,这并非终点,而是新挑战的开始。我们不仅要关注AI能做什么,更要审视它如何做、做得如何,以及在何种程度上能被信任。在追求技术进步的同时,如何平衡AI的效率与人类判断的智慧、如何管理其潜在的偏见、以及如何在高度专业和高风险的金融环境中构建负责任的AI系统,将是未来我们必须持续探索和解决的核心命题。AI的未来,在于它能否真正成为人类智慧的延伸,而非简单替代,尤其是在那些关乎信任与判断的领域。