BIRD：用贝叶斯推理驯服LLM的“概率幻觉”

问题痛点: 当前LLMs在数值概率估计上不准确且过于自信，缺乏可解释和可控的决策过程，不适用于大规模关键任务。
核心创新: BIRD利用LLMs生成现实世界相关因素、进行粗粒度概率估计和判断因素关联性的能力，构建贝叶斯网络进行更精确的概率推理。
显著提升: BIRD提供的概率估计比LLM基线模型准确度高出30%，并能促进更可靠的决策。

BIRD是一个为大型语言模型（LLMs）设计的贝叶斯推理框架，旨在解决LLMs在提供准确、可信赖的概率估计方面的不足。该框架通过结合LLMs生成相关因素的能力和贝叶斯网络进行归纳与演绎，显著提高了概率估计的可靠性，并增强了AI系统在关键任务中的决策可信度。

推理流程: BIRD将概率估计问题分解为：LLMs通过“溯因”(Abduction)步骤生成全面因素并近似贝叶斯网络结构，然后通过“演绎”(Deduction)步骤估计准确概率。
参数优化: 利用LLM的粗粒度预测（PLLM）作为监督信号，通过梯度下降优化贝叶斯网络中的条件概率表（CPT）参数P(Oi|fj)，最小化估计概率与LLM预测之间的距离。
因素处理: 未观察到的因素采用等概率分配（1/N），观察到的因素则通过LLM判断其与上下文的蕴含关系来确定概率。

精细监督信号: BIRD生成的可靠概率可作为监督信号，用于微调小型模型，平均提升了1.3%的性能。
生成追问: BIRD能根据未提及但重要的因素，生成更具信息量的“是/否”追问，在用户偏好评估中，BIRD生成的追问比LLM直接生成的更受欢迎（52.8% vs 32.8%）。
可解释性: BIRD通过自然语言变量构建可解释的贝叶斯网络，提升了LLM在关键应用中的可信赖性和可控性。