近年来,大型语言模型(LLMs)在医疗、法律等高风险领域中的应用日益广泛。然而,模型“幻觉”(Hallucination)问题——即生成看似合理但实际错误的内容——始终是阻碍其可靠落地的关键障碍。尤其在生成长文本(如医疗报告、法律分析)时,幻觉内容往往与正确信息交织在一起,传统检测方法难以实时、精准地定位错误。
以往的研究多集中于短文本问答(如事实查询)的幻觉检测,而在长文本、多段落生成场景中,现有方法(如 SAFE、FactScore)通常依赖复杂的外部验证流程,不仅成本高昂,还无法实现实时监控。针对这一问题,来自 ETH Zurich 和 MATS 的研究团队提出了一种基于 token 级别的实时幻觉检测方法,通过训练轻量级探针(probe)在模型生成过程中即时标记出虚构的实体(如人名、日期、引用等),在 70B 参数模型上实现了高效检测,且性能显著优于基于不确定性的基线方法。
本文将系统介绍该研究的核心方法、实验结果与技术贡献。
一、研究背景与问题定义
1.1 长文本生成的幻觉挑战
在大模型生成长文本时(如多轮对话、报告撰写),幻觉不再是“整个回答错误”,而是“局部段落或实体错误”。例如,一个医疗回答中可能大部分内容正确,但某个药物名称或剂量是虚构的。传统方法将整个生成内容视为一个整体进行判断,无法满足细粒度、实时检测的需求。
1.2 现有方法的不足
- 外部验证方法(如 SAFE、FactScore):需要提取原子主张、检索外部证据、逐条验证,流程复杂、延迟高、成本大。
- 不确定性估计方法(如语义熵):依赖于对多个生成样本进行聚类分析,计算量大,难以在生成过程中实时执行。
- 短文本训练的局限性:大多数现有检测器仅在短文本问答上训练,无法直接迁移到长文本场景。
二、方法概述:Token-Level 幻觉检测探针
该研究提出了一种以实体为中心的 token 级别幻觉检测框架,其核心思想是:
在模型生成每一个 token 的同时,通过一个轻量级探针判断该 token 是否属于一个“幻觉实体”。
2.1 数据标注流程
为了训练 token 级别的检测器,研究团队构建了一个高质量的标注数据集,流程如下:
- 生成多样化的长文本响应:使用扩展版 LongFact++ 数据集,涵盖法律、医学、传记、引用等多种领域,引导模型生成包含实体密集的文本。
- 实体提取与验证:使用具备网络搜索能力的 Frontier LLM(如 Claude 4 Sonnet)提取生成文本中的实体(人名、组织、日期、引用等),并通过网络搜索验证其真实性。
- 标签分配:每个实体被标记为:Supported:有证据支持Not Supported 或 Insufficient Information:视为幻觉
- Token 对齐:每个 token 继承其所属实体的标签,形成 token-level 的训练数据。
2.2 模型架构与训练目标
研究者设计了两种探针结构:
- 线性探针(Linear Probe):在模型的某一中间层(如第 0.95 * num_layers 层)接入一个线性分类头,输出每个 token 的幻觉概率。
- LoRA 探针(LoRA Probe):在模型中插入 LoRA 适配器,并在顶层接入线性头,通过微调部分参数提升检测性能。
训练损失函数:
为了应对实体内部幻觉信号不均匀的问题(如“出生于2002年”中只有“02”是错的),作者设计了结合 token-wise loss 和 span-max loss 的混合目标:
其中:
- 第一项对所有 token 进行监督;
- 第二项鼓励探针在幻觉实体中至少激活一个高概率 token;
- 权重 (w_i) 用于平衡实体 token 与背景 token 的数量差异。
正则化策略:
为避免 LoRA 训练改变原模型行为,作者引入了 KL 散度正则化:
通过调节 (\lambda_{\text{KL}}),可以在检测性能与模型行为保持之间取得平衡。
三、实验结果与分析
3.1 主实验:长文本幻觉检测
在 LongFact 和 HealthBench 等长文本测试集上,所提方法显著优于所有基线:
模型 | 方法 | AUC | R@0.1 |
Llama-3.3-70B | 语义熵 | 0.71 | 0.39 |
Llama-3.3-70B | 线性探针 | 0.87 | 0.65 |
Llama-3.3-70B | LoRA 探针 | 0.90 | 0.72 |
- LoRA 探针在所有任务中均达到最佳性能,尤其在长文本场景中 AUC 超过 0.89。
- 语义熵等不确定性方法在长文本中表现较差,说明其难以捕捉复杂生成中的幻觉模式。
3.2 跨任务泛化能力
尽管探针仅在实体级别上进行训练,但在以下任务中仍表现出色:
- 短文本问答(TriviaQA):LoRA 探针 AUC 达 0.98;
- 数学推理(MATH):在无实体任务中 AUC 仍超过 0.86,说明探针捕捉到了“正确性”的通用信号。
3.3 跨模型泛化能力
研究者在五个不同模型(Llama、Gemma、Qwen、Mistral)上训练并测试探针,发现:
- 模型间泛化能力强:在一个模型上训练的探针,在其他模型上测试仅下降 0.02–0.04 AUC;
- 训练数据可迁移:使用 Llama 数据训练 Mistral 探针,性能与使用自身数据相当。
这表明探针学习到的是模型无关的幻觉特征,而非特定模型的内部信号。
四、实际应用:选择性回答与实时干预
研究者进一步将探针应用于生成过程中的实时干预,实现“选择性回答”:
- 在生成过程中,实时监控每个 token 的幻觉概率;
- 当任一 token 的概率超过阈值时,立即中止生成,并回复“我不知道”;
- 实验显示,随着阈值降低,系统回答的问题更少,但回答的正确率显著提升。
例如,在 SimpleQA 任务中,Llama-3.3-70B 的原始正确率仅为 27.9%,通过选择性回答,正确率提升至 50.4%,尽管回答率从 76.1% 降至 19.1%。
五、局限性与未来方向
5.1 当前局限
- 标注噪声:自动化标注存在约 15.8% 的误判率,限制了检测器的性能上限;
- 实体中心主义:方法主要针对实体幻觉,对逻辑错误、关系错误等非实体幻觉检测有限;
- 实用性仍不足:在 10% 假正率下,长文本中的召回率约 70%,距离生产级应用仍有差距。
5.2 未来工作
- 提升标注质量,结合人工校验与多模型投票;
- 扩展检测范围,涵盖推理错误与上下文不一致;
- 探索更高效的干预策略,在保持信息量的同时降低幻觉风险。
六、总结与启示
本文提出了一种轻量级、可扩展的实时幻觉检测方法,通过 token-level 的线性或 LoRA 探针,在长文本生成中实现了对幻觉实体的精准识别。该方法不仅性能优于传统不确定性方法,还具备良好的跨任务、跨模型泛化能力。
技术贡献总结:
- 提出了一种基于实体标注的 token-level 幻觉检测框架;
- 设计了混合损失与正则化策略,平衡检测性能与模型行为;
- 验证了探针在长短文本、数学推理等多种任务上的有效性;
- 展示了实时干预在实际应用中的潜力。
实践意义:
该研究为高风险场景下的大模型部署提供了一条可行的幻觉监控路径。尽管目前仍存在噪声与召回率限制,但其“实时、轻量、可扩展”的特性,为下一代可信生成系统的构建奠定了重要基础。
参考文献
Obeso, O., Arditi, A., Ferrando, J., et al. (2025). Real-Time Detection of Hallucinated Entities in Long-Form Generation. ETH Zurich & MATS.
本文所有图表、附录与代码均已公开:
https://github.com/obalcells/hallucination_probes
以上就是对《Real-Time Detection of Hallucinated Entities in Long-Form Generation》的全面解读。如果您对该方法感兴趣,欢迎查阅原论文或访问开源代码库进一步探索。
