缓解 LLM幻觉技术的综合调查(32种方法)

原文:A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

翻译:gpt 4 + 混沌福王

里面每种技术大家可以自行通过 搜索引擎按需检索,原文里也有每种技术的相关论文链接。

1摘要

随着大型语言模型(LLM)在写作类似人类文本的能力上不断进步,它们倾向于“幻觉化”——即生成看似事实但未经证实的内容——成为一个关键挑战。这种幻觉问题可以说是将这些强大的LLM安全部署到影响人们生活的实际生产系统中的最大障碍。向广泛采用LLM的旅程在实际环境中重点依赖于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同,LLM在训练期间接触了大量在线文本数据。虽然这使它们能够展示出令人印象深刻的语言流畅性,但这也意味着它们能够从训练数据中的偏见、误解模糊的提示或修改信息以表面上与输入对齐中推断出信息。当我们依赖语言生成能力用于敏感应用时,例如医疗记录摘要、客户支持对话、金融分析报告和提供错误的法律建议,这就变得非常令人警觉。小错误可能导致伤害,揭示了尽管在自学方面取得进步,LLM缺乏实际理解的问题。本文提出了一个全面的调查,研究了超过三十二种开发用于减轻LLM中幻觉的技术。其中值得注意的包括检索增强生成(RAG)(Lewis等人,2021)、知识检索(Varshney等人,2023)、CoNLI(Lei等人,2023)和CoVe(Dhuliawala等人,2023)。此外,我们引入了一个详细的分类法,根据各种参数对这些方法进行分类,例如数据集利用、常见任务、反馈机制和检索器类型。这种分类有助于区分专门设计用于解决LLM中幻觉问题的多样化方法。此外,我们分析了这些技术中固有的挑战和限制,为未来研究解决幻觉和LLM领域相关现象提供了坚实的基础。

1 引言

大型语言模型(LLM)中的幻觉包括生成涵盖多种主题的事实上错误的信息。鉴于LLM的广泛领域覆盖范围,其应用跨越许多学术和专业领域。这些包括但不限于学术研究、编程、创意写作、技术咨询以及促进技能获取。因此,LLM已成为我们日常生活中不可或缺的组成部分,在提供准确可靠信息方面发挥着关键作用。然而,LLM的一个根本问题是它们倾向于提供有关现实世界主题的错误或虚构细节。这种提供错误数据的倾向,通常称为幻觉,对领域研究人员构成了重大挑战。这导致了一种情况,即先进模型如GPT-4及其同类可能生成不准确或完全没有根据的引用(Rawte等人,2023)。由于训练阶段的模式生成技术以及缺乏实时互联网更新,导致了信息输出的差异(Ray,2023)。

在当代计算语言学中,减轻幻觉是一个关键焦点。研究人员提出了各种策略,涵盖反馈机制、外部信息检索和语言模型生成的早期改进,以应对这一挑战。本文通过整合和组织这些多样化技术到一个全面的分类法中而具有重要意义。从本质上说,本文对LLM幻觉领域的贡献有三个方面:

  1. 引入一个系统化的分类法,旨在对LLM中的幻觉缓解技术进行分类,包括视觉语言模型(VLM)。
  2. 综合这些缓解技术的关键特征,从而指导未来在这一领域更有结构性的研究工作。
  3. 讨论这些技术固有的局限性和挑战,并提出可能的解决方案及未来研究方向。

2 幻觉缓解

鉴于生成性LLMs在关键任务中的核心作用,幻觉检测已成为一个重要关注点。(Qiu等人,2023b)提出了mFACT方法,用于识别摘要中的幻觉,将其应用范围扩展到英语以外的其他语言。此外,(Zhang等人,2023b)提出了一个基于上下文信息的幻觉检测框架。另一种理解幻觉成因的视角由(Mündler等人,2023)提出,他们探讨了自我矛盾作为一个贡献因素。

2.1 提示工程 提示工程是通过实验不同的指令,从人工智能文本生成模型中获得最佳输出的过程(White等人,2023)。在幻觉缓解方面,这一过程可以提供特定的上下文和预期结果(Feldman等人,2023)。提示工程缓解技术可概述如下: 2.1.1 检索增强生成 检索增强生成(Retrieval-Augmented Generation,RAG)通过利用外部权威知识库来增强LLMs的响应,而不是依赖可能过时的训练数据或模型的内部知识。这种方法解决了LLMs输出中的准确性和时效性的关键挑战(Kang等人,2023)。RAG通过生成不仅相关且当前的,而且可验证的回应有效地缓解了LLMs中的幻觉问题,从而增强了用户信心,并为开发者提供了一种经济有效的方式,以提高LLMs在不同应用中的真实性和实用性。基于此系统的缓解技术可以进一步分类为:

2.1.1.1 生成前

以下技术中,信息检索发生在人工智能文本生成前

● LLM增强器 (Peng等人,2023)提出了一个系统,它使用一套插入即用(Plug-And-Play, PnP)模块(Li等人,2023b)来增强黑盒LLM。该系统使LLM基于外部知识生成响应,并使用由效用函数生成的反馈迭代改进LLM提示。在本文中,作者介绍了LLM增强器,旨在使用PnP模块改善LLM的外部知识和自动反馈,这些模块无需任何训练即可立即使用。在用户查询后,该框架首先从外部知识中检索证据并进行推理以形成证据链。然后,LLM增强器使用包含合并证据的提示查询固定的LLM(GPT-3.5),让LLM生成基于外部知识(证据)的候选回应。LLM增强器接着验证候选者的回应,例如,检查它是否产生幻觉证据。如果是,LLM增强器会生成反馈消息。该消息用于修订提示,再次查询GPT-3.5。这个过程迭代进行,直到候选回应通过验证并发送给用户。

● 搜索引擎提示(FreshPrompt) (Vu等人,2023)讨论了大多数LLM的静态特性,强调它们无法适应不断变化的世界。作者引入了FreshQA,一种动态问答基准,评估LLM在需要当前世界知识和具有错误前提的问题上的表现。通过双模式评估,测量正确性和幻觉,揭示了局限性和改进的需求,特别是在快速变化的知识场景中。为应对这些挑战,作者提出了FreshPrompt,一种少样本提示方法,利用搜索引擎将相关且最新信息纳入提示中。FreshPrompt在竞争方法和商业系统中表现优异,进一步分析强调了检索证据的数量和顺序对正确性的影响。这项工作为LLM适应不断变化的知识能力提供了详细评估,引入了FreshQA数据集和有效的提示方法FreshPrompt,以增强动态问答能力。

2.1.1.2 生成期间

以下技术展示了句子级别的知识检索,在生成每个句子时进行信息检索。 ● 知识检索 (Varshney等人,2023)提出了一种方法,旨在主动检测和减少幻觉的产生。在继续生成句子之前,该方法首先使用模型的logit输出值来识别可能的幻觉,验证它们的准确性,然后减轻发现的任何幻觉。最重要的认识是,处理生成过程中的幻觉至关重要,因为当模型在其输出中先前经历过幻觉时,生成具有幻觉的句子的可能性会增加。这项研究调查了使用logit输出值(由GPT-3等模型产生)来识别幻觉。然而,它承认一些仅通过API调用提供的模型可能不会提供logit输出值,并强调这些信息是幻觉检测方法的补充来源,而不是必要先决条件。该方法使用检索的知识作为纠正阶段的支持,指导模型通过删除或替换幻觉信息来修复短语,以减少生成句子中的幻觉。 ● 分解和查询框架(D&Q) (Cao等人,2023)的研究解决了LLMs在问答中面临的挑战,重点关注幻觉和多跳关系问题。他们提出了D&Q框架,引导模型在利用外部知识的同时,将推理限制在可靠信息上,从而减少幻觉的风险。实验结果展示了D&Q的有效性,在ChitChatQA上与GPT-3.5的表现相当,并在HotPotQA(仅问题)上取得了显著的59.6% F1分数。该框架涉及一个无工具调用的有监督微调阶段,在预测阶段,模型使用外部工具查询可靠的问答基础,允许回溯并在需要时启动新的搜索。研究结果强调了D&Q在增强LLMs问答任务的鲁棒性和性能方面的潜力。 ● 实时验证和纠正(EVER) LLMs经常面临生成不准确或幻觉内容的挑战,尤其在推理任务中。为了应对这个普遍存在于非检索增强生成和检索增强生成方法中的问题,(Kang等人,2023)介绍了EVER框架。与现有的事后纠正幻觉方法不同,EVER采用实时、逐步策略,在生成过程中检测并纠正幻觉。三阶段过程包括生成、验证和纠正,有效地识别和纠正内在和外在的幻觉。EVER超越了检索基础和非检索基础的基线,展示了在多样化任务(如简短问答、传记生成和多跳推理)中生成值得信赖和事实准确文本的显著改进。框架的有效性得到了实证验证,展示了其在减轻幻觉“滚雪球”问题方面的能力,使其成为提高LLMs准确性和可靠性的宝贵贡献。

2.1.1.3 生成后

以下技术在生成完整的输出后应用信息检索系统:

● 使用研究和修订的回溯归因(RARR) (高等,2023)在大型语言模型(LLM)领域,虽然在各种任务上取得了显著进展,但仍存在一些问题,如生成内容时缺乏适当的支持或准确性。由于缺乏可归因性,如何确定LLM输出的可信度成为一大挑战,这促使了RARR的引入。这一与模型无关的系统在引言中提出,它自动化了任何文本生成模型的归因过程。RARR借鉴事实核查工作流,进行研究和后期编辑,使内容与检索到的证据保持一致,同时保留原始特性,且在LLM生成后无缝操作。引言中概述的贡献包括正式化编辑归因任务,引入新的度量标准,基准测试现有的修订模型,并提出一种研究和修订模型。结论强调了RARR在增强归因同时保留文本的基本属性方面的能力,为提高LLM输出的可靠性提供了实用的解决方案。

● 高熵词检测与替换 虽然检测高熵词的技术可行性似乎很明显,但由于许多当代LLM的封闭源性质,以及基于订阅的API限制了可访问性,因此出现了一个重大挑战。拉沃特等人(2023年)提出的解决方案是利用开源LLM来识别高熵词,然后使用基于较低幻觉易感性指数的LLM进行替换。结果强调了albert-large-v2(兰等,2020)在检测GPT-3生成内容中的高熵词方面的卓越性能。相比之下,distilroberta-base(桑等,2019)在替换高熵词方面表现出色,从而减少了幻觉现象。这种方法的一个重要方面是将连续的高熵词视为一个统一的单元,这些词在替换之前被集体屏蔽,特别有效地解决了与生成的戈勒姆或首字母缩写歧义相关的幻觉。

2.1.1.4 端到端的RAG

Lewis等人在2021年的论文中提出的RAG(检索式增强生成)的端到端过程,包括将预训练的序列到序列(seq2seq)变换器与通过密集通道检索器(Dense Passage Retriever,DPR)访问的维基百科的密集向量索引集成在一起。这种创新性的组合使得模型能够根据输入查询和DPR提供的潜在文档来调整其输出生成。在这个过程中,DPR作为一个神经检索器,根据输入提供相关文档。这些文档随后被seq2seq模型(具体来说是BART)使用,以生成最终输出。该模型采用了一个top-K近似方法来整合这些潜在文档,这可以基于每个输出(假设一个文档负责所有词符)或每个词符(允许不同的文档影响输出的不同部分)来完成。

关键的是,RAG设置中的生成器和检索器都是端到端训练的,确保它们共同学习并提高彼此的性能。这种方法与之前需要为特定任务从头构建非参数内存的架构的方法形成对比。相反,RAG使用了预训练的组件,已经加载了大量知识,使得模型可以访问和整合广泛的信息,而无需额外的训练。这种端到端的方法在各种知识密集型任务上表现出色,展示了在生成模型中结合参数内存和非参数内存的有效性。

2.1.2 通过反馈和推理进行自我完善 在LLM(大型语言模型)根据特定提示提供输出后,关于输出的恰当反馈可以使LLM在连续的迭代中提供更好、更准确的输出(Madaan等,2023年)。根据这种方法,以下是特定的幻觉缓解技术:

● 用提示词增加GPT-3的可靠性

根据(Si等,2022年)的论文,特别是GPT-3,LLM展示了卓越的少量样本提示能力,增强了它们在现实世界语言任务中的应用。尽管如此,改善GPT-3的可靠性问题仍然鲜有探索。这项研究将可靠性分解为四个关键方面 - 普适性、社会偏见、校准和事实性 - 并引入简单有效的提示来增强每个方面。该研究在所有可靠性指标上超越了小规模的监督模型,为提高GPT-3性能提供了实用策略。论文概述了关于LLM可靠性的先前工作,强调了这项研究全面分析的创新性和对有效提示策略的关注。从ML安全调查中汲取灵感,可靠性框架与现有概念框架中识别的风险相一致。最后,对GPT-3可靠性的系统探索进行了总结,引入了实用的提示策略,并强调了研究对于LLM洞察和GPT-3用户实际建议的贡献。

● ChatProtect (Mündler等,2023年)专注于一种重要的幻觉类型,即自我矛盾,当LLM在相同上下文中生成两个逻辑上不一致的句子时发生。他们提出了一个三步管道,用于推理自我矛盾。重要的是,这种方法建立在提示策略之上,使其适用于不需要外部确凿知识的黑盒LLM。他们对四种现代指令调整的LM进行了广泛评估,目标是开放领域文本生成,展示了该方法的显著优势:它有效地揭示了自我矛盾,准确地检测到它们,并适当地减轻了它们的发生。

● 自我反思方法

论文(Ji等,2023b)探索并解决了使用广泛采用的LLM和数据集的医学生成性QA系统中的幻觉现象。重点是识别和理解问题性答案,强调幻觉。为了应对这一挑战,论文引入了一种结合知识获取和答案生成的交互式自我反思方法。通过这种迭代反馈过程,该方法系统地改善了生成答案的事实性、一致性和蕴含性。利用LLM的交互性和多任务能力,该方法逐步产生更精确、更准确的答案。自动和人工评估的实验结果都突出了这种方法减少幻觉的有效性,与基线相比。对生成任务中的幻觉,特别是在医学领域的调查,对于AI的责任和可信度至关重要。所提出的迭代自我反思方法,采用在背景知识和答案上的生成-评分-完善策略,已被实证证明在减轻幻觉方面是有效的、通用的和可扩展的。

● 结构化比较(SC)推理

在文本偏好预测领域,LLM经常在推理中遇到不一致性,(Yan等,2023年)引入了SC推理方法。SC采用了一种提示方法,通过生成结构化的中间比较来预测文本偏好。它首先提出比较方面,然后在每个方面生成文本比较。利用成对一致性比较器,SC确保每个方面的比较明确区分文本,有效地减少了幻觉,增强了一致性。该方法在多种NLP任务中展示,包括摘要、检索和自动评分,证明SC使LLM在文本偏好预测方面具有最先进的性能。SC的结构化推理方法以及其一致性强制,通过全面评估和剖析研究得到验证,强调了其在提高多样任务的准确性和连贯性方面的有效性。人类评估进一步强调了SC的解释能力,协助用户做出明智的决策。

● 自我镜像(Mind’s Mirror) 尽管思维链(CoT)方法在将大型语言模型(LLM)缩小为小型语言模型(SLM)方面显示出前景,但存在将有缺陷的推理和幻觉携带过来的风险。为了解决这个问题,(Liu等,2023年)提出了一种包含两个关键组成部分的方法论:首先,一种新颖的方法引入了将LLM固有的自我评估能力提炼到SLM中,旨在减轻不良影响并减少幻觉。其次,一个综合的提炼过程包括多种不同的CoT和自我评估范式,以实现全面的知识转移到SLM。

这种方法论训练SLM具有自我评估能力,识别并纠正幻觉和不可靠的推理,提高各种NLP任务的预测准确性和可靠性。全面的实验表明,这种方法在推理任务中的优越性,提供了一种负责任地缩小LLM的有希望的方法。

● DRESS

(Chen等,2023年)提出使用自然语言反馈(NLF),特别是批评和完善NLF,来改善大型视觉语言模型(LVLM)与人类偏好和交互能力的一致性。他们将条件性强化学习概括为有效地纳入非可微NLF,通过训练模型生成基于NLF的相应响应。实验表明,DRESS在有用性、诚实性和无害性一致性指标上相对于先前的最先进LVLM取得了相对提升。

● MixAlign

尽管有准确的参考点,LLM可能会忽略它们,而依赖于错误的参考或偏见。当用户提出的问题与检索的参考资料不直接对齐时,缺乏对存储信息的详细了解,这种幻觉的倾向就会产生。(Zhang等,2023b)专注于这个知识一致性问题,并引入MixAlign,一个与用户和知识库互动的框架,以澄清用户问题与存储信息的关系。MixAlign使用语言模型实现自动知识一致性,如有必要,通过用户澄清进一步增强这种一致性。MixAlign专注于使用基础知识进行忠实的决策。在不确定或证据不清楚的情况下,MixAlign会生成一个问题,寻求用户的澄清 - 这个过程被称为人类协助的知识一致性。

● 链式验证(CoVe)

(Dhuliawala等,2023年)开发了CoVe方法,其中模型1. 起草初步响应。2. 计划验证问题以核实其草案。3. 独立回答这些问题,使答案无偏见。4. 生成最终验证的响应。实验表明,CoVe在诸如基于列表的Wikidata问题和长篇文本生成等任务上减少了幻觉。给定一个用户查询,LLM生成一个可能包含不准确之处的基线响应,例如事实性幻觉。CoVe首先生成要提出的验证问题,然后回答它们以检查一致性。

● 自然语言推理链(CoNLI)

(Lei等,2023年)解决了LLM在提供背景上下文时产生的幻觉挑战。尽管在自然语言生成方面流畅,LLM通常产生不受给定来源支持的无根据幻觉。所提出的分层框架专注于检测和缓解这种幻觉,无需微调或特定领域的提示。该框架利用自然语言推理链(CoNLI)进行最先进的幻觉检测,通过识别无根据的内容。然后使用后期编辑来减少幻觉并提高文本质量,而无需调整模型。在文本到文本数据集上的广泛实验表明了在幻觉检测和减少方面的有效性。通过将检测制定为一系列自然语言推理任务,该框架在句子和实体级别进行判断,并具有可解释性。

这种即插即用的框架允许在不同情境中无缝部署,并在保持文本质量的同时,具有竞争性的幻觉检测和减少性能。

2.1.3 提示调优

提示调优是一种技术,涉及在微调阶段调整提供给预训练大型语言模型(LLM)的指令,使模型在特定任务上更有效。LLM通过在微调期间的反向传播学习“软提示”,这些提示不是预先确定的,而是由模型学习的(Lester等,2021)。至今为止,已提出以下涉及提示调优的幻觉缓解技术:

● 提示检索以改善零次学习评估(UPRISE) (Cheng等,2023年)提出UPRISE,该方法调整了一个轻量级且多功能的检索器,可以自动为给定的零次任务输入检索提示。具体来说,他们在跨任务和跨模型场景中展示了普适性:检索器在多种任务上进行调整,但在未见过的任务类型上进行测试。检索器经过训练,可以检索多个任务的提示,使其能够在推理时泛化到未见过的任务类型。

● SynTra 大型语言模型(LLM)在抽象总结任务中经常表现出幻觉,即使必要的信息存在。由于在优化期间对幻觉进行复杂评估,解决这一挑战是困难的。(Jones等,2023年)引入了SynTra,一种使用合成任务有效减少下游总结任务幻觉的方法。SynTra通过在合成任务上的前缀调优优化LLM的系统消息,然后将这一能力转移到更具挑战性、更现实的总结任务上。实验表明,对于两个13B参数的LLM,幻觉减少,突出了合成数据在缓解不良行为方面的有效性。

3 开发模型 一些论文专注于开发新型模型以缓解幻觉。这是一个持续发展的过程,需要算法进步和数据质量改进的结合。与微调模型相比,以下技术实现了整个模型架构来解决幻觉问题。这些技术可以分为以下几类:

3.1 引入新的解码策略 解码策略通常涉及设计专门针对模型生成阶段的技术。在幻觉方面,这些技术旨在通过引导生成阶段朝向真实或上下文特定的生成,减少生成输出中幻觉的发生(Lango和Dusek,2023)。以下技术使用了解码策略:

● 上下文感知解码(CAD)

(Shi等,2023年)提出CAD,遵循对比输出分布,放大模型在有和没有上下文使用时输出概率之间的差异。CAD在当模型的先验知识与提供的上下文相矛盾时,特别有效,导致在解决知识冲突至关重要的任务中取得显著改进。CAD可以与现成的预训练语言模型一起使用,无需任何额外训练。更值得注意的是,CAD对于知识冲突任务特别有益,其中上下文包含与模型先验知识相矛盾的信息。结果展示了CAD在缓解文本生成中的幻觉和用可靠和可信的信息覆盖先验知识方面的潜力。

● 通过对比层解码(DoLa)

(Chuang等,2023年)介绍了DoLa,这是一种简单的解码策略,旨在缓解预训练LLM中的幻觉,无需外部知识调节或额外微调。DoLa通过对比投射到词汇空间的后期和早期层之间的逻辑差异来实现下一个词分布。这利用了特定变压器层中事实知识的观察到的局部化。因此,DoLa增强了事实知识的识别,并最小化了不正确事实的生成。在包括多项选择和开放式生成任务(如TruthfulQA)在内的各种任务中,DoLa始终提高了真实性,提高了LLaMA家族模型的性能。

● 推理时干预(ITI) (Li等,2023a)介绍了ITI,这是一种旨在增强LLM“真实性”的技术。ITI通过在推理过程中转移模型激活,沿着有限数量的注意力头的一组方向进行操作。这种干预显著提高了LLaMA模型在TruthfulQA基准上的性能。该技术首先识别一组具有高线性探测准确性的稀疏注意力头。然后,在推理期间,他们沿着这些真实相关的方向转移激活。它重复进行相同的干预,直到生成整个答案。ITI在TruthfulQA基准上显著提高了性能。

3.2 知识图谱(KG)的利用 知识图谱是组织好的数据集合,包括有关实体(如人、地点或物体)、它们的特征以及它们之间的联系的详细信息(Sun等,2023a)。它安排数据,使机器能够理解材料的关系和语义意义。知识图谱为复杂推理、数据分析和信息检索提供了基础。因此,几项研究已在幻觉缓解的背景下使用了KG(Bayat等,2023)。它们包括:

● RHO

为了处理对话响应生成中的幻觉挑战,(Ji等,2023a)提出了一个名为RHO的框架,该框架利用KG中关联实体和关系谓词的表示来生成更忠实的响应。为了提高忠实度,他们将本地和全球知识接地技术引入对话生成,并进一步利用对话推理模型对生成的响应进行重新排序。这两种知识接地帮助模型有效地编码和注入来自相关子图的知识信息,并给予适当的注意。他们的工作通过各种知识接地和推理技术改善了外部知识和对话上下文之间的融合和交互,进一步减少了幻觉。

● FLEEK

基于外部知识检索的事实性错误检测和纠正(FLEEK):(Bayat等,2023年)引入FLEEK,这是一个旨在帮助终端用户(如人类评分者)进行事实验证和纠正的智能和模型不可知工具。FLEEK具有用户友好的界面,能够自动识别输入文本中可能可验证的事实。它为每个事实提出问题,并查询策划的知识图谱和开放网络来收集证据。该工具随后使用获得的证据验证事实的正确性,并提出对原始文本的修改。验证过程本质上是可解释的,提取的事实、生成的问题和检索的证据直接反映了对验证过程的贡献。例如,FLEEK会用不同颜色突出显示可验证的事实,以指示它们的事实性水平,允许用户与可点击的高亮显示交互,揭示支持或反驳每个主张的证据。未来的工作包括对FLEEK进行全面评估,测试其与各种LLM的兼容性,并对其进行全面的基准测试。

3.3 引入基于忠实度的损失函数

创建一个度量以衡量模型输出与输入数据或真实数据的匹配程度是这一部分的任务。在这个意义上,忠实度描述了模型在不添加错误、遗漏或失真的情况下忠实和正确反映输入数据的能力(Chrysostomou和Aletras,2021)。以下方法描述了该技术的使用:

● 文本幻觉缓解(THAM)框架

(Yoon等,2022年)为视频引导对话引入THAM框架。THAM考虑了文本幻觉问题,即在没有理解问题的情况下复制输入文本以生成答案。它通过引入信息论正则化来减轻特征级幻觉效应。THAM框架结合了文本幻觉正则化(THR)损失,该损失来自于响应语言模型和提出的幻觉语言模型之间的互信息。最小化THR损失有助于减少不加区分的文本复制并提高对话性能。THAM框架结合了基于提出的信息论文本幻觉测量方法得出的文本幻觉正则化损失。

● 损失加权方法

(Qiu等,2023b)专注于低资源语言摘要,并开发了一个新的度量mFACT,以评估非英语摘要的忠实度,利用基于翻译的转移从多个英语忠实度度量中获得。它是从四个英语忠实度度量中开发出来的。他们在跨语言转移设置中研究幻觉。他们应用mFACT来研究最新多语言LLM的摘要忠实度。所提出的度量包括根据其忠实度得分对训练样本的损失进行加权。实验表明,尽管常见的跨语言转移方法有利于摘要性能,但与单语对应物相比,它们放大了幻觉。为了减少这些幻觉,他们将几种单语方法适应到跨语言转移,并提出了一种新方法,根据每个训练示例的mFACT得分对损失进行加权。

3.4 监督式微调(SFT)

SFT是使用标记数据使LLM与下游任务对齐的重要阶段。它帮助模型遵循特定任务的人类指令(Wang等,2023; Chung等,2022; Iyer等,2023; Sun等,2023b),最终提高了模型输出的忠实度。在SFT的背景下,数据的质量是最关键的问题,因为它直接决定了微调模型的性能(Xu等,2023; Touvron等,2023)。在监督式微调期间,根据用于测量LLM预测与真实标签之间差异的特定任务损失函数的梯度调整LLM的权重。这种技术在提高LLM的适应性方面特别有效,使它们能够在以前未见过的任务上表现出色。

● 知识注入和师生方法(Knowledge Injection and Teacher-Student Approaches)

(Elaraby等,2023)关注在较弱的开源大型语言模型(LLM)(如BLOOM 7B(Workshop等,2022))中测量和减少幻觉。他们引入了HALOCHECK,一个轻量级的无知识框架,用于量化LLM中幻觉的严重程度。作者探索了知识注入和师生方法等技术来减轻低参数LLM中的幻觉。该框架使用句子级蕴涵来定量评估幻觉水平。

这项工作旨在通过用领域知识进行微调来增强较小LLM的知识,而不依赖于强大模型的昂贵指令。他们研究了利用更强大的LLM(如GPT-4)来引导较弱的LLM,通过生成详细的问题答案。通过评估幻觉的严重性,他们优化了师模型的参与度,以减少过分依赖大型模型的计算成本。这减轻了频繁查询师模型的需求。

● 幻觉增强背诵(HAR)

(Köksal等,2023)引入了控制信息来源和增强事实性的LLM归因概念。尽管现有方法依赖于开放书籍问答以提高归因,但当事实数据集奖励模型回忆训练前数据而不是展示真正归因时,挑战就出现了。为了解决这个问题,作者提出了HAR,一种利用LLM幻觉创建反事实数据集并增强归因的新方法。通过对开放书籍QA的案例研究,尤其是CF-TriviaQA,结果表明,与这些反事实数据集一起微调的模型显著提高了文本基础,并且即使在较小的训练数据集和模型大小下也优于那些在事实数据集上训练的模型。在包括多跳跃、生物医学和对抗性问题在内的各种开放书籍QA任务中,观察到的改进是一致的。

● 微调语言模型以提高事实性

(Tian等,2023)通过利用最新的自然语言处理(NLP)创新,采用自动事实检查方法和基于偏好的学习来解决幻觉问题,通过直接偏好优化算法。研究人员在没有人工标记的情况下微调了Llama-2模型以提高事实性,特别是在传记和医学问题上实现了显著的错误减少。他们的方法包括基于参考和无参考的真实性评估,展示了一种在长文本生成中增强模型事实性的成本效益方法。该研究提出了新的基准任务,讨论了未来的途径,并强调了事实强化学习在安全关键领域更大模型的潜在可扩展性。

● BEINFO

为了缓解问题并提高信息寻求对话系统的忠实度,(Razumovskaia等,2023)引入了BEINFO,这是一种简单而有效的方法,应用行为调整来帮助信息寻求对话。在这项工作中,作者提出了BEINFO,这是一种简单而有效的方法,应用“行为微调”来提高信息寻求对话中生成响应的忠实度。该模型在大量带有真实知识来源的对话上进行调整,并与从大型知识库中随机抽取的事实扩展。

拒绝意识指令调优(R-Tuning): 在他们最近的工作中,(Zhang等,2023a)提出了一种名为R-Tuning的新方法,用于在大型语言模型(LLM)中培养拒绝技能。这种方法正式化了识别LLM的参数知识和用于训练它的指令调优数据之间知识差距的想法。基于这种知识差距,R-Tuning构建了拒绝意识的训练数据,教导LLM何时应该避免回应,特别是当问题超出其能力范围时。R-Tuning方法包括两个关键步骤:

测量LLM的参数知识与指令调优问题之间的知识差距,以识别不确定的问题。通过对训练数据进行一次推断并将预测与标签进行比较,调优数据被分为不确定问题和确定问题。 通过在不确定的训练示例中添加拒绝表达来构建拒绝意识的训练数据,然后在此数据上微调LLM。 思考并有效表达知识(TWEAK):为了减少幻觉,(Qiu等,2023a)提出了一种名为TWEAK的新解码方法。该方法将每个步骤生成的序列及其未来序列视为假设。它根据每个生成候选者相应的假设支持输入事实的程度来对其进行排名,使用假设验证模型(HVM)。

作者仅调整解码过程,而不重新训练生成模型。这使得他们的方法可以轻松地与任何知识到文本生成器集成。现有的解码方法,如束搜索,仅基于预测可能性来抽样候选者,而不考虑忠实度。作者提出了一个名为FATE的新数据集,该数据集在词汇层面将输入事实与原始和反事实描述对齐。

4 结论 这篇综述论文深入探讨了LLM中幻觉的关键问题,强调了LLM在我们生活的各个领域的广泛影响。论文突出了LLM生成错误信息所带来的挑战,并将其确定为GPT-4等著名LLM上工作的研究人员的一个重要关注点。论文探讨了检测幻觉的最新进展,包括mFACT、基于上下文信息的框架以及对自我矛盾作为一个贡献因素的调查。它强调了解决LLM中幻觉的重要性,因为它们在关键任务中发挥着不可或缺的作用。论文的核心贡献在于呈现了一种系统化的分类法,用于对LLM中的幻觉缓解技术进行分类,将其范围扩展到VLM。通过综合这些技术的基本特征,论文为在幻觉缓解领域内的更有结构的未来研究提供了基础。此外,论文还讨论了与这些技术相关的固有局限性和挑战,并提出了未来研究的方向。

5 讨论和局限性 在大型语言模型(LLM)中缓解幻觉代表了一个多方面的挑战,通过一系列创新技术来解决。从后生成细化到监督式微调,所讨论的方法强调了幻觉问题的严重性以及对全面解决方案的迫切需求。

在后生成细化领域中,RARR脱颖而出,自动化归因过程,并使内容与检索到的证据保持一致。高熵词汇检测和替换针对由LLM生成内容中的高熵词引发的幻觉,展示了基于上下文的替换的重要性。通过反馈和推理的自我完善带来了影响力强大的策略,如ChatProtect,专注于自我矛盾检测,以及自我反思方法,采用迭代反馈过程以减少医学生成性问答系统中的幻觉。结构化比较推理引入了一种结构化方法来预测文本偏好,增强了连贯性并减少了幻觉。

提示调优作为一种强大的技术出现,像UPRISE这样的创新展示了基于提示的调整的多功能性。SynTra引入合成任务来缓解抽象总结中的幻觉,提供了可扩展性,但也引发了与人类反馈相比效果的问题。

开发新模型强调了像CAD和DoLa这样的解码策略,这两种策略通过引导生成阶段,对减少幻觉起着关键作用。知识图谱的利用和基于忠实度的损失函数在RHO和THAM框架等方法中也发挥了关键作用。

监督式微调作为一个关键阶段,通过不同的途径进行探索,如知识注入和师生方法,将特定领域的知识注入到较弱的LLM中,而像HAR这样的方法利用反事实数据集来提高事实性。

对语言模型缓解幻觉方法的未来发展和改进在多个领域都是值得期待的。创建混合模型,通过无缝集成多种缓解方法,为对抗幻觉提供全面防御,是一个重要方向。通过减少对标记数据的依赖,探索无监督或弱监督学习技术的可能性可能会提高可扩展性和灵活性。此外,研究幻觉缓解策略的道德影响和社会效应将是至关重要的,以保证负责任的实施和促进用户信心。鉴于LLM领域的不断变化,鼓励研究专门旨在减少幻觉的设计,这可能会导致具有内置安全特性的新模型的发展。研究人员、商业专业人士和伦理学家需要不断合作,以改进方法、基准模型,并设定将用户理解和真实性放在首位的标准。建立产生连贯且与上下文相关的信息的语言模型,同时展示对幻觉输出的高度警觉和缓解,是该领域在探索这些未来可能性时的集体目标。

关于幻觉缓解的汇总作品揭示了多种策略,每种策略都独特地贡献于解决LLM中幻觉的细微差别。随着该领域的发展,这些方法的综合可能为更健壮和普遍适用的解决方案铺平道路,促进语言生成系统中的信任和可靠性。

更新时间: