大模型幻觉困境下,我们该如何使用它?
原创- 2024-08-12 10:53:00
- 18696
本篇目录
“像我们这样相信物理学的人都知道,过去、现在和未来之间的区别只是一种顽固执着的幻觉。换句话说,时间是一种幻觉。”
——波尔
幻觉,即一种看似真,实为假的感受。最近接触到了一个概念:大模型幻觉。有点好奇,大模型还能产生幻觉?于是查找了一些资料,开始了解。
大模型幻觉,像你身边那个爱吹牛的熟人
关于大模型幻觉,官方一点的说法是这样的:
大模型的幻觉问题,即Hallucination,指模型基于有限元素和强大的语言表达能力生成逻辑上似乎合理但实际不符合已知常识的描述。幻觉可能由错误数据、训练过程失误、推理错误等多种原因触发。
直白来说,大模型幻觉就是一本正经地胡说八道。它就好像饭桌上,那个爱吹牛的熟人,推杯换盏间,嘴里几句真话、几句假话,不得而知。
幻觉,是大模型的“通病”
2023年,一名联邦法官对纽约市的一家律师事务所处以 5000 美元罚款。原因是该所的一名律师,使用ChatGPT 起草了一起人身伤害案件的摘要,而里面捏造了六个以上的案例。
斯坦福大学和耶鲁大学的研究人员在关于三种流行的大语言模型(LLM)的研究预印本中发现,类似的错误在人工智能生成的法律输出里极为普遍。
无论是哪种大模型,都会出现不同程度的“幻觉”。其症状的轻重,与科技公司的实力相关。
一般来说,大模型幻觉分为两大类:事实性幻觉和忠实性幻觉。
事实性幻觉强调生成的内容与可验证的现实世界事实之间的差异。其通常表现为事实不一致或捏造。比如说回答历史事件的具体时间或人物关系时出现错误。
忠实幻觉是指生成内容与用户构思或输入所提供上下文的差异,以及生成内容内部的自我一致性。例如要求总结某一篇文章的主要内容,但模型生成的总结包含了原文中没有提到的观点或信息。
大模型幻觉从何而来?
OpenAI华人科学家翁荔,在她最新的Blog中提到:产生幻觉的原因包括预训练数据问题和微调新知识问题。
- 预训练数据问题:使用的这些数据通常是从公共互联网抓取来的,可能存在数据太陈旧、某些关键部分缺失或者本身就是错误的。导致模型在学习这些数据时,记错了信息。
- 微调:大模型引入新知识时,但模型学习新知识较慢,导致更容易产生幻觉。
大模型幻觉会停止吗?
不会。在《 hallucination is inevitable: an innate limitation of large language models》实验论文中,给出了一个基本结果:即无论模型架构、学习算法、提示技术或训练数据如何改变,对于任何可计算的LLM来说,幻觉是不可避免的。
亚利桑那州立大学研究人工智能的教授 Subbarao Kambhampati,对此也说道:“所有计算机生成的创造力在某种程度上都是幻觉。”
此外许多机器学习专家也不认为幻觉是可以修复的。比如微软研究院和佐治亚理工学院发表的《 Calibrated Language Models Must Hallucinate》研究表示:经过校准的语言模型必然会出现幻觉。
所以从技术层面来说,由于现实世界问题的多样复杂性,无论如何训练大模型,总会存在超出模型能力的可解决问题。
如何应对“幻觉”?
“幻觉”虽不会停止,但我们可以尽可能地减轻幻觉。
对于我们普通使用者来说,减轻幻觉的一个直接方法是:调教你的AI,并对其保持批判的态度。
- 不依赖单一来源:不要只依赖大模型作为获取信息的唯一来源,尝试结合多个渠道的信息进行综合判断。
- 保持批判性思维:对大模型的输出保持警惕,思考其合理性和逻辑性,查验它给的信息。
- 选择可靠的平台和工具:比如大厂的模型,通常实力更强,幻觉也会更少。
从技术层面来说,减少LLM幻觉的技术方法包括:
- 高等提示词:通过编写更具体的提示词,如多事例学习,以及使用新的工具来优化提示词,管束LLM的幻觉问题。
- Meta AI的Chain - of - Verification(CoVe):将事实核对分解为可管理的步骤,通过生成初始响应、组织验证问题、独立回答这些问题并生成最终经过验证的响应,来减少LLM的幻觉情况,提高响应正确性。
- 知识图谱:将知识图谱集成到RAG中,利用其结构化且相互关联的数据,增强当前RAG系统的推理能力。
- Raptor:通过建立更高层次的抽象来处理跨多个文档的问题,先从外部知识库中检索相关且经过验证的信息,然后将这些数据与原始查询一同嵌入到模型中,减少幻觉现象。
- 共形抽离:通过应用共形猜想技术来确定模型何时应该停止给出响应,从而减少大型语言模型(LLMs)中的幻觉情况。
- RAG削减结构化输入中的幻觉情况:ServiceNow通过RAG在生成文本之前从外部知识库中检索相关的JSON对象,确保生成过程基于正确且相关的数据,减少幻觉情况。
大模型幻觉,造梦的工具
读到这里,你会觉得这篇文章的内容都是正确的吗?不是的,有一点我其实在瞎说:开头的那句话并不是物理学家波尔说的,而是爱因斯坦。没有看过原句的朋友,肯定会把它当真的,然后可能用在别处。
大模型会产生幻觉,人也会,人的交流也并不是百分百的准确和真实,所以我们也不用对大模型幻觉太过紧张。不过对于需要运用数据分析等严谨的工作来说,的确不建议依赖大模型,因为这需要自己具有出色的筛选和辨别大模型给出数据真假的能力,这非常考验个人能力素养。
换个角度来看,大模型幻觉也有好处:对于一些需要“造梦”或者说“创造性”的内容来说,创意大于准确性,而幻觉正好可以提供很多灵感。
Subbarao Kambhampati 教授也说道:“今天的 LLM 从来都不是为了纯粹准确而设计的。它们被创造出来是为了创造——为了生成。”
参考资料:
[1] https://arxiv.org/abs/2311.14648
[2] https://www.yinghuohong.cn/hulianwang/52756.html
[3] https://lilianweng.github.io/posts/2024-07-07-hallucination/
[4] https://arxiv.org/pdf/2401.11817.pdf
更多阅读: