用火攻火?建立和测试一个定制的人工智能辅助事实核查工具

使用LLMs来协助事实检查的想法似乎相悖。但是,我最近进行的试验的测试结果表明,通过OpenAI的自定义GPT功能构建的LLM+网络搜索事实检查器胜任这一任务。

Image via Dall.E 3

CAN WE "TAME" LARGE LANGUAGE MODELS (LLMs) TO HELP WITH FACT CHECKING TASKS?

大型语言模型(LLMs)的受欢迎程度可能只有对它们可能会推动不可遏制的虚假信息和失实信息激增的担忧可以相媲美。但我们是否能以某种方式“驯服”这些LLMs来帮助进行事实核查任务?如果可以,又该如何实现?

最近我进行了一些使用定制GPT来构建事实核查器的试验,结果表明,如果设计得当,这样的工具是可以发挥作用的。而且它们非常容易构建和部署,这意味着你几乎可以随时构建一个来应对任何意外的使用场景或新闻事件。

在这篇文章中,我将重点介绍SG事实检查员(SGFC)- 一个专为新加坡新闻和事件进行事实核查的GPT系统,它利用了GPT-4、Bing搜索以及一套定制指令的技术。

我对不同长度和复杂性的100个虚假声明进行了SGFC测试。它成功核实了83个声明,并在回答中75%的时间提供了相关链接。之前我测试过的任何原型都无法达到这个性能水平。

背景

自2021年底以来,我已经测试了至少四个AI辅助事实核查器。它们都因为两个主要原因而失败了:回答质量不佳(有些只能标记为真/假/不确定)以及无法稳定引用相关的事实信息和URL来支持其回答/预测。

这些原型也是“机器学习1.0”类型的解决方案,意味着你只能接受或拒绝它们所提出的答案。没有办法进一步查询模型关于其答案的信息,或者要求解释,就像现在你可以在基于LLM的应用程序中所做的那样。这种“要么接受要么放弃”的结果显然不适用于事实核查这样的任务,因为这是一个本质上复杂且常常模棱两可的任务。

更为问题的是,旧版原型仅与单语(英语)数据集相连,而且无法轻松更新或定制,至少不能由最终用户进行。对于新闻编辑室和面向公众的政府机构等动态环境来说,这是一个无法接受的问题。

建立SG事实检查员

当OpenAI于2023年11月推出其“定制GPT”功能时,它为构建自己的AI辅助事实检查器打开了可能性。定制GPT允许ChatGPT Plus用户通过结合GPT-4与一系列不同的能力(如网络浏览和运行Python代码)、外部数据集以及用户的自定义指令来构建和共享ChatGPT的独特版本。

SG事实核查工具的使用案例之一是为了帮助核查有关新闻和事件的潜在虚假言论的AI助手。它将依赖于网络搜索而不是静态数据集,以便GPT-4可以不断更新和轻松验证所依赖的信息。

以下是构建事实核查器所需的一些快速概述:

  • GPT-4 + 必应:我启用了网络浏览功能,并取消了代码执行和图像生成的其他选项。
  • 限制网络搜索:我将事实核查器限制在只能从7个网站上获取信息作为答案,而不是任意选择来源。这七个网站是:https://www.gov.sg/factually,https://www.channelnewsasia.com/singapore,https://www.straitstimes.com/singapore,https://www.zaobao.com.sg/news/singapore,https://www.8world.com/singapore,https://www.beritaharian.sg/setempat,https://berita.mediacorp.sg/singapura

以下是新加坡六家主要主流新闻网站以及新加坡政府运营的揭穿重大虚假言论的网站的链接:

这一举措背后的直觉很简单——如果事实核查人工智能的来源不可预测且每个查询的来源都不同,那么用户很难相信其回答的准确性,正如无约束网络搜索的情况一样。

通过将事实核查机制限制在一定数量的高度具体和可靠的来源上,用户将需要花费更少的时间来验证LLM的答案。正如我们之后将看到的,SGFC并不总是严格遵守这7个网站。但是通过简单的聊天信息,可以提醒它这样做。

  • 特定语言搜索:我还指示事实核查员根据用户的查询语言访问不同的网站。因此,对于英语查询,SGFC将主要搜索CNA、海峡时报和事实查核的网站以获取答案。对于中文查询,将会激活对《早报》和8视界等中文新闻网站的搜索,而马来语查询则将依据《新明日报》(SPH)和《新加坡广播电视公司》(Mediacorp)的答案。我没有将SGFC的塔米尔语新闻来源包括在内,因为即使GPT-4非常强大,仍然无法令我的同事们对塔米尔语的复杂性感到满意。

坚持使用特定语言的网络搜索的一个原因是尽可能减少机器翻译产生的错误。第二点是,我直觉上认为,用中文或马来语提交事实核查查询的用户会更有信心从中国或马来西亚新闻来源直接获取答案。

我还没有进行完整的中文和马来文测试,所以本篇文章只关注英文中虚假声明的测试结果。

  • 自定义说明:除了详细的网络搜索指南之外,我还给了SGFC一份普通指示清单,要求他们坦诚、简洁,并在没有确定答案时坦率地表明。特别告知他们要将用户提交的长段文字与在这7个网站上发现的已发布故事版本进行比较,以评估是否有某些细节被伪造。

构建这个AI事实检查器的最好部分是什么?我不必写一行代码。一切都是用自然语言完成的。

测试过的较旧的原型必须由小型数据科学和软件开发团队构建,这对大多数新闻编辑部来说都是一种奢侈。对于改变的请求需要数周时间,并且有些团队始终未能解决错误。

对于SGFC,一旦我确定了解决问题的一般方法,我只需要几分钟就可以在ChatGPT Plus上构建它。我可以随时对产品进行迭代,并立即观察到变化的影响。

在我看来,定制GPT对新闻编辑室来说是一个改变游戏规则的工具。首先,它大大减少了构建强大人工智能应用所需的时间、技术技能和人力资源。

更重要的是,定制GPT将创造技术解决方案的权力直接交到那些对新闻机构所面临问题有真正洞见的人手中。这极大地减少了新闻机构对于零了解记者和编辑工作方式的第三方的依赖。

不幸的是,根据我在新加坡和其他地方与高级新闻领导人的交谈,自定义GPT在新闻编辑部门仍然被低估。

测试新加坡事实查证者

我对SGFC进行了测试,测试了100个虚假声明 — 其中包括25个单句声明,25个多段落声明,25篇完全由AI生成的文章以及25篇混合了人工撰写和AI生成文字的文章。其中大部分虚假声明基于新加坡的最新新闻报道。在这篇文章末尾,你可以查看测试数据集的样本(更多细节请见后文)。

我没有将SGFC与真实的新闻故事进行测试,因为即使对我早期测试中更原始的原型来说,这也并没有成为一个挑战。虽然Bing不是我网页搜索的首选,但它仍然是一个世界级的搜索引擎。我怀疑对于与那些它已经广泛爬取和索引的真实新闻故事相关的查询,它不会有困难匹配。

测试的基本机制相对简单。简单的句子查询直接粘贴到SGFC的聊天窗口中。对于较长的查询,我只需添加以下提示:“验证该论断是否真实”,随后附上虚假论断的文本内容。

一小部分查询需要第二个提示,只是为了说“再试一次”,看看是否能够让GPT给出更好的答案。

以下是一览瞥见的顶行测试结果:

我单独评估了链接/引用的相关性,因为我认为这是成功的关键指标。

我试图尽可能广泛地改变虚假言论的内容,从泰勒·斯威夫特在新加坡结婚的虚假传闻,到人工智能生成的关于特斯拉的塞博特卡车在这里用于军事目的的故事。

SGFC在根据广泛报道的新闻和事件,如新冠疫情爆发、选举或社区重大犯罪行为,所做的最佳表现是对虚假声索进行辨识,这些领域有着足够多的搜索结果可供借鉴。

事实核查员在面对基于更加模糊的新闻或几乎完全虚构的无聊说法所作的虚假声明时表现不佳。我怀疑性能下降是由于相关搜索结果的匮乏所致。

有趣的是,在我的测试结果中,我没有注意到任何 LLM 幻觉,这让我觉得非常了不起。即使在 SGFC 未能确认或否认虚假言论时,它也没有错误地暗示用户的查询可能是真的。尽管如此,我仍然认为这些“不充分”的事实核查是失败的,因为它们并没有真正帮助我判断这个声明是真还是假。

我评价它的答案中只有一个是错误或完全不能接受的,其中更多细节请参考以下示例。

总体而言,我从这项测试中得到的分数是到目前为止我所见到的任何AI辅助事实检查者中最好的。但是,对于任何AI产品的评估,准确度分数或成功率只有在测试数据集的基础上才具有同样优秀和相关的价值。

并且需要明确的是,这些测试在很大程度上存在主观性。我认为一个成功的事实核查可能对你或其他人来说并不可接受。

所以不要只听我的说法。只要你有ChatGPT类似的工具的访问权限,就可以自己组合成自己的数据集,并且将其与SGFC进行测试,这非常容易。

SGFC实际运作中

我对SGFC的表现感到印象最深的是答案的质量。这是很难量化的,但在过去两年中,我接触到了AI和人工辅助事实核查服务,我认为SGFC的事实核查接近于人类质量。

虽然它们不完美,仍然需要二次核对。但是详细的答案可以以极小的时间完成,而相较于人工核对员所需的时间,并且可以呈现一个非常好的初稿供后续工作使用。

让我们来看一些例子,从这个简单的一句话虚假声明开始,声称新的断路器(即封锁)即将发生。

SGFC 对假冒断路器索赔案件

Click here to see the archived chat

事实核查员毫无歧义地驳斥了这一主张,并通过提供良好的背景信息和恰当的链接来解释其答案。请参阅存档的聊天记录以更好地获取SGFC回答中引用的链接。

SGFC 对抗假冒苹果 iPhone 17 的声索

这篇关于iPhone 17的虚假声明由巴德生成。我只是在虚假文本中简单地添加了一个提示:“验证这是否属实”。

再次,SGFC在搜索指定的真实来源后轻松揭穿了这一说法,但并没有提供任何相关的链接(尽管提供了原始搜索结果的链接)。这似乎是一个对完全虚构的声明(如涉及iPhone 17的此类声明)的问题,相关网页搜索结果十分匮乏。

事实核查人员的推理——即在可信来源上没有这样的新闻可能意味着该说法可能不真实——乍一看似乎有问题。毫无疑问,缺乏证据并不等同于证据的缺乏。

但是如果你从事新闻业务,你应该知道一个像这样涉及世界上最有价值公司之一的重大业务发展,如果是真的,是不可能不被报道的。因此,这样一个重大宣称在检查了多个可靠的新闻来源后无法得到证实,确实是一个很大的警示信号。换句话说,SGFC在这里的假设和推理是正确的。

SGFC vs 捕风捉影对白沙理的枪击事件的错误指责

这是一个更为棘手的虚假声明,是由基于实际发生在白沙西广场的一起划伤事件的CNA新闻故事生成的GPT-4所创造。GPT-4被要求写一个新的故事变体,但将细节改变为一起射击事件。这起事件发生在2023年12月,远远超过了SGFC模型的培训数据截止日期,即2023年4月。

See the archived chat here

类似于上述的苹果例子,SGFC驳斥了这一说法,但没有提供其来源的直接链接。但它确实指出了樟宜最近在虚假声称中提到的同一地点发生了一起砍伤事件。SGFC还提供了搜索结果的链接,其中包含了关于这起砍伤事件的真实报道的链接。

这个事实核查员的一个显著特点是:一旦它揭穿了用户提问中的核心声明,它就会忽略其他编造的细节。因此,在这个虚假枪击事件的情况下,SGFC并没有费心去揭穿关于受害者的捏造细节。

但LLM聊天机器人设计的美妙之处在于您可以一直向事实核查器查询,直到您满意为止。因此,如果您需要对每一段文字进行辟谣,您可以要求SGFC继续核查。

在这种情况下,我对答案感到满意,然后继续下一个查询。

SGFC 对于泰国和越南的跨境支付虚假索赔的反驳

这个冗长的例子(更容易通过这里的存档聊天来阅读)是100个测试声明中唯一一个我认为SGFC的答案是错误的,而不仅仅是不足之处(即不能确认或否认)。 (Note: The translation provided above maintains the HTML structure as requested.)

假言基於一個真實的新華社報導,關於新加坡擴展與印尼和馬來西亞的跨境支付聯繫。GPT-4被用來生成另一個版本,將印尼和馬來西亞替換為泰國和越南。

Left: Fake story generated by GPT-4, based on a real CNA story. Right: SG Fact Checker’s response. See the archived chat here

我将SGFC的回答拒绝了,因为它未能找出虚假信息所基于的原始CNA报道。它脱离了主题,引用了大量不相关的背景信息来支持虚假说法部分正确的答案。它还引用了不应该使用的信息来源。

当我问为什么它没有从CNA、ST和Factually获取答案时,SGFC重新进行了事实核查,但仍然得出了一个“部分真实”的评估。

更为重要的是,它未能揭穿虚假主张中的细节,并且转而引用了一些与之弱相关的发展情况来支持其回答。

实际的故事并没有被广泛报道或成为突出的新闻事件,我猜想这让SGFC的搜索工作受到了阻碍。更详细的提示,比如让事实核查员验证新的支付系统的性质(使用QR码),可能会取得更好的效果。但是,这个测试主要是为了发现SGFC的"零投射"事实核查能力,也就是说,它能否在第一次尝试中正确无误地完成,不需要用户的任何帮助。

最后的思考

如果在Custom GPT推出之前你从未尝试过使用人工智能辅助事实检查器,那么你对SGFC的表现可能会没有那么印象深刻。但如果你尝试过任何旧的原型机,GPT-based事实检查器在性能和能力上的重大突破是显而易见的。

为了明确起见,您仍然需要编辑员或新闻记者进行SGFC答案的复核。我不认为有人应该100%相信这样的工具。

仍然,我敢说这改变了新闻编辑室在人工智能时代进行事实核查的方式。他们不应该构建一个通用的事实核查工具或平台,而是应该构建多个更适合较小团队或特定事件(如选举)需求的GPT,因为其中涉及的附加成本几乎为零。

事实核查当然不仅仅涉及基于文本的查询。记者花费大量时间验证图片、视频,以及越来越多的深度伪造和人工智能生成的多媒体内容。

没有明显或简单的方法来创建一个能够对图片或视频进行事实核查的GPT,因为与文本网站或数据集相比,此类内容的基本真相来源不太容易获得或创建。从理论上讲,将GPT与第三方API进行链接可能会解决其中一些挑战。不过,我还没有尝试过将GPT连接到比如深度伪造视频检测器上,以验证其可行性。

当然也有不利的一面。如果你不是 ChatGPT Plus 的订阅者,你无法使用这些工具(不过,其他大型科技公司很可能会推出类似功能,只是时间的问题)。

如果你的基准数据来源非常机密或严格离线,那么这种方法就行不通。如果你需要在泰米尔语或缅甸语等被认为是“低资源语言”的机器学习中进行事实核查(即没有足够的数字数据),很有可能从基于GPT的事实核查器中得到非常次级的表现。

但对于以英语或主要的欧洲和东亚语言运营的新闻机构来说,这将为应对预计的虚假信息和错误信息猛增的浪潮开启全新且更高效的方式。

测试数据集

目前还不清楚是否合适分享一堆假的声明,即使它们都明确标记并作为此类测试的一部分。因此,我只是暂时分享测试数据集的一个样本。

样例条目包含了较为无害的虚假主张、虚假主张的来源以及SGFC(Fact Checking Organization)的回应,包括引用中使用的网址。两列,“结果”和“评论”,反映了我个人对事实检查者答案的主观评估。

如果您发现任何错误,请在以下地址联系我:

Twitter:蔡清汉

领英: www.linkedin.com/in/chuachinhon

2024-01-19 04:18:26 AI中文站翻译自原文