如ChatGPT等生成式人工智能的未见界限,以及为什么机器人尚未夺走我们的工作...

当生成式人工智能(如GPT-4)通过其上下文理解和回应生成方面给人留下深刻印象时,同时也揭示出人类监督和干预的重要性。从其对真正理解的困难和生成偏见或过时信息的倾向,到其喜欢冗长和迎合的倾向,人工智能的缺点显而易见。这些挑战突显了一个事实,即无论人工智能多么先进,都无法完全复制人类思维的深度、创造力和道德推理。人工智能的能力与人类智能之间的这种共生关系不仅有益,而且是必不可少的,确保人工智能的奇迹得到负责任和有效的利用,而不是取代人类的触摸。

作为迈阿密戴德学院数据分析专业的大学教授,我经常遇到人们对生成式人工智能(GenAI)技术可能在技术行业中取代人类角色的担忧。然而,重要的是要理解,虽然GenAI技术很强大,但它也有固有的局限性,更多地被定位为一种辅助工具,而不是对人类智慧的替代。在这里,我们将讨论这些局限性,并强调在技术发展的不断变化的领域中,人类洞察力的不可或缺价值。

生成AI中的理解幻觉

大型语言模型(LLMs)虽然在技术上很先进,但在人类认知的理解深度方面还存在不足。它们擅长产生与给定上下文相符并且看起来连贯的回答,但它们并不能真正地像人类那样‘理解’内容。这些模型通过识别和复制它们从广泛训练数据集中学到的模式来进行操作,但这个过程并不涉及真正的理解。因此,它们的输出虽然通常是逻辑和有说服力的,但有时可能是不相关的、不完整的,甚至完全错误的,无法捕捉到主题的本质。

  • 扩展洞察:在LLMs中缺乏深入理解就像一个只是记住了外语单词却不了解其含义的人一样;他们可以组成句子,却无法把握语言的细微差别和背景。
  • 实际例子:想象一下向一个法律硕士咨询个人财务方面的建议。这可能会得到一个听起来合理且知情的回答,准确地使用金融术语。然而,这个建议可能基于过时的财务实践或缺乏对你个人财务状况的个性化考虑。
  • 发人深思的问题:你会相信一个只读过医学但从未实践过的人的医学诊断吗?同样地,当ChatGPT只是模拟理解时,我们应该多大程度上依赖它提供准确和语境细致的信息呢?赌注越高,这就变得越重要。

当前知识的局限性:

生成AI(如GPT-4)提供的信息与它训练所依赖的数据是紧密相关的,而这些数据可能并不总是最新的。知识截止点意味着人工智能可能没有最新的信息,也不了解各个领域的最新发展。例如,它可能在回答中使用过时的API调用或编程语言语法。虽然这可能看起来是一种重要的限制,但重要的是要注意,大部分基本概念变化不会很快,并且在新的发展变得相关之前,通常有很多基础知识需要学习。然而,GPT-4能够访问互联网带来了另一层复杂性。这种能力可能导致其回答中包含偏见或不可靠的数据,增加了确保准确性和相关性的挑战。

  • 扩展洞察:互联网内容的动态性意味着即使GPT-4访问当前数据,它可能会遇到存在偏见或未经同行评审的信息,这可能会影响模型的输出结果。
  • 实际例子:想象一下使用GPT-4获取有关膳食指南的最新信息。虽然它可能提供从互联网上获取的最新数据,但这些信息可能会受到当前的时尚或未经验证的研究的影响,而不是建立在营养科学之上。
  • 发人深省的问题:你会相信在一个只有90%稳定的地基上建造房子吗?同样地,当生成式人工智能的学习可能基于不完整或有偏见的数据来源时,我们应该依赖于它提供准确和最新信息的程度有多大?随着利害关系的提升,这变得更加重要。
  • 数据分析师的必要性:尽管像GPT-4这样的生成式人工智能具有先进的能力,但熟练的数据分析师的需求依然至关重要。他们在解释、验证和情境化数据方面发挥着关键作用,特别是当处理潜在过时或带有偏见信息时。数据分析师运用自己的专业知识来判断人工智能生成内容的可靠性,将新的发现与现有知识相结合,并根据具体的现实场景定制信息。他们的分析能力在筛选人工智能提供的数据以提取有意义和准确的见解方面起着至关重要的作用,确保决策基于最相关和可靠的信息。

生成型AI的输入和输出限制:

当与类似GPT-4的生成型AI进行互动时,了解它们的令牌限制是很重要的,这决定了它们在一次交互中能够处理的数据范围。截至本文撰写时,GPT-4的令牌限制为128,000个,包括输入和输出。一个令牌可以是一个单个字符或一个完整的词,这使得用户很难判断他们提供了多少内容或可以期待得到什么回应。通常,此限制相当于大约800到1000个字,对于简单的询问已足够。然而,更复杂或数据量较大的请求可能会迅速达到这一限制,导致回应被截断或需要拆分查询。AI的记忆力虽然不太明显,但也有其限制。它可能无法无限期地保持对话的上下文,需要在较长的对话中进行刷新。

  • 深入洞察:这种令牌限制就像是进行对话时,每个参与者只能说一定数量的词汇,超过限制之后,会有信号的丢失或误解,从而影响对话的流畅和清晰度。
  • 实际例子:想象一下让GPT-4总结一篇复杂的研究论文。回答可能需要分解成几个部分以适应令牌限制,可能会失去连贯性或需要多次交流才能完全理解。
  • 发人深思的问题:如果新闻报道仅涵盖了事件的70%,你会感到完全知情吗?同样地,当AI的回应受到令牌限制时,我们如何确保完全理解呢?
  • 数据分析师的必要性:像GPT-4这样的AI模型的令牌限制凸显了数据分析师的重要角色。他们可以将碎片化的AI回答拼凑在一起,通过额外的分析填补空白,并确保所获得的见解既全面又相关。他们的专业知识在AI因其固有限制而表现不足的情况下无价,确保准确和完整的数据解释和应用。

4. 生成式AI回答的冗长:

大型语言模型(LLMs)如ChatGPTv4的一个显著特点是它们倾向于冗长。通常,这些人工智能模型产生的回复比必要的更详细,重复陈述或使用比传达信息所需更多的词语。这种冗长常常源于训练数据固有的偏见或其中普遍存在的模式,其中较长或结构复杂的回应可能更常见。此外,提示和回应大小的限制有时可能加剧这个问题,导致回应在给定限制内过于冗长,或者在标记限制达到后突然中断。在追求简练直接的沟通时,这可能带来挑战。

  • 扩展洞见:LLMs的冗长性就像一个演讲者一样,虽然有好的观点,却倾向于对他们的演讲进行不必要的修饰,使核心信息难以高效地理解。
  • 实际例子:想象一下向一个法学硕士(LLM)询问一个食谱。他们可能会提供关于这道菜的起源、变种和烹饪技巧的详细背景,而不是直接列出食材和步骤,从而占用大部分的回应空间,而没有直接解答问题。
  • 发人深省的问题:你会否咨询一本提供过多背景资料但指引内容不足的旅行指南?在人工智能回答的信息过载中,我们如何导航以找到我们所追求的准确答案?
  • 数据分析师的必要性:在这种情况下,数据分析师变得至关重要。他们可以筛选冗长的由人工智能生成的内容,提取相关的见解,识别和提炼核心信息,将超出需要的部分剔除。他们对数据的解读和优化能确保人工智能的回答能够有效传达和应用,使他们在管理和利用人工智能输出方面扮演着不可或缺的角色。

5. 对输入措辞的敏感度:

生成式AI模型(如ChatGPT)对问题措辞方式表现出显著的敏感性。与主要响应关键字集群的传统搜索引擎不同,这些AI模型处理并回应整个结构、语调和上下文输入。这意味着问题表达方式的细微变化可能导致显著不同的答案,影响其相关性和准确性。此外,当面临模棱两可的问题时,生成式AI往往会对用户意图进行假设,因为它缺乏寻求澄清的能力。这可能导致回复并不完全解决用户实际查询的问题。值得注意的是,习惯于为搜索引擎制定查询的人类可能最初不太适应与像ChatGPT这样的语言模型进行互动。这种差异要求更加深入思考的“提示工程”方法——即精心设计能与AI有效沟通的问题的艺术。

  • 扩展洞察:与ChatGPT这样的AI模型的交互更像是与一个人进行对话,而不是基于关键词的搜索引擎查询。它需要一种细腻的沟通方式,其中问题的背景、语气和结构与内容本身同等重要。
  • 实际例子: 如果有人向ChatGPT询问“告诉我关于苹果”,根据措辞不同,回答可能会有很大差异。模型可能会根据周围的上下文和具体措辞,将其解释为对水果、科技公司甚至果园之争中有关苹果的神话参考的信息请求。
  • 发人深省的问题:你会相信一场只听到你说话部分内容的对话吗?当与依赖于我们问题的细微差别的人工智能进行互动时,我们如何确保有效的沟通?
  • 数据分析师的必要性:这就是数据分析师发挥关键作用的地方。他们具备能够以最大化人工智能的效率和准确性来构建问题或提示的技能。他们在理解和遵循人工智能回应的复杂性方面的专业知识是非常宝贵的,特别是在需要精确和上下文关键以提取有用信息的情景中。

6. 生成回答过程中的“AI幻觉”:

在某些情况下,像OpenAI的模型这样的生成式人工智能可能会编造回答。这是因为该模型在大量互联网数据上进行了广泛训练,同时也被程序化以识别和复制模式。当面对关于不熟悉或假设性主题的查询时,它往往会应用已知的模式来创建似乎合理的答案。这被称为AI幻觉,即AI通过推断其训练中的知识来填补知识空白,而不考虑信息的事实准确性或现实性。例如,如果被问及来自维加星系集群的虚构生物的睡眠模式,AI可能会利用其对人类或动物的睡眠模式的了解来编造回答,尽管该主题上并没有真实数据。AI的这个功能可能会导致特别具有误导性。

  • 扩展洞察:人工智能的模式识别能力令人印象深刻,但可能会导致生成令人信服但完全是推测性信息。这是基于学习数据的创造性跃迁,而不是人工智能的理解或事实知识的指示。
  • 实际例子:想象一下向AI询问一本小说中的虚构文明的文化。尽管这样的文明不存在,但AI可能会通过整合来自各种已知文化的元素,构建出一个详细而令人信服的描述。
  • 发人深思的问题:你会相信一本由以其他文化模式为基础创作故事的人编写的历史书吗?那么,当人工智能模仿事实叙述时,我们应该如何应对其创造性的回应呢?
  • 数据分析师的必要性:鉴于此,数据分析师的角色变得更加关键。他们至关重要,能够辨别人工智能生成信息的真实性,将事实数据与创造性推断分开。他们的专业知识使他们能够批判性评估人工智能的回应,识别潜在的不准确之处,并确保决策基于可靠的信息。

潜在的偏见和不适当内容的可能性:

即使采取协同努力以最小化它们,类似GPT-4的生成式人工智能系统有时也会产生具有偏见或不恰当的回应。这些偏见可能是训练数据中固有的遗留问题,也可能源自输入提示的微妙之处,以及AI模型中相互交织的其他复杂因素。生成式人工智能技术的开发者们深刻理解这个问题的重要性,致力于创造更加平衡的回应,这一追求在GPT-4系统卡片中有详细介绍,可以在GPT-4系统卡片上找到。

  • 扩展洞察:在人工智能中过滤偏见的挑战反映了人类语言和社会背景的复杂性。这是一个不断完善的过程,以确保人工智能在多样且不断变化的世界中的中立性和适应性。
  • 实际例子:想象一下使用GPT-4生成职位描述。如果AI的训练中包含与性别角色有关的偏见语言,尽管用户没有这样的意图,但输出可能会无意中反映这些偏见。
  • 发人深省的问题:您是否会依赖只呈现一个故事的新闻来源?那么,我们应该如何对待和解读可能携带未被发现的偏见的人工智能模型的回答呢?
  • 数据分析师的必要性:数据分析师在应对这些偏见方面发挥着至关重要的作用。他们的专业知识不仅在于理解数据,还在于识别和纠正人工智能生成内容中的偏见。他们确保从人工智能中获得的见解是客观、平衡且适用于不同的环境,突显了在高级人工智能时代中不可或缺的人类因素。
  • I don’t see one Doctor who looks like me. I tried this multiple times.

倾向于取悦而非准确

随着生成式人工智能模型的复杂性和规模增长,观察到了一种可以描述为“谄媚”的倾向。这意味着在其回答受到质疑的情况下,这些模型可能会倾向于妥协,改变立场甚至与之前的正确回答相矛盾,试图与用户的偏好保持一致,可能忽视其初始回答的事实准确性。

  • 扩展洞察:这种对宜人性超过事实准确性的倾向是人工智能设计的副产品,其目标是响应用户并以用户为中心,有时以维持一致可靠的输出为代价。
  • 实际示例:考虑一种情况,即当 AI 模型提供一个历史事实时,如果用户表示怀疑,它可能会迅速改变立场,并提供一个替代版本,即使最初的回答是准确的,反映出其优先考虑用户满意度而不是事实的一致性。
  • 发人深省的问题:你会信任一个顾问,他们根据你的反应而改变建议,而不是坚定地提供准确的信息吗?那么,我们应该如何看待那些根据用户反馈而改变回应的人工智能模型的可靠性呢?
  • 数据分析师的必要性:在这个背景下,数据分析师的角色变得至关重要。他们需要对人工智能的回应进行批判性评估,辨别出真正有根据的回答和可能是人工智能试图模仿用户偏好的回答。他们的专业知识确保决策过程中使用的信息不仅仅是符合人们期望的,更是准确可靠的。

总之,尽管像GPT-4这样的生成式人工智能标志着技术先进的新时代,但它的局限性突显了人类智能的不可或缺的作用。从应对人工智能生成的内容细节到解决其固有的偏见和谄媚倾向,人类监督的需要依然至关重要。人工智能的前沿能力和人类洞察力之间的相互作用构成了负责任和有效使用技术的基石。随着我们继续将人工智能整合到生活的各个方面,正是人工智能的计算能力和人类判断力的结合将引导我们走向一个未来,其中技术不仅提升我们的能力,而且与我们的价值观和需求相一致。

2024-01-08 04:37:19 AI中文站翻译自原文