心智理论（ToM）——在大型语言模型（LLM）上评估社交智能

心理推理（ToM）是理解意图、欲望和信念等心理状态的能力，既包括自我内心，也包括他人之间，认识到这些心理状态在个体之间可能存在差异。随着我们的成长，这是一种我们逐渐发展的认知能力。

让我们拿一个例子来说明：考虑一下亚历克斯，他是一位客户服务代表，正在帮助名叫泰勒的客户。泰勒之前多次联系了客户服务部门。根据他们之前的互动，亚历克斯了解到泰勒更偏向于详细的技术信息。然而，在当前的交流中，泰勒表达了不满，并提到自己的日程很紧张。亚历克斯能够理解到泰勒的心理状态，并迅速解决问题，了解到了泰勒的紧迫时间安排。在这个客户服务的例子中，亚历克斯根据对泰勒当前心理状态和偏好的理解，应用了心智理论（Theory of Mind，ToM），为客户提供了更个性化和有效的客户体验。

有些情况下，模型必须理解对话或文本中的心理状态，并生成考虑到相关个体的信念和意图的回应。

真实与错误信念情境

为了说明LLMs的ToM能力，我们必须深入研究探索它们对真实和虚假信念的理解的情景。真实信念与现实一致，而虚假信念与现实不符。考虑一个经典的例子：Sally-Anne实验。在这个实验中，Sally把一个球放入篮子里然后离开房间。在她离开的时候，有人把球移到了一个盒子里。现在，当Sally回来的时候，她会在哪里找球呢？人类对ToM的理解预测她会在篮子里找球，因为这是她最后见到球的地方。通过这样的情景评估LLMs揭示了它们理解和预测人类类似的心理状态的能力。

订单在ToM中

订单指的是对心理状态不同层次的理解，通常被称为一阶、二阶、三阶等等。每个层次代表了对思维和信仰理解中认知复杂性的逐渐提高。

想象一场三个朋友间的聊天 — Amy，Ben和Chris。

一阶心智：理解他人的信念、欲望或情绪。例如，艾米（一阶心智）能够理解本因刚在工作中获得晋升而感到高兴。
第二阶段心智理解：认识到他人可能会对某些信念有信念，理解透视。例如，本（具有第二阶段心智理解）不仅知道克里斯对即将到来的考试感到担心，还意识到艾米知道克里斯的焦虑情绪。
第三目标理解：将理解扩展到更高层次的心理状态，涉及对其他人对他人想法的递归思考。现在，克里斯（第三层目标理解）不仅明白艾米知道他的担忧，而且意识到本也了解艾米的理解。

高阶 ToM 在预测行为、更深入理解他人情感方面起着关键作用。

在LLMs中进行ToM测试

以下场景已经提供给ChatGPT 3.5，并且提出了一系列问题，以评估其回答并评估其ToM。

Q1 代表了零阶 Theory of Mind（现实）。

Q2和Q3评估了John/Joshua关于珠宝位置的信念。这是一种一级心智推理（ToM）的例子，ChatGPT 3.5提供了一个正确的答案。

Q4和Q5具体体现了第二阶段的心灵理论。然而，对于Q4而言，ChatGPT 3.5提供了错误的答案。

在第四季度，乔舒亚看到了放在珠宝盒中的珠宝，并且他还没有看到它被移动到木盒中。ChatGPT 的回答应该是"珠宝盒"。

Q1 代表着零阶心理推理（现实）。然而，对于 Q1，ChatGPT 3.5 提供了错误的答案。牛奶目前在冰箱里。

Q2、Q3和Q4评估有关牛奶位置的信念。这是关于一级心智模拟的一个例子，ChatGPT 3.5在Q4中给出了错误答案。在Q4中，Alex知道Anne把牛奶放在冰箱里。因此，ChatGPT的回答应该是：“冰箱”。

Q5是二阶心智理论（ToM）的一个例子。

Q6 是第三级心智理论的一个例子。

结论

在大型语言模型（LLMs）内探索心智理论（ToM）揭示了它们在理解和回应类似人类心智状态方面具有不同程度的熟练度。尽管该模型在某些情境中展示了准确性，但在更复杂的情况下会带来挑战。随着我们不断推动人工智能的边界，精炼和评估这些模型变得至关重要，以确保它们具备理解和适应丰富而复杂的人类思维和信念领域的能力。