超越言语:探索GPT-4和计算机视觉用于图像化学生回答自动评分

在前一篇探讨使用ChatGPT为学生自动评分的文章中,我提到问题往往是多模式的,接下来值得探索的是AI在评估绘图、图表和手写计算方面的潜力。

快进两个月,我们现在有了一个改变游戏规则的东西——GPT-4V(ision)。GPT-4V允许用户上传图片并询问图片内容的问题。然而,GPT-4V需要订阅才能使用,这可能使一些财政紧张的学生无法使用。然而,好消息是由GPT 4提供支持的微软Copilot目前(仍然)是免费的。

在这篇文章中,我将更详细地研究GPT-4V评分学生的"图示答案"的能力,结果令人激动不已!

手写计算

让我们从手写的计算开始。在这个例子中,我让GPT-4V评估我在计算月球逃逸速度方面的(手写)解决方案时得到的结果。

Both the problem and the solution were handwritten. This is more complex than the usual text-based inputs since GPT-4V has to first decipher my scribbles.

GPT-4V的表现令人瞩目:它正确地识别出了问题的主题,认可了问题的分值(3分),并准确评分了我的回答(与我自己给出的3分相符)。更妙的是,GPT-4V在没有示例、评分方案/标准或其他任何额外提示的情况下完成了上述所有任务。

它通过手写解决方案准确地转录,其中一行省略了一个“1/2”(用粗体突出显示),同一行还省略了一个“0”(虽然我不确定这是否是机器故意省略的一部分,因为在计算上这并不会有影响)。

学生的回答是:数学 \text{为了逃离月球的引力,航天器需要足够的动能,将其在月球表面的重力势能从 } -\frac{GM_{\text{moon}}m_{\text{spacecraft}}}{R_{\text{moon}}} \text{ 改变为无穷远处为0的重力势能。} \therefore KE_{\text{escape}} = \Delta GPE m_{\text{spacecraft}}v_{\text{escape}}^2 = -\left( -\frac{GM_{\text{moon}}m_{\text{spacecraft}}}{R_{\text{moon}}} \right) v_{\text{escape}} = \sqrt{\frac{2GM_{\text{moon}}}{R_{\text{moon}}}} = \sqrt{\frac{(6.674\times 10^{-11})(7.347\times 10^{22})}{(1.737\times 10^6)}} = 2.376\times 10^3 \text{ m/s} \approx 2.38 \text{ km/s}

为了确保它没有因为答案过长或者字迹漂亮而给予我满分,我询问了学生的最终数值答案,它回答得正确。

GPT-4V 还能为该问题提供一个全面的评分标准,但出于简洁起见,在此帖子中将不予展示。

图表

将GPT-4V再次测试,这次测试的对象是图表。

这是GPT-4V的评估结果:

GPT-4V 能够正确识别图中描绘的三个代表力的箭头,以及它们的方向。它给予三分的决定也与我的看法一致。

最后结论

在我之前的考试中 ,ChatGPT展示了一种有能力准确评估学生答案的可敬能力。然而,它需要示例和评分方案才能生成与我自己的评估紧密一致的评价。仅仅六个短短的月份,情况已经显著发展。随着GPT-4V的出现,不再需要示例和/或评分方案。现在,GPT-4V展示了评估多模式回答的非凡能力,几乎类似于老师的评估方式。人工智能的进步速度令人印象深刻且令人兴奋。

如果您觉得上述内容有帮助,请考虑分享这篇文章。我希望它能够鼓励更多有关人工智能在教育领域中的对话。我非常愿意听取您在下方评论中的想法!

2024-01-14 04:25:00 AI中文站翻译自原文