GPT-4未通过图灵测试：在智能对话领域仍有挑战

人工智能领域的超级巨星ChatGPT在不断前进的道路上一直面临一个问题：它是否已经达到了生成与人类回应难以区分的输出的图灵测试标准？最新研究表明，尽管ChatGPT表现出色，但似乎还未完全越过这个门槛。

加利福尼亚大学圣地亚哥分校的两名研究人员，语言、语义和机器学习专家卡梅伦·琼斯和认知科学教授本杰明·伯根，通过参考图灵70年前的工作，提出了这一问题。图灵提出了一个过程，用以确定一台机器是否能够达到一种智能和对话能力的水平，足以愚弄他人以为它是人类。

他们的报告标题为“GPT-4是否通过了图灵测试？”可以在arXiv预印本服务器上找到。在研究中，他们召集了650名参与者，进行了1,400个“游戏”，其中参与者与另一个人类或GPT模型进行了短暂的对话，并被要求确定他们正在与谁交谈。

研究人员的发现引人瞩目。GPT-4模型在41%的情况下愚弄了参与者，而GPT-3.5只在5%到14%的情况下愚弄了他们。有趣的是，人类只在63%的试验中成功地让参与者相信他们不是机器。

研究人员总结道：“我们没有找到GPT-4通过图灵测试的证据。”然而，他们指出，图灵测试仍然具有评估机器对话效果的价值，作为一种框架来衡量流畅的社交互动和欺骗，以及了解人类适应这些设备的策略。

不过，他们也警告说，在许多情况下，聊天机器人仍然能够以令人信服的方式进行交流。研究人员指出：“41%的成功率表明，AI模型可能已经具备欺骗的能力，尤其是在人类对可能不是与人交谈的可能性不够警惕的情境中。AI模型如果能够坚固地模仿人类，可能会对社会和经济产生广泛的影响。”

研究人员观察到，正确识别AI与人的参与者关注了几个因素。模型的形式过于正式或过于不正式会引起怀疑。如果它们的表达过于啰嗦或过于简洁，如果它们的语法或标点使用异常好或“不令人信服地”糟糕，也会成为确定参与者与人类还是机器交往的关键因素。此外，参与者对听起来过于通用的回答也很敏感。

研究人员建议，随着AI模型变得更具流畅性并吸收更多类似人类的怪癖，追踪这些模型将变得越来越重要。他们表示：“识别导致欺骗的因素和减轻欺骗的策略将变得越来越重要。” 这项研究揭示了智能对话领域仍然面临挑战，但也提供了有关如何改进AI模型的有用见解。

相关推荐