人工智能领域的超级巨星ChatGPT在不断前进的道路上一直面临一个问题:它是否已经达到了生成与人类回应难以区分的输出的图灵测试标准?最新研究表明,尽管ChatGPT表现出色,但似乎还未完全越过这个门槛。
加利福尼亚大学圣地亚哥分校的两名研究人员,语言、语义和机器学习专家卡梅伦·琼斯和认知科学教授本杰明·伯根,通过参考图灵70年前的工作,提出了这一问题。图灵提出了一个过程,用以确定一台机器是否能够达到一种智能和对话能力的水平,足以愚弄他人以为它是人类。
他们的报告标题为“GPT-4是否通过了图灵测试?”可以在arXiv预印本服务器上找到。在研究中,他们召集了650名参与者,进行了1,400个“游戏”,其中参与者与另一个人类或GPT模型进行了短暂的对话,并被要求确定他们正在与谁交谈。
研究人员的发现引人瞩目。GPT-4模型在41%的情况下愚弄了参与者,而GPT-3.5只在5%到14%的情况下愚弄了他们。有趣的是,人类只在63%的试验中成功地让参与者相信他们不是机器。
研究人员总结道:“我们没有找到GPT-4通过图灵测试的证据。”然而,他们指出,图灵测试仍然具有评估机器对话效果的价值,作为一种框架来衡量流畅的社交互动和欺骗,以及了解人类适应这些设备的策略。
不过,他们也警告说,在许多情况下,聊天机器人仍然能够以令人信服的方式进行交流。研究人员指出:“41%的成功率表明,AI模型可能已经具备欺骗的能力,尤其是在人类对可能不是与人交谈的可能性不够警惕的情境中。AI模型如果能够坚固地模仿人类,可能会对社会和经济产生广泛的影响。”
研究人员观察到,正确识别AI与人的参与者关注了几个因素。模型的形式过于正式或过于不正式会引起怀疑。如果它们的表达过于啰嗦或过于简洁,如果它们的语法或标点使用异常好或“不令人信服地”糟糕,也会成为确定参与者与人类还是机器交往的关键因素。此外,参与者对听起来过于通用的回答也很敏感。
研究人员建议,随着AI模型变得更具流畅性并吸收更多类似人类的怪癖,追踪这些模型将变得越来越重要。他们表示:“识别导致欺骗的因素和减轻欺骗的策略将变得越来越重要。” 这项研究揭示了智能对话领域仍然面临挑战,但也提供了有关如何改进AI模型的有用见解。