是时候让图灵测试退休了,吗?
AI早已能完美伪装成人类,但模仿从未等于智慧。研究者呼吁废弃图灵测试,把焦点转向AI的安全性、社会价值与真正的人性问题。
如今,最强大的人工智能模型早已轻松通过图灵测试——那场由数学家Alan Turing提出的著名思想实验:一台机器若能在文字交流中让人分不清真假,它就算“像人一样聪明”。
然而,许多科学家开始质疑:我们还需要这样的测试吗?
在伦敦皇家学会10月初举办的一场活动上,来自全球的研究者一致认为,是时候让图灵测试退场了。他们主张,不该再纠结机器是否“像人”,而应转向更务实的问题——AI是否安全、是否可靠、是否真正有益于人类。
“我们得先想清楚,我们究竟想要什么样的AI。”英国萨塞克斯大学神经科学家Anil Seth说,“一味追逐所谓‘通用人工智能’,反而束缚了我们的想象——更糟的是,让我们忽视那些我们绝对不该拥有的系统。”
这场会议之所以特殊,不只是为了纪念Turing发表那篇问世75周年的论文,更是一次集体反思。会上,纽约大学神经科学家Gary Marcus直言:“也许通用人工智能根本不是当下该追求的目标。”他举例说,像Google DeepMind的AlphaFold那样的AI,只专注于预测蛋白质结构,虽然单一,却极其高效。“它不会写诗,但它能改变科学。”
剑桥大学文学学者Sarah Dillon指出,Turing的“模仿游戏”从未打算成为真正的智力测试——那原本只是一次哲学思考:机器能思考吗?可随着AI的发展,这个游戏却被误读成智能的标尺。
今年3月,有研究者用改进版的图灵测试对四个聊天机器人进行实验,结果显示:最先进的模型已能成功“骗过”人类评审。但在会议上,多位专家强调,这只是模仿,不是理解。
“只要跳出它的熟悉范围,你马上能看到它的笨拙。”Marcus说。有的AI甚至连给大象的身体部位贴标签都搞不清楚,也画不出指针不在“十点十分”的时钟。这种“聪明”,依然是脆弱的幻象。
不过,语言模型的快速进步让科学界不得不面对一个问题:如果机器终有一天能在各种认知测试中追平人类,我们要用什么标准来衡量“智能”?
一些研究者提出新的评估方式,比如“抽象推理测试集ARC-AGI-2”,旨在检测AI解决陌生问题的能力。也有人建议举办“图灵奥运会”——让AI去完成一系列任务,比如理解电影情节、或根据说明书组装家具。但也有声音认为,这样的测试仍然忽略了真正的智慧——那种依赖身体、情感与环境交织的能力。
“智能并非漂浮在空中。”Seth说,“它存在于我们的身体之中,体现在我们与世界互动的方式里。”
来自爱丁堡大学的AI伦理学家Shannon Vallor更是直言:AGI(通用人工智能)是一个过时的概念。“所谓‘智能’,在不同文化、时代、物种中都有不同含义。我们该问的不是‘机器聪明吗’,而是‘它到底能做什么?’”
她主张,将AI的能力拆解成具体功能——比如语言生成、图像识别、逻辑推理——比空谈“智能”更有意义。否则,我们容易误把机器的“能力”当作人类的“理解”或“共情”。
Vallor还警告,科技公司对“通用智能”的痴迷,掩盖了真正的风险:AI可能削弱人类技能、制造幻觉、放大偏见。她认为,AI竞赛的标准不该是“聪明程度”,而应是“安全性”——包括它是否容易被滥用、是否会在现实世界中产生意料之外的危害。
Google DeepMind的William Isaac对此表示认同。他认为,未来的“图灵测试”应当聚焦三个问题:AI是否安全?是否可靠?是否真正造福公众?而且还要问——这种“造福”的代价由谁承担?
“科学家的责任,是以事实为基础,把炒作削减到最低。”Isaac说。
或许,真正值得人类思考的,不是机器能否像我们一样思考,而是当它越来越像我们时,我们还剩下什么独特的智慧。
