“女人是用耳朵来恋爱的,而男人却是用眼睛,如果男人居然还会产生爱情的话。”——奥斯卡 ∙ 王尔德,十九世纪爱尔兰作家( “ Women love with their ears, just as men love with their eyes, if men ever love at all” —Oscar Wilde, “The Picture of Dorian Gray”)可惜王尔德的格言撞上了我们中国的一句老话:耳听为虚,眼见为实。是对女人们有点不太公平。其实在信息的接受与处理能力上耳朵相对于眼睛的弱势地位也反映在机器智能的研究与应用方面。
 
很多人都知道著名的图灵测试(Turing Test)。这是公认的计算机之父,英国数学家、逻辑学家与密码学家阿兰 ∙ 图灵(Alan Turing)于1950年发表的一篇文章中提出的一个用于鉴别机器是否能思维的方法:用人来测试计算机的智能。测试者是人,被测试者分别是一个人和一台计算机。他们和它都分别置于相互隔离的房间内,测试者与被测试者之间仅使用自然语言字符的方式进行交互通信,由测试者向被测试者提出若干问题,后者一一做出回答。在对被测试者分别是人和机器的不同情况下完成测试后,由测试者做出判断:被测试者是人还是机器。如果测试者不能可靠地(大于二分之一的概率就算可靠)区分被测试者是人还是机器,则判定机器通过图灵测试。时至今日近60年后,不只是仍然没有计算机能够通过图灵测试,测试的通信方式还仍然需要按照图灵当年设想的限制,以字符交互的方式进行,否则机器将会更难通过测试吧。
 
虽然图灵本人和许多研究者想以图灵测试作为一个简洁明了的判别准则用来决定机器智能存在与否,近年来人工智能研究领域逐渐倾向认为图灵测试并不是一个很好的、与人工智能很有关联的判别准则。这个判别准则是否好当然与人工智能的定义密切相关。本文不对人工智能作纯学术定义的讨论,而是想思考一下如何着手处理一个难度略微低一些的问题:智能搜索问题。所谓智能搜索:比如:“告诉我亚洲人口超过1千万的城市”。我已分别对百度和Google问过此问题,得到的回答令我有点郁闷!为何我说智能搜索比人工智能难度要略低些呢?原因是网上早已存在大量人力智能可以为搜索算法所用,那些由人输入的完全或不完全的答案可以大大减低智能搜索方法的计算难度。智能搜索应该是一个半人工智能,半人力智能的结合问题(我在前一篇介绍EMC中国实验室陈继东博士领导进行的桌面搜索工作时讨论过这一问题)。但是就是这样已经大大降低了难度的问题,现有的网络智能搜索技术仍然很基础。更本原因何在呢?
 
计算机之最爱当然就是计算了。我认为机器也是用耳朵来谈恋爱的。网上大量的信息都是人对信息先经过语言式的描述后表达(输入)给机器世界的。要知道人的语言描述表达通常只是为耳朵服务的(所以在做学术报告时千万不要只是“宣读论文”,而要尽可能用图形和公式来解释你的技术!)。机器用“耳朵”而不善用“眼睛”的特征还体现在处理图形时的情况。目前图形的编码方式决定了机器是用一个比特一个比特的方式来得到图形和描述图形的。如此编码的图形只适合于用“耳朵听”入,不能用“眼睛看”入。于是在机器内部的处理图形也就只能是对“听”入的知识进行计算,而不是感知。幼儿会涂鸦,机器不会,是因为机器里面只有“听”入的知识。机器下围棋远远下不过人,就是因为机器仅仅靠计算,而且还是用一个“听”入了许多定式的知识库来计算的,而人在下围棋时除了计算之外,还会利用十分重要的感觉(相对简单的象棋倒是可以仅仅靠计算来下的,比如有人可以把盲棋下得很好,就是象棋图形相对简单的原因)。初生婴儿能够认识妈妈也是靠感觉。说了这些,我大概想表达如下的意思:网络如果只是使用“听”到的知识来计算则恐怕永远也无法满足人对知识具有智能要求的搜索,无论网络从人们那儿“听”来的知识有多么大量。所以说一个苹果砸到牛顿头上就砸出了个万有引力定律,一吨苹果砸到电脑上也只不过是一吨苹果埋住了电脑!
 
最后用一个“反图灵测试”的成功应用来结束此文。CAPTCHA是目前在网上大量使用的,由机器对人所做的测试(所以叫做“反图灵测试”)。机器用此测试方式来判断它是否在与一个人对话。判断方法就是看对手到底是在用眼睛还是在用耳朵。下图是一个CAPTCHA测试图的例子: