绝大多数计算机视觉系统是通过神经网络识别图片中的特征,而这里的神经网络是受到人类神经系统的启发而设计出来的,而且两者在结构上是相似的。最近, Facebook 和 Virginia Tech 的研究员们声明,尽管两者有共同之处,我们还是应该谨慎假定两者以相同的原理发挥作用。
为了准确掌握人类和人工智能在分析图片时各自发生了什么,研究员们研究了两者的视觉聚焦点。研究员向两者提供模糊不清的图片,询问图片中正在发生什么,例如:“图片中的猫在哪里?”如果人类和人工智能不能回答这样的问题,研究员就有选择地增加图片的清晰度,直到两者能准确回答问题。研究团队使用几种不同的算法进行了重复测试。
显然,人类和人工智能都能提供答案。但是,有趣的是他们的做法是不同的。让人类和人工智能使用 1 到 -1 之间的数字评估模糊不清的图片,1 表示完全肯定(例如:1 表示完全肯定图片中某个模糊不清的物体是猫),-1表示完全否定。结果两个人的平均估分是 0.63,而一个人和一个人工智能系统的平均估分降到了 0.26 。
换言之,人工智能和人类看到了相同的图片,并被研究员问以相同的问题,且都正确理解了问题,但是两者使用不同的视觉特征去得出相同的结论。
这次研究结果是易于理解的,之前的研究已经暗示了这一点。在 2014 年,来自康奈尔大学和怀俄明州大学的研究团队研究表明,人类可以创造出能愚弄人工智能以为自己看到了某物的图片,只需要创造出具有能让人工智能联系到某物体的强烈视觉特征的图片就可以了。而人类具有大量的常识知识库,能分辨出相似的物体,所以不会被欺骗(比如:不会把图片中的玩具猫看成是真猫)。研究员正在努力给计算机视觉系统增条一种新的智能软件,就是能理解语义世界的软件,将语义与视觉智能地结合起来。
但是,计算机视觉不是使用和人类完全一样的视觉机制并不意味着计算机视觉更差。事实上,正是因为没有完全按照人类视觉原理进行工作,计算机视觉可能做得更好。
在计算机视觉中使用的神经网络通常用到一种叫做监督式学习 (supervised learning) 的技术,用于理解图片中发生的事情。归根结底,计算机视觉之所以能将模型、纹理、形态与某个特定物体的名字联系在一起,是因为人类给人工智能提供了海量图片,从而训练人工智能识别图片中的内容(这些内容已被人类分门别类)。
然而,Facebook 和 Google 的 DeepMind 已经使用非监督式学习 (unsupervised learning) 系统进行了试验,让人工智能在没有人的干预下从视频和图片中的内容中学习人脸和日常物体看起来像什么。最近被 Twitter 收购的 Magic Pony 也避开了监督式学习,转而让人工智能系统学习识别图片中的统计模式,也就是辨别出物体的边界、纹理和其它特征是什么样的。