克服机器视觉障碍，实现人工智能革命

2016-04-01 10:41

　 2015年12月，谷歌发布了其云视觉API，来执行这些任务，如：识别人脸、标志和文字，探测物体并了解其环境的应用。一些客户都对这些功能感到非常兴奋，在市场上其它企业也正在寻找类似的一种服务，为使其适应其业务模式。

　　机器为什么需要视觉呢？视觉是主要的感官。机器要能够理解人类，提供他们所需的支持，那么它们必须能够在视觉范畴进行观察和表现。这可能是一个小摄像头的形式，可以帮助盲人去“看”和感受环绕他们周围的世界。或者是一个家庭监控系统，该系统能够正确识别一群流浪猫之间的差异，或者移动树枝，和一个防盗的形式。

　　在过去的一年中，围绕着人工智能的嗡嗡声，一直在非常强劲的增长。我们还从来没有如此接近的观察到这个技术的好处。2016年，将会看到新式的人工智能的供电设备，因为我们对于人工智能，所面临的最困难的挑战之一，已经取得了进展：让我们的设备，能够了解它们所看到的。

　　在我们的日常生活中，由于设备逐渐成为我们不可分割的一部分，我们已经看到如果没有足够的视觉能力，越来越多的应用程序将走向失败，其中包括空中无人机碰撞和机器人吸尘器“吃”了它们本不应该吃的东西。

　　机器视觉是人工智能正在快速发展的一个分支，旨在赋予机器可媲美人类的视觉。随着研究人员应用专门的神经网络来帮助机器识别和理解现实世界的图像，机器视觉在过去几年取得了巨大的进步。如今的计算机在视觉识别上能够做到各种各样的事情，从识别网络上的猫到在诸多的照片中识别特定的面孔。不过，该类技术还有很长的路要走。今天，我们看到机器视觉能够离开数据中心，并适用于一切从自主无人机到机器人身上，可以整理我们的食物。

　　为了更好的了解机器人视觉，一个常见的类比，机器人视觉与人类自己的视觉，就好比天空中飞行的鸟类与飞机。两者最终都将依赖于基础物理学(如伯努利原理)，来帮助它们飞入到高空中，但是，这并不意味着飞机将要扇动它的翅膀进行飞翔。只是因为人与机器可能会看到同样的东西，并且对这些图像进行解释的方式，甚至可能有一定的共性，最后的结果仍然可能是具有很大的不同。

　　虽然基本的图像分类已经变得更加容易，但是，当它涉及到从抽象的场景中提取意义和信息时，机器人就面临着一系列新的问题。错觉就是一个很好的例子，机器人视觉仍然还有很长的路要走。

　　举例来说，当人看到两张面对面的脸的轮廓图像时，他们看到的不仅仅是抽象的形状。他们的大脑会进行进一步的解读，让他们能够识别图像的多个部分，看到两张脸，又或者看到一个花瓶。但对于机器来说，这样的图像是非常难以理解的。基本的分类器分辨不了两张脸和花瓶，它看到的会是诸如短柄斧、吊钩、避弹衣甚至吉他的物体。该系统并不能确定那些物体是在该图像当中，这说明这类图像的识别对于机器而言极具挑战性。

　　如果我们看到一些更复杂的东西，这个问题甚至会变得更加困难，比如BeverlyDoolittle(富康杜利特尔)的一幅画，虽然看到这个图的每个人，可能不能够发现，其实每个人的脸都在这块画布上，他们几乎立即看到，比映入他们眼帘更多的图片。另外，正如复杂的图像，现实世界也十分凌乱。在当中正常航行可不是光开发算法分析数据就能够实现的，它需要对真实场景有清楚的了解，进而能够相应作出行动。