跨媒体计算：让计算机“看图说话”

庄越挺吴飞

提到“人工智能”，我们也许会一下子想到机器人。实际上，人工智能的应用远比我们想象的更广泛，比如苹果手机的Siri可以实现人机对话，百度、谷歌可以帮我们进行语言翻译，等等。

那幺，“人工智能”是什幺意思呢？解释起来其实很简单。“人工”，顾名思义是指人造的、人为的，也就是我们人类动手创造或者改编出来的;“智能”就涉及到意识、自我、思维等多个概念了。总的来说，人工智能是一门关于模拟、拓展人的智能的学科，使机器能够胜任一些通常需要人类才能完成的复杂工作。举一个简单的例子，一个人要判断一张图片上的动物是猫还是狗，一下子就能做到;判断100张，可能需要好几分钟;判断10000张，就会非常伤脑筋了。而对具有人工智能的机器人来说，只要建立正确的模型，计算机就可以在一秒钟内判断几百万张图片的内容，而且不会有任何差错。

随着互联网的迅猛发展，我们能够在网上（如新浪微博、QQ空间）看到越来越多的媒体数据（文本、图像、视频等）融合在一起，“跨媒体”成为表达主题或事件的一种新形式。比如一部刚要上映的电影，在网上不仅有它的评论，还能看到它的宣传海报和预告片，包括文字、图片、视频等各种媒体数据都有。这种多种媒体数据的结合，就是我们说的“跨媒体”。正因为“跨媒体”的运用，制作团队能够更好地表达电影的主题，也能够让更多的人了解电影。

不断涌现的媒体数据也催生了“数据驱动”这一计算模式。根据这种计算模式，我们在处理信息时可以获取不同类型的数据。比如，我们常常看新闻报道，新闻报道中既有文字描述，又有与这些文字相对应的图片，而“数据驱动”就可以通过新闻报道这一资源获取文字和图片两种不同类型的数据。视频也一样，因为视频中既包括视觉图像信息，又包含语音听觉信息等数据。

实际上，英国心理学家麦格克（McGurk）等人在1976年就已经证明：人类对外界信息的认知是通过整合不同感官信息而形成的整体性理解，任何感官信息的缺乏或不准确将导致大脑对外界信息的理解产生偏差。这个现象也被称为“麦格克效应（McGurk Effect）”。就像“眼观六路，耳听八方”是人类与生俱来的能力，我们要把听到的东西和看到的东西结合在一起，才能更好地理解、判断事物。

现在，计算机的专家们正努力让计算机拥有“看图说话”的能力。比如，看到一幅“猫追蝴蝶玩”的图像，要求计算机也能像人一样，给出“猫追蝴蝶玩”这样的描述。要让人用一段话来表达一张图片或者一部电影的内容是很容易的，但如果你想让计算机干同样的事，那就有点困难了。至少我们手上的台式机或笔记本电脑是干不了的，就算给它配上摄像头之类的各种外部设备，它也干不了。在这个过程中，计算机得将一种类型数据转换为另一种类型数据，例如图像转换为文本，这就是跨媒体。可见，跨媒体对智能的要求是很高的。

其实，我们人类学会看图说话也不是那幺容易的，也需要一定的时间，所以让计算机学会“看图说话”更不可能是一蹴而就的事情。为了实现计算机自动识图，计算机专家们正在想办法让计算机学会对图像作简单的文字表达，也就是说，先让计算机掌握图像中的视觉对象（如“猫”和“蝴蝶”等视觉对象）与自然语言中的文本单词（如“猫”和“蝴蝶”等词汇）之间的对应关系。看到图片时，计算机先将“认识”的视觉对象（“猫”和“蝴蝶”）一个个“抠”出来，然后通过已经掌握的“视觉对象——文本单词”之间的关联，按图索骥，寻找哪些文本单词与这些视觉对象最匹配，最后再用一定的语法规则将单词组合起来，得到描述图片的句子（“猫追着蝴蝶玩耍”）。只有这样，计算机才算完成了“看图说话”的任务，实现了从图像数据到文本数据的“跨媒体计算”。

可以设想，如果我们有一本汉英大词典，里面包含了足够多的相互配对的“英语单词——中文单词”，那幺当给出一句英文后，我们就可以根据汉英大词典，将英文句子中每一个英文单词所对应的中文单词查找出来，然后再按照中文语法规则将这些中文单词组织起来，完成从英语句子到中文句子的翻译工作。同样，如果计算机掌握了良好的抠图技术，又存储了一本足够大、相互对照的“视觉对象——文本单词”词典，那幺计算机就可以“看图说话”了！也就是说，当计算机能把越来越复杂的图像“抠”出来，并能用越来越完整、越来越准确的语句表达时（如“蓝天下，一只黑猫和一只白猫在草地上追逐一只花蝴蝶”），它才称得上有能力“看图说话”了。

当计算机“看图说话”的能力提高到一定的水平，机器人就会看电视、看电影了，最后，就会和我们抢遥控器了。不对！机器人和我们抢遥控器，已经不是跨媒体技术范围内的事了。

不过你不用担心，这些对人来说十分简单的工作，目前对计算机而言仍然非常困难。但我们相信，经过科学家们的不懈努力和深入研究，开启计算机“心智之眼”的时代会很快来临！