从AlphaGo看深度学习

邱元阳

备受关注的世纪“人机大战”终于落下帷幕，谷歌公司研发的围棋程序AlphaGo经过五番棋的激战，以4比1完胜围棋世界冠军韩国职业九段棋手李世石。

在AlphaGo赢得第一局的比赛时，就激起了人们热烈的讨论，因为很多从事人工智能研究的“技术派”也对电脑围棋程序战胜人类棋手没有足够的信心。但第一局的结果仍然让人震惊，因为在五个月前，AlphaGo的棋力水平也只是达到战胜职业二段棋手的程度，人们吃惊的是它的棋艺水平提高的速度。

与20年前深蓝在国际象棋人机大战中战胜世界冠军卡斯帕罗夫不同，AlphaGo并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜，而是具有深度学习的能力，能在实战和练习中不断学习和积累经验，这已经非常类似于人类棋手的成长过程了，不过它成长的速度非常之快。

普通大众会认为，机器人获胜是因为它内部存储有极为丰富的棋谱，以及很多一流棋手的经验，再配合它强大的逻辑判断能力，是一群人对一个人的战斗，是机器计算对人脑计算的碾轧，结果是必然的。这样的归纳未免有些草率和简单，完全无视机器学习在程序中的作用。

机器学习（Machine Learning，ML）是一种让计算机在事先没有明确的程序的情况下做出正确反应的能力，是计算机模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的一种方法，是人工智能的核心，也是使计算机具有智能的根本途径。但是它仍然主要是使用归纳、综合而不是演绎的方式来进行学习。

早在1959年，塞缪尔的下棋程序就具有了学习能力，能在不断对弈中改善自己的棋艺。这个程序已经涉及到了关于学习的令人头疼的哲学问题，此后就有各种各样的棋类程序诞生，演绎出一个又一个电脑程序战胜人类棋手的传说，不断刷新博弈难度的记录。

而围棋，因为棋盘的复杂性（大约10的172次方种状态，是计算机不可能穷尽的天文数字），则被看作是“人类智力的最后防线”，是仅存的人类能够击败电脑的完全信息博弈游戏。AlphaGo的获胜，宣告了机器学习的重大突破。

AlphaGo是一套为围棋优化的深度学习引擎，它使用了神经网络和蒙特卡罗算法，可以让机器充分学习，并能在不断自我对决中提升水平。

深度学习（Deep Learning）的概念在10年前就已提出，又叫深层神经网络（Deep Neural Networks），是机器学习研究中的一个新领域，通过建立模拟人脑进行分析学习的神经网络，模仿人脑机制来解释数据。深度学习提出了一种让计算机自动学习出模式特征的方法，有深度置信网络、卷积神经网络等不同的机器学习模型，但都需要大量的并行计算。非监督贪心逐层训练算法可以解决深层结构相关的优化难题，卷积神经网络可以利用空间相对关系减少参数数目以提高训练性能，这些特点正适合用于复杂的博弈程序。

但是，在具有不确定性的对决中，即使深度学习也发挥不了作用，无法帮助程序来确定对手的状态。

学习还不等同于思维，目前的人工智能还不可能具有思维、情感、道德等特点，明显区别于人的智能。人们对于人工智能的伦理担忧和控制担忧还为时过早。

也许若干年后，进行人机大战就是很可笑的事了，因为可能那时机器的强悍程度是人根本无法相比的。当然，这不是机器的进步，而是人的进步。