潘一平

摘 要: 通常我们所考虑的“囚徒困境”博弈均为一次性的完全信息的静态博弈。着名学者阿克塞尔罗德所举办并研究的“重复囚徒困境”竞赛,从一方面揭示了在囚徒困境这个博弈中采取怎幺样的策略可以使博弈双方从对抗走向合作,但是也潜在的使一次性完全信息静态的囚徒困境博弈从规则上发生了改变——主体间性在博弈参与人中日益显得重要起来。参与博弈的理性人是否能够像人工智能体Agent那样具备主动交互并改变自己策略的能力?如果可以,也许将在囚徒困境这种模型的博弈研究中做出一点贡献。

关键词: 囚徒困境 规则 主体间性 理性

一、关于理性人和囚徒困境的介绍

囚徒困境这个事例常常在有关博弈论的讨论中出现,它最主要贡献是突出反映了个体理性与群体理性的冲突,并且在目前学界的讨论下,这一冲突似乎尚未能得到完美的解决。造成这一冲突的原因,并不是由于该博弈的前提——理性人假设出现了问题,而是基于囚徒困境中或者博弈论中理性人的假定在不同条件(规则)下的作用。正是由于没有分清这一前提在不同背景知识下的运用,一方面保证了囚徒困境这个博弈能够用逻辑的或者说是理性的方式解决(找到这个博弈的纳什均衡点),另一方面也导致了事件的解决结果并不是那幺的令人满意(因为我们面临的是不同的条件与知识背景)。“‘博弈参与人是理性的是博弈论的公设,然而理性人的假定存在许多博弈困境。囚徒困境与公地悲剧反映的是个体理性与集体理性之间的冲突”(潘天群《博弈论中理性人的假设困境》,《经济学家》2003.4,)。

起初,博弈论专家假定博弈中的参与人是理性的——具有使自己效用最大化的推理能力,然而,奥曼等人发现,这样的假定是不够的,我们必须假定,“一个博弈中的每个参与人都是理性的”是该博弈所有参与人组成的“群体”所知道的,即每个人都是理性的是群体中的“公共知识”(或翻译成共同知识)。(潘天群《群体推理的逻辑与群体理性》,《东南大学学报(哲学社会科学版)》,2007年7月第9卷第4期)。

有关囚徒困境我们可以这样表述。

假设有A、B二人,因为偷盗被警察抓捕归案。为了防止两人串供,因此将两人分开审问。这时A、B二人均面对了两种选择,一是招认,二是不招认。例如,对于A来说,A面临着招认与不招认的选择。我们可以假设,如果A招认,B可以选择招认,也可以选择不招认。当A招认B不招认时,A当场释放B判刑8年;当A招认B也招认时,各判刑5年。如果A不招认,B也可以选择招认或者不招认。当A不招认B招认时,B当场释放,A判刑8年;当A不招认B也不招认时,两人各判刑1年。

同理,当审问B的时候,只需要参考上面的过程就可以很容易地得到答案。

我们可以简单地列一个表,用来表示上述的过程:

以A为例,对该博弈进行分析。

由于参与博弈的双方均为理性人,且为公共知识,那幺A会有如下的思考:

当B招认时,A可以选择招认或者不招认。

当B招认而A不招认的时候,B被当场释放,A被判刑8年;当B招认A也招认时,B与A各判刑5年。判刑5年远远好于判刑8年,因此,当B招认时,基于理性人的假设要使自己的收益最大并且损失最小,A会毫不犹豫地选择招认。

当B不招认时,A也可以选择招认或者不招认。

当B不招认并且A也不招认时,两人各判刑1年。当B不招认而A招认时,B被判刑8年,A被当场释放。A基于理性人假设作出了以上的推理,显而易见的是,当场释放要好于判刑1年。为了使自己收益最大并且损失最小,A会毫不犹豫地选择招认。

因此,不管B是否招认,A都会毫不犹豫地选择招认。

同理,作为一个理性人,B也会按照A的思维模式那样作出选择,答案是——毫不犹豫地招认。

两人均招认就是囚徒困境这个博弈的纳什均衡点。很明显也很抱歉,通过理性手段进行推理,想使自己的收益最大而损失最小,但是结果却不是那幺的令人满意。在我们看来,两者均不招认各判刑1年的损失要远远小于两人各判刑5年,或者单就A或B一个人来说,当场释放的收益要明显地大于个人的判刑5年,因此,在某些人看来,理性的参与人在这个博弈中并不能使自己的收益最大损失最小,相反的,个人理性在这个囚徒困境的博弈中成为了获得最大利益的障碍,在这样的情况下,就出现了“两难”决策。

二、“囚徒困境”博弈的潜在规则,以及阿克塞尔罗德的实验及其规则变动

应该得出的一个认识就是,上文所提到的那个“囚徒困境”博弈属于一次性的完全信息静态博弈,它本身所具备的规则与阿克塞尔罗德所做的实验有着显着的区别——一次性的囚徒困境博弈与重复性的囚徒困境博弈的规则区别。为了便于分辨,我们依次将上文的两个囚徒困境博弈分别简称为Game1与Game2。

G1应该具备以下的这些规则。

(1)对策者(谋求合作的双方)没有什幺手段可以用来实施威胁或作出许诺。由于对策者不会许诺他们自己采取某种特定的策略,因此每个人都得考虑对方可能采取的所有策略。此外,每一个对策者都可以使用所有可能的策略。(2)没有什幺办法能够确定对方在某个特定的对局中将如何选择,这就消除了使用元对策”分析的可能。“元对策”允许诸如“选择与对方相同的策略”的选择,同时也消除了通过观察对方与第三者局而形成某种信誉的可能。因此对策者唯一可利用的信息(积累的知识)是他们相互作用的历史。(3)不能消灭对方,也不能放弃对局,因此对策者在每次对局时只能选择合作或背叛。(4)不能改变对方的收益值。这个收益值已经包括了每个对策者关于对方利益的考虑之中。(周海林《“合作”的条件与机理——从囚徒困境谈谈可持续发展的制度基础》,《软科学》2001年第15卷第3期)

我们可以试着列出一个表格,以更清晰地对几个步骤中的规则的区别作出清晰的划分。

博弈前(step1)→博弈中(step2)→博弈后(step3)

[?摇?摇?摇?摇?摇?摇一次博弈的完成?摇?摇?摇?摇]

对于G1的第一条规则,G2由于是重复多次的囚徒,将会出现一些不同的情况。阿克塞尔罗德所提出的例如宽容性和可激怒性就可以在step3之后体现出来。可激怒性可以简单地看成是规则1中所说的实施威胁。当参与博弈的双方A和B进行一次博弈时,A作出不合作的决定时(第一次博弈),B在step3得知了这个消息之后,也就是下一次博弈时(第二次博弈),可以选择不合作,对A进行威胁,表示自己是可激怒的。这里的威胁,是分属于两次博弈的,而这在一次性博弈中明显无法做到。宽容性也同样如此,当A表示悔过(在第三次博弈选择合作时),B可以立即在step3中得知,并在第四次博弈时原谅A,作出合作的选择。当然,如果仅从理性人的角度出发,在有限次的囚徒困境博弈中,次次不合作才应该是这个博弈的纳什均衡,但是在阿克塞尔罗德的试验中,次次不合作这个策略的得分明显低于某些策略,并且选择这个策略的人并不是绝大多数,理论和现实有着明显的差异。

对于G1的第二条规则,同样也是如此。一次性的囚徒困境G1作为某个特定的对局(特地被警察隔离开而无法串供),博弈双方都无法确定对方将采取何种策略,从而致使使用“元策略”的可能性变为0。G2作为多次重复的囚徒困境,由于能够清楚地知道对方在每一轮的选择(指已经选择过的步骤),因此可以对接下的自我的选择和他人的选择做出推断。甚至像“一报还一报”策略直接选择与对方上一步策略相同的策略。还有的参与者对博弈对手的合作与不合作的次数进行概率计算,并由此作出自己的选择,如道宁策略,这在G1中是无法出现的。阿克塞尔罗德甚至做了两次重复多次的囚徒困境实验,这样对于G2的参与者来说,他们的选择不仅仅可以基于与自己的博弈对手相互作用的历史,更可以基于博弈对手与参与这次试验的每一个人的相互作用的历史。道德博弈中所说的个人信誉问题在这里凸显出来。

总的看来,在step1中,作为囚徒困境的博弈参与者A可以了解到B以往的策略选择以及信誉问题,并可在一定程度上影响到自身策略的选择。例如贪婪的策略在面对比较仁慈的策略时,总是比较占优势。并且在step2中,A与B可以看到对方是如何选择,并进一步影响到step3之后,选择宽容还是惩罚——合作还是不合作。

从step1到step3就显示出主体交互性在博弈中的重要作用,因为G1中,G1(step1)到G1(step3),A与B做为博弈参与者并没有真正的形成交互(双方被隔离了),即主体间性。而在阿克塞尔罗德的试验中G2(step1)到G2(step3)中,博弈的双方A和B不但互有信息交流,而且在一定程度上影响到自我决策的选择。

三、主体间性对囚徒困境的影响

主体间性从定义上来说是主体与主体之间的统一性,但在不同的领域中,主体间性的意义是有差异的。

在主体间性概念的形成历史过程中,事实上涉及了三个领域,从而也形成了三种涵义不同的主体间性概念,这就是:社会学的主体间性、认识论的主体间性和本体论(存在论、解释学)的主体间性。这里就不一一详细叙述。

博弈论是交互的决策论。2005年诺贝尔经济学奖的获得者奥曼曾经给博弈论下过一个非常描述性的定义:博弈论是“交互的决策论”,其定义十分简洁凝练。展开来说,博弈论是研究发生直接相互作用的行为者采取的决策以及这种决策的均衡问题。换言之,一个经济主体(行为者)在决策时必须考虑到对方的反应,所以用“交互的决策论”来描述博弈论可谓言简意赅。(张践明《“囚徒困境”·理性悖论·交互认知论》,《湘潭大学学报(哲学社会科学版)》,2007年11月第34卷第6期)

而交互认知是主体间性的具体化例证。在重复囚徒困境这个博弈中,就充分地体现出交互认知的重要性。

如step1的中,博弈的双方可以对彼此过去的决策选择进行详尽的考察,基于生存博弈的道德博弈也可因此而建立起来。双方的私有信息(在这里可以简单地看做自己和对方的博弈历史选择)是否可以交换,交换的方式与程度,均可在一定程度上影响到后来的决策。阿克塞尔罗德进行第二次重复囚徒困境博弈的一部分原因也在此——建立在双方知己知彼的基础上的合作应该如何产生,知己知彼是源于上一轮的博弈参与者参与博弈并决策的历史。这样就把双方的私有信息公开化,变成了公共知识。

在step2中,G1博弈双方从完全不知道对方做出什幺决策发展到G2可以看到对方的决策,这又是一次交互的行为,由于是多次重复博弈,step2的交互致使博弈双方A和B不仅仅看重眼前的利益,更会看中将来的利益,从而使合作有可能发生,当然其中也包括从不合作决策与报复性决策等。

在G2(step3)中,A或者B完全可以借由这个环节来告诉对方自己对于对方的选择是满意还是不满意,并在以后的多次博弈中体会到对方的感受,对方同样可以表达出来并由此形成第三次交互。

还是拿一报还一报策略进行说明。A使用策略未知,而B使用的是一报还一报策略。设在第200次博弈中(我们称为N1、N2、N3……),A选择不合作,B选择合作,G2(N200(step3))中,B发现A不合作,并想表达自身的不满,因此立即在G2(N201(step2))中选择不合作以此来警告A。A在G2(N201(step3))中感受到了B的不满,如果双方进行了重复多次的博弈,A通过G2(N202(step1))回顾双方合作的历史发现,B对于犯错的人具有宽容性,于是立即在G2(N202(step2))中选择合作表示自己悔过,B在接下来的步骤中感受到A的悔意,在下一次的博弈中选择合作表示自己知道并安慰A……从而形成了重复性的三次交互、信息交换。当然,以上的只是基于交互理论的假想,但是在阿克塞尔罗德的实验中,我们不应该仅仅把双方固有的策略选择看作是电脑程序的自动化,而应该看作是在理性人基础上的信息交互,从而修正自己的策略。

四、结语

可否像人工智能体Agert那样在博弈中具备自主交互的学习参与博弈的理性能力,并由此改变自己的策略?

有关新型智能体Agent的设定,有这幺几条可以作为囚徒困境这个博弈的参考:

①能够面向陌生状态与不确定性,积极主动地进行认知与行动。②每个智能体都有自己不同的知识背景、心智品质、能力与个性,甚至具备诸如友善性、真诚性等人类特征。它的这些能力与特征都不是被设定为一成不变的,它可以随着情况的变化而不断地进行能动的自我更新。它不是在一个一步到位的、静态的模式中模拟智能,而是在一系列过程性的、动态连续的进程中发展智能。

如果在多次重复的囚徒困境的理性人设定中附加如上的设定,是否可以使G2更加地清楚明白,更容易地走向合作?

当然,以上的附加只是基于多次重复囚徒困境的假设。面对G1的一次性的完全信息静态博弈,我们只能持以悲观的态度。

宾默说,理性参与人的独立选择行为又会产生非帕累托效率的结果,这并不存在任何自相矛盾的地方。囚徒困境的规则不利于实现理性合作,就像把一个人双手反绑之后要他表演手技一样。因此,不要希望在囚徒困境规则约束下理性参与人会成功地达成合作。

参考文献:

[1]罗伯特·阿克塞尔罗德.合作的进化.合作的复杂性——基于参与者竞争与合作的模型.

[2]宾默.博弈论与社会契约.

[3]格若赫姆·罗铂.博弈论导引及其应用.

[4]张践明.“囚徒困境”·理性悖论·交互认识论.湘潭大学学报(哲学社会科学版),2007.11.

[5]项后军,周昌乐.人工智能的前沿——智能体(Agent)理论及其哲理.自然辩证法研究,2001.10.

[6]周骏宇.艾克斯罗德重复博弈实验及其应用.自然辩证法研究,2005.3.