2515
需用时 05:01
除了蝙蝠侠,我们还能用什么战胜小丑?

蝙蝠侠是超级英雄,小丑是秩序破坏者。蝙蝠侠坚信正义,小丑蔑视道德。当蝙蝠侠未能及时出现,而你我这样的普通人又深陷小丑一手设计的性命游戏之中时,如何才能幸免于难?关键就在坚守小丑蔑视的——道德。但这还远远不够,在这场用性命博弈的游戏中,采取什么样的策略,只有经过精细地计算才能知道。

本文就选取了电影 蝙蝠侠前传2:黑暗骑士 中的一个经典片段,对其中复杂且变数颇多的博弈做了深入的分析。

小丑设计的“社会实验”

小丑最后的行动是在两艘载满乘客的渡轮中做一个“社会实验”。两艘渡轮中,一艘全是普通市民,另一艘则载满了高谭市的罪犯。小丑早早地就在两条船上绑满了炸弹,当所有人都上船后,他发出威胁,开始制定游戏规则:

任何人不得下船,否则只要被发现,小丑就同时炸飞两艘船

每艘船上都有另一艘船的炸弹引爆器,午夜12点之前只要炸掉另一艘船,该船的人就能生还

如果过了午夜 12 点,小丑还没有看到“灿烂的烟花”,两艘船将同时灰飞烟灭

心灵扭曲的小丑想看到“烟花”,即至少有一条船由乘客自己炸掉。为了方便分析,我们先假设小丑没有耍其他的花招(比如引爆器其实只会引爆自己这艘船),在他自己也遵守上述规则的情况下,他会认为:好市民们可能会因为自己的船上有小孩、他们从未犯过罪等等理由炸掉另一船劣迹斑斑的罪犯;而罪犯们则有可能为了保命从武装警卫那里抢来引爆器。

问题的关键在于一艘船上的乘客判断另一艘船上的人会采取什么行动,要知道他们并没有办法交流。在小丑眼中,这无疑就是一个囚徒困境:

/gkimage/b9/kv/a6/b9kva6.png

其中 1 表示引爆获的收益(这里就是存活),0 表示放弃引爆的收益(这里是死亡)。容易看出,无论对哪一方来说,选择按下引爆器才是最有策略,因为只有按下引爆器才有生还的可能。

但结果并没有那么坏

图片来源:drawn-while-drinking.deviantart.com

图片来源:drawn-while-drinking.deviantart.com

果真如此的话,那整个故事只会令人厌恶的流畅。幸运的是,在高谭市这种情况并没有发生。而有意思的是,虽然最终决策相 同,但两艘船上的人做出决策的过程却截然不同。

在载有罪犯的船上,这个决策的过程是发散的,即任意一个人或者一部分人只要从警卫那里抢得引爆器,他(们)不必征求其他罪犯的意见就会按下按钮(只要他决心这样做)。虽然船上武装警卫有着独裁地位和维持独裁的力量,但随着时间慢慢逼近 deadline,他们的权利也会逐渐下放。很明显的,这种分散的决策过程会放大个人的作用,从这个角度说,这条船上的人会更倾向于选择存活下来——也就是炸飞另一条船。

与此同时,另一条船上的决策过程则理性许多。市民们遵循多数代表全体的道理,选择通过投票的方法做出最后决定。最终的结果是 3:1 ,大多数人同意按下引爆器。奇怪的是却没有一个人愿意站出来去执行。市民们是理智的,一方面他们做出一个符合大多数人利益(或者说意愿)的决定,一方面也没有哪个人愿意成为刽子手。

到这里我们知道,两条船上的人本都该选择炸掉另一条船,但他们都没有选择这样做。究其原因,道德的约束在这里起到了很大的作用( 在这里我们将这种约束定义为“道德”,可能与传统的道德的精确定义略有出入 )。因此,在这场博弈中,如果不考虑道德这个参量,未免过于片面。

道德价值在生死博弈中的体现

道德在社会规范中的价值让参与选择的乘客并不只考虑自己的性命。按下了那个按钮,负罪感就会随之而来;另外即便按下引爆器的人活了下来,回到正常社会中时也很有可能会遭受非议。但有时,道德并不利于存活下来,当生存下来的价值大于道德的价值时,未必不会有人迫不得已炸掉隔壁那艘船。

因此, 当 生存 > 道德 时,这场博弈的收益矩阵就变成了如下的样子:

/gkimage/3v/7r/qi/3v7rqi.png

这种情况下存在纯策略纳什均衡,那就是(放弃引爆,引爆-)与(引爆,放弃引爆)。采取这两种策略(中的任意一个),对双方来说不是损失最小就是收益最多。由于两艘船上的人没有办法进行交流,所以选择引爆和放弃引爆的概率各为 1/2。需要注意的是,这个概率会因为道德价值的变化而变化,只在放弃引爆获益为 1 ,引爆获益为 2 时,两种选择的概率才都为 1/2。很容易算出,选择均衡策略的概率就是 1/2 ;而双方都放弃引爆的概率是 0.25。

然而这只是一次博弈的结果。小丑在 23:30 发出威胁,当 5 分钟后双方发现对方并没有按下引爆器时,他们之后的决策也会因此受到影响,选择引爆和选择放弃引爆的概率随之改变。

这就是所谓的重复博弈——相同结构的博弈重复多次甚至无限次。其中每次博弈被称为“阶段博弈”。而这个阶段博弈一般是一个大家熟悉的博弈(如囚犯困境)。因为其他参与人过去决策和行动的历史是可观测的,因此在重复博弈中,每个参与人可以使自己在每个阶段选择的策略依赖于其他参与人过去的行为,信任和抱负由此而生。

即便如此,我们的考虑还是有所欠缺。如果道德处于一个很高的地位,以至于当 道德 > 生存 时,场面又会截然不同:

/gkimage/nd/ku/kt/ndkukt.png

这种情况下,纯策略的纳什均衡是双方都放弃引爆,因为无论什么时候这个选择都比引爆可以收益更多。这似乎可以用来解释为什么影片中两艘船上的乘客都放弃了引爆,选择等待。

放弃引爆未必意味着死亡

图片来源:wallpapers.jurko.net

图片来源:wallpapers.jurko.net

但故事到这里却并没有结束。除了道德高尚,在道德

如果设道德的价值是 M,生存下来的价值是 S,小丑惩罚的概率为 Pc,另一艘船按下引爆器的概率是 P(dx), x 指引爆的那艘船( P(dx) 因不同的人群和其他一些复杂因素而各不相同)。用 U 表示收益,那么对每艘船来说,放弃引爆的收益就是:

/gkimage/p0/ts/37/p0ts37.png

如果要两艘船保持合作,那就要求上面两个式子的值分别大于按下引爆器的收益(S - M):

/gkimage/yb/sf/vy/ybsfvy.png

以船 A 为例,我们可以推出:

/gkimage/jw/ey/to/jweyto.png

只有当上式成立时, A 船上的乘客才会放弃引爆,选择等待。而另一方面,如果一个群体完全无视道德,只要他们有一点点活下来的意愿,就会毫不犹豫的炸毁另一艘船。所以如果道德对于另一艘船上的乘客来说根本不值钱,那么己方道德的成本就会高的难以承受。在本文的分析中,我们始终默认道德在两艘船上的不同群体中价值是相同的。但实际上一船是市民,另一船是重度罪犯,在两艘船上 M 的值有可能并不相同。如此一来,问题就会变得更加复杂。

除此之外,还有其他许多的影响博弈的因素。例如船上的炸弹存在一个技术故障的机会(也许船上有人有能力在一段时间内把它拆除)。而小丑的话也并不值得相信,你如何能确定这样一个剑走偏锋的人会遵循正常的游戏规则?也许每个船上的引爆器只是指向自己这艘船,倘若将这个因素也考虑进来,那“引爆”这个决策就还有一个隐藏成本。

回到最初的故事上来,通过上面的分析我们知道,这是一场复杂而精妙的博弈。无数隐藏的不确定因素在按与不按这两个看似清晰的抉择背后盘根错节,任意一个因素都可能改变结局。这场博弈挑战了人们的道德观,考验了人们对生命的态度。幸好还有蝙蝠侠,即便如此,面对这个故事,我们更想要的还是——永远没有小丑。

道德及社会规范是一个庞大而复杂的学科,关于这方面的研究资料更是浩如烟海。就是这样,这个学科依然有很多不清楚和存在争议的地方,再加上本文定义的“道德”可能和传统定义略有不同,所以欢迎大家来积极讨论,各抒己见。
 

本文改编自: The Quantitative Peace

参考资料: Game Theory and The Dark Knight

The End

发布于2012-01-12, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

严酷的魔王

统计学专业本科生,数学控

pic