1684
需用时 03:22
盘点欧洲杯:给16强排座次

欧洲杯已经落幕,西班牙夺冠让无数巴神的球迷心碎。犹记得小组赛时,两队还是打平,谁能料想决赛竟成屠杀。如果欧洲杯冠军不是根据决赛一场定成败,而是根据两支队伍在整个欧洲杯期间参加过的所有比赛的表现来定,西班牙相比于意大利队还有多少优势?

另一方面,欧洲杯没有季军争夺战,你可曾好奇过,在半决赛中被淘汰的德国和葡萄牙,谁强谁弱?捷克、希腊、法国、英格兰都是在 1/4 决赛中被淘汰,但是这 4 支球队谁应该是第五名,谁应该是第八名?日本大学计算机系的两位教授就给出了一个专业的排名方案,不过他们分析的是上届世界杯,这里我们把模型拿来用到本届欧洲杯上。

如何比较两只并未交手的球队

首先看两支进入决赛的队伍,他们都进行过 6 场比赛:

西班牙 6 场比赛:

西班牙 1-1 意大利
西班牙 4-0 爱尔兰
西班牙1-0 克罗地亚
西班牙 2-0 法国
西班牙 0-0 葡萄牙(点球4:2)
西班牙 4-0 意大利

意大利 6 场比赛:

意大利 1-1 西班牙
意大利 1-1 克罗地亚
意大利 2-0 爱尔兰
意大利 0-0 英格兰(点球4:2)
意大利 2-1 德国
意大利 0-4 西班牙

小组赛的时候西班牙和意大利在同一小组,最后西班牙小组第一,意大利是小组第二。在各自进行的 6 场比赛里,西班牙平了一场,意大利平了两场还输了一场。进球数和净胜球数方面,西班牙也占上风。据此这样简单地看,在这次欧洲杯上,西班牙的小组赛和淘汰战绩加一起还是好于意大利。

不过欧洲杯这样的淘汰赛不同于各国联赛的循环赛制,球队不是两两都会相遇。按照胜一场得 3 分,平一场得 1 分以及净胜球的方式决定排行榜的位置并不公平。

举个例子, A 组的一支队一胜两负淘汰出局,B组也有一支队伍也是一胜两负淘汰出局,对于这两个队,我们如何判断谁强谁弱?——这就要看 A 组和 B 组里其它球队在这次欧洲杯的表现了,如果 A 组的其它球队闯进四强或者决赛,这说明 A 组是死亡之组;如果 B 组其它球队表现比较差,出线后就立刻就被其它队淘汰,这说明 B 组整体实力平庸。很容易看到,在 A 组赢一场比赛的难度和在 B 组赢一场比赛的难度不一样, 可以认为 A 组被淘汰的队伍表现要好于 B 组那支。

用特征向量来评分

也就是说,我们要保证与强队交手和与弱队交手区分对待。有一种最大特征向量的方法可以做到这一点:我们让一支球队在击败强队的时候获得的加分多,击败弱队的时候获得的加分少。比如某一支球队如果大比分赢过西班牙(或者至少输的比分少),在排名中就会获得更多加分,而即使它大胜爱尔兰,在排行榜中的加分也不会很多。这样尽管欧洲杯的 16 支球队每支队伍的对手不同,我们还是可以根据各个队最后得到的总分数得到一个大排名。

首先把 16 支队编上号 1-16 号,计算出一个 16×16 的“得分”矩阵 A,矩阵里第 i 行,第 j 列的元素为:

/gkimage/y8/j8/1x/y8j81x.png

r ij 代表比赛的两队对阵时占的优势各是多少。假设 2 号队是希腊,4 号队是捷克,两队之间的比赛是捷克2:1希腊,当 i=2,j=4 的时候, S ij = 1, S ji = 2,最后算出来 r ij = 0.4,反过来, r ji 就会是0.6( r ij + r ji = 1)。在一场比赛中,一个队比分的优势越大,对应的 r 也就越大(0≤r≤1),如果是平局 r = 0.5,当然,两队加一起一定是 1。为了公平起见,点球大战出现的比赛可以把一个点球按照 0.2 或者 0.4 个球算。

对于那些没有交过手的球队,矩阵里对应的格子都设成是一个比较小的正数(比如0.15)。把所有进行过的比赛的结果的数值都填到矩阵里之后,矩阵 A 就会是这样:

/gkimage/op/ld/pg/opldpg.png

(大图点 这里

接下来,Ax = Kx,x 是一个长度为16的“特征向量”,分别代表着每支球队的“分量大小”,K为特征值,通过计算我们可以找到最大的特征值对应的特征向量。在最大特征向量里,一支球队对应的数值越大,代表着对手击败它可以捞到更多的加分,自然也意味着这个队在整个欧洲杯比赛中表现的越好。

按照本届欧洲队各队比赛结果,就能算出各队的得分:

以特征向量里数值最大的西班牙做为标准值1

以特征向量里数值最大的西班牙做为标准值1

可以看得出,西班牙总的表现就是确实好过意大利。不仅如此,德国在半决赛里虽然输给意大利,但是如果包括了小组赛和 1/4 决赛,德国总体的表现也好过意大利队,甚至葡萄牙的分数都高过意大利。这个结果多少有点令人吃惊。

这个排名并不完美

其实这种排名规则也是谷歌网页搜索结果的排序的原理, Google 排序的依据是网页之间互相链接的数量,而不是看网页被点击的数量。如果一个网页被很多本身就很热门的网页链接,它也会被放到搜索结果的前列(就像一支队如果在跟多支强队交手中表现都很好一样)。当你在搜索一个词汇的时候,网站强大的服务器会迅速计算出一个“得分”矩阵,标示着所有网页两两之间的链接强度,找出特征量,以此为依据列出网页热门程度的排名。

不过,这个球队排名并没有那么完美。在这里每一场比赛都被视为同样重要。事实上越往后的比赛越重要,这样的比赛更能反映出一支球队的水平。没有对小组赛和淘汰赛划分权重,是这个排名方法的最大不足之处。


参考资料: Mathematical analyses of 2010 FIFA world cup. Shigeru Furuichi and Hideitsu Hino

The End

发布于2012-07-03, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

Albert_JIAO

电子工程专业学生

pic