好奇心日报

好奇驱动你的世界

打开
智能
  • 纳什均衡
  • Nash John

对纳什最好的致敬,莫过于重温他的理论

在纳什均衡中,学会如何建立游戏规则。

约翰·纳什(John Nash)今天去世了,相信大家的社交工具也被刷屏了。但比起在微博或者朋友圈发“R.I.P”,认真学习下纳什的研究成果看起来更对我们的口味。

纳什在普林斯顿大学读数学博士的时候,就对非合作博弈有所研究。后面他发表了两篇论文,分别是《N 人博弈中的均衡点》和《非合作博弈》。这也是纳什最重要的学术贡献,我们今天熟知的纳什均衡也在这里产生。

而纳什均衡有两种模型:纯战略纳什均衡和混合战略纳什均衡。我们今天就在粗浅地介绍这两种模型。

纯战略纳什均衡:囚徒困境

两个小偷 A 和 B 作案被抓,警察把两人放在不同的房间审讯,给出相同的条件:如果双方坦白,那么都判刑 8 年;如果自己抵赖,对方坦白,自己判刑 10 年;如果自己坦白,对方抵赖,那么自己因有功直接释放;如果两人都抵赖,那么以私入民宅罪判刑 1 年。

有趣的结果来了。如果对方抵赖,自己最好的选择是坦白;如果对方坦白,自己最好的选择还是坦白。所以对于 A 和 B,无论对方如何选择,自己最好的选择都是坦白。

但两个人都坦白时,结果是都判刑 8 年。相比两人都抵赖判刑 1 年,当每个人都最优化自己的选择时,实际的利益却受到了损害。

而更有趣的是,即便双方都知道囚徒困境的故事,如果没有足够的信任和默契感,最终还是会选择坦白,游戏规则基本确定了最终结果。如果要打破囚徒困境,能做的事情是增加外部效应。如果我坦白而对方抵赖,那么我出狱后会受到其他小伙伴的惩罚。这时候坦白的好处就降低了,所以我会选择抵赖,对方也会做出相同选择。这时候纳什均衡发生偏移,两人选择抵赖,当每个人最优化自己选择时,也达到了整体的最优。

混合战略纳什均衡,猜硬币

在酒吧里有个女孩过来搭讪,要和你玩猜硬币的游戏:两人各自亮出硬币的一面,如果都是正面那么女孩给你 3 元,如果都是反面女孩给你 1 元,如果一正一反你给女孩 2 元。

听起来很公平,正反概率都是 1/2,所以数学期望是 0 元。(实际是错的哦)

但其实不是这样,因为 1/2 的正反概率对双方都不是最优选择,所以会调整自己的正反策略,最终达到纳什均衡。

  • 假设你出正面的概率是 x,女孩出正面的概率是 y。
  • 对你来说,数学期望是 t=3xy-2(1-x)y-2x(1-y)+(1-x)(1-y)
  • 对女孩来说,数学期望是 p=-t
  • 对 t 和 p 求导,可以知道当 x=3/8 时,你能获得最优期望;对女孩来说,y=3/8 时能获得最优期望。
  • 代入进去计算可以得到,t=-1/8。即平均来说,每局输给女孩 1/8 元。

但你即便知道也是无能为力,只要女孩采取(3/8,5/8)的策略。如果你全出正面,那么期望是 -1/8;全出反面,期望是 -1/8。而你的任何策略都是上面两组策略的线性组合,所以最终期望还是 -1/8。但你最终还是会选择(3/8,5/8)的策略,因为只要女孩不采取这个策略,你就能有所收益。最终你和女孩在策略上达到了纳什均衡,谁也没有意愿去改变策略。

所以,当有女孩想和你玩这个游戏时,你会玩么?反正我是会玩的。

其他小案例

纳什均衡还有一些经典案例,例如智猪博弈,猪圈里有一头大猪和小猪,旁边有踏板,踩踏能落下食物,但食物会落在远处的食槽。所以如果小猪踩踏板,那么大猪会抢先吃光所有食物;当大猪踩踏板,那么小猪会吃一点,而大猪能获得剩下的残羹。从纳什均衡的角度看,最终小猪会选择搭便车,大猪会选择踩踏板。而且只要游戏规则没变,双方都不会有意愿改变自己的行为。

还有枪手博弈。三人用手枪决斗,甲乙丙的枪法按优劣递减。从纳什均衡的角度来看,最好的枪手倒下概率最大,而最蹩脚的枪手存活希望最大,因为没人会把威胁最小的枪手列为头号目标。这也具有纳什均衡性,只要三方私下没有串通,规则基本决定了游戏结果。

生活充满了博弈,而纳什均衡是博弈论的基础。回顾纳什的理论,它能解释日常生活的很多事情,也给了我们很多启发。今天是纳什不幸去世的日子,一起向他致敬。


题图来自:Time

  • 纳什均衡
  • Nash John