《合作的进化》札记

发表于 2022-04-03 更新于 2022-10-31 分类于社会学，笔记

囚徒困境与以直报怨

囚徒困境

	合作	背叛
合作	R=3 R=3	S=0 T=5
背叛	T=5 S=0	P=1 P=1

R：双方合作的奖励 S：给笨蛋的报酬
T：给背叛的诱惑 P：给双方背叛的惩罚

在囚徒困境中，双方只有合作、背叛两个选项。如果都选合作，则双方的收益为3，如果一方背叛、一方合作，则背叛的一方收益为5，合作的一方收益为0，如果双方都选择背叛，则双方的收益为1。

如果你认为对方将合作，那么你选择背叛的收益更高。如果你认为对方将背叛，那么还是选择背叛的收益更高。无论对方如何行动，选择背叛总是有利的。但如果每个人都这么想，大家互相背叛，那么收益一直是1。看起来总是有利的行为却得不到最好的结果。本书的作者就想突破囚徒困境，研究双方都选择合作是如何可能的。

合作的可能

重复博弈（即重复囚徒困境）为合作的出现提供的可能。如果决策的双方从此不再相遇，那么选择背叛是有利的。但如果双方以后会相遇多次，那么就得好好考虑如何决策了。你得考虑未来，毕竟有比收益都是1更高的选择。

作者通过计算机程序模拟人的决策来探究在囚徒困境下如何决策最有利。不同的程序之间相互比赛。计算总分。结果是“一报还一报”得分最高。

一报还一报的逻辑是：不首先背叛，但当对方背叛时，它将在下一次背叛。当背叛者选择合作时，它在下一次也会选择合作。即重复对方的上一次选择。

其他规则如“DOWNING”：如果对方不对它的行为做出反应，它将尝试背叛，如果对方反应的话，它就合作。这是一个见风使舵的规则。如何决策取决于对方是什么样的规则。它会先尝试背叛，如果对方无反应，则继续背叛，如果对方也选择背叛，它在下一次就会选择合作。如果对方是背叛型的，那么它将会选择背叛。如果它头两步选择合作，它将超过“一报还一报”的分数。但在实验中，它头两步设定为背叛，结果它是第十名。

这就引出了第一条结论：要善良。即不首先背叛。得分前8名都是不首先背叛的规则。

作者还进行了第二轮实验。作者告诉所有参赛者第一轮的结果及分析，期望他们能做出超越“一报还一报”的规则。结果是，“一报还一报”还是第一名。并且，“在前15名的规则中，只有一个不是善良的（它位于第八）。在最后以15名规则中只有一个是善良的。一个规则是否善良和它的竞赛得分的相关性是0.58。”

一报还一报

“一报还一报的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。”

值得一提的是，“一报还一报”从来没有在一次游戏中比对方得到更多的分。对于恶的规则，它总是让它先背叛，且它的背叛次数不会多于对方。对于善的规则，它们总分是一样的。这说明它的稳定性最好。无论与什么规则合作，其总体效果是最优的。它的胜利，不是靠比对方做得更好、剥削对方，而是靠引导出对方的合作。之前囚徒困境里的一直背叛是局部最优，而不是总体最优。

这就是说，生活中许多情况不是下棋那样的零和博弈。人们是可以合作、共赢的。不一定非要做得比别人好。卖货的公司不要嫉妒供应商的利润。国会的议员不要嫉妒其他地区的议员。

另一个有趣的事实是：在第二轮竞赛中“两报还一报”名列24。“两报还一报”是“一报还一报”的更宽容版本：对方背叛两次，它才背叛一次。这说明，宽容过多是很容易被占便宜的。“无条件的合作不仅伤害自己，而且伤害了这个成功的剥削者接着要遇到的无辜的旁观者。”这佐证了孔子的观点：“以直报怨”。除非是想用“以德报怨”感化人并且成功，不然，日常生活中应少做以德报怨的行为，这只会使坏人气焰更加嚣张。

综论

本书提出的“合作”是需要仔细考察的。我以为这书讲团队合作才买的，结果发现不是。作者所认为的合作也不是竞争合作。而是处于不同层面的人的合作，这样双方没有竞争，所以是非零和博弈。比如不同地区的议员、供应商与卖方。如果是同一地方的议员，他们之间就是零和博弈，不存在合作。作者只取了囚徒困境的合作思想，并没有仔细考察合作双方的处境是否像囚徒一样。这是需要注意的。作者的合作更多的是分工合作、买方卖方的合作。

其二，重复囚徒困境意味着双方的交往增多。这会变成一个熟人社会。熟人之间因为要考虑到抬头不见低头见，所以背叛的行为很少。这也是合作在小城镇比在更容易出现的一个原因。作者也说增大未来影响（增大未来预期收益）的方法是使接触更加频繁。“合作的基础不是信任，而是关系的持续性。”

其三，如上所述，合作的前提是重复囚徒困境。如果是那种只骗一次的短期博弈，合作是难以产生的。非善良者在开头挺有希望，这是作者说过的，也不能避免的。非善良者大可以打一枪换一个地方，从而一直获利。在这种情况下，合作只能在一个小群体里产生。

其四，每一个决策的重要性是不一样的。（即背叛的诱惑不一样）而作者假定每一个选择的结果都是一样的分数。这是不合常理的。因为某一个决策的重要程度可以决定其生存还是死亡。而较大的背叛诱惑会增大背叛的概率。且被背叛的那一方可能就破产，无法进行下一次博弈。

作者除了《合作的进化》外，还有《合作的复杂性》。只不过，《合作的复杂性》里的模型分析实在让我这个文科生吃不消，所以就没有多涉及里面的内容。对自己有信心的可以去看看。

囚徒困境

合作的可能

一报还一报

综论

评论