生活中的统计学：一个大活人，还能让尿活活憋死？？？

非诚勿扰孟非 · 发表于 2025-3-12 17:58

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

文章来源：文章授权转载自中科院物理所，作者Cloudiiink，本文仅作学术分享，文章版权归原作者所有

一个大活人，还能让尿憋死？？？
在高中物理课本上，有那么一位贡献卓越的天文学家，名为第谷·布拉赫。他详细而又准确的行星观测数据，直接帮助其助手开普勒总结出了行星运动三大定律，进而为牛顿建立万有引力定律奠定基础。

▲ 第谷·布拉赫画像，图片来自维基百科

然而这么一个人……参加宴会时想上厕所……

他出于礼仪，拒绝离开会场……
最后憋尿憋到……膀胱破裂……
去世了……[1]

最近天气逐渐转暖，春天来了，万物复苏，大草原上又到了动物们... 又到了在屋子里宅了一个冬天的人们出门溜达溜达的季节。不过一旦出门在外的时候，无论是不是选择困难症，都可能要在要人生难题清单里面加上：去哪里才能上厕所？还有多久才能排到我？这样的人生「终极」问题。

为了让大家都能有一个良好的出行体验！
为了帮助大家顺利找到厕所，不把自己憋死！
小编通过详实的论证和细致的数学分析，总结出了两条简单实用的出门找厕所两大规律：你大爷永远是你大爷定律，好马一定要吃回头草策略。并结合实际场景分析了一下这两条规律的使用方法和注意事项，帮助大家从零开始，会找，能找，找好厕所，安心出门 ~
1
对不起，我马了
要给日常生活中恐怖的东西排个序的话，不知道大家的选择是什么样的，小编第一个选择排老长老长的队……
以前，我相信动态平衡这一说，如果有两列队伍的话，长的那一列的人会自动补到短的那一列去，所以安心选择一条等着就好了。直到有一天，我了解了可以预测未来的马尔科夫链（Markov Chain）……

▲马尔科夫链描述的系统，其任一时刻的状态仅仅由其上一个时刻决定，而和更早的历史没有关系。就像链条一样，相邻两个环紧紧相扣，而更远的两个环之间并没有交集
马尔科夫链说的是这么一回事。小明在每天下午 5 点的时候有两种状态：一、认真学习。二、愉快摸鱼愉快玩耍。如果他今天是认真学习，那么明天有 40% 的概率会在玩耍；而如果他今天这个时候是在玩耍，那他会因为羞愧难当，在明天有 70% 的概率会认真学习。我们现在想要看小明之后每天下午 5 点在干啥。

▲每天下午 5 点，小明可能所处的状态和其相互之间的转移的概率关系示意图

假设小明刚开始下午这个时候都是在学习的，那么明天，他玩耍的概率就会变为 40%，学习的概率变成 1 - 40% = 60%。到了后天，他玩耍的概率分为两部分：昨天玩了今天继续玩，40% × %281 - 70%%29 = 12%；昨天学习了今天才玩，60% × 40% = 24%。所以后天他玩耍的概率为 36%，学习的概率为 64%。重复这样的计算，最后，他每天玩耍的概率为 36.4%，而学习的概率为 63.6%。
对不起，我玩游戏不是因为游戏太好玩，而是我「马」了。

2
你大爷永远是你大爷

回到我们关心的厕所问题上来。现在这个工具已经放到了你的面前，那上厕所能够用马尔科夫链来分析吗？
曾经，有一份爱情摆在我的面前，我没有珍惜，直到失去我才追悔莫及。人世间最痛苦的事情莫过于此。如果上天能够给我一个再来一次的机会，我会对那个女孩子说三个字……
对不起。学物理的没有爱情，我们只能在你面前摆两个厕所。

▲给我们不断变化的队伍建一个马尔科夫链适用的情形
首先，我们要构造一个马尔科夫链适用的场景。在景区里面，由于不断有来上厕所的人，也不断有走的人，不失一般性，我们可以假设在外面排队的人数是处于动态平衡，相对固定的。每隔一段时间，两个厕所里面排队的人都会做出选择，是继续排这个队伍，还是换一条队伍。那么这个「双厕所」系统，就可以开「马」了。
为了方便理解，我们依旧沿用上面小明同学的概率，只不过这时候他的概率不是学习还是玩耍，而是去上哪个厕所的概率。我们可以把这中间所有选择的过程归纳成为下面这张图。箭头和箭头上的数字代表了你每次做选择时候的方向和概率。

▲在厕所 A 和在厕所 B 排队的人在下一时刻的不同选择的概率的示意图
厕所 A 比较受欢迎，在所有到厕所 A 的人里面，下一时刻有 60% 的人会选择——就是你了，不管怎样都要排队等候。而还有 40% 的人可能因为人太多等原因选择另外一个厕所。厕所 B 则不那么受欢迎，在所有到厕所 B 的人里面，只有 30% 的人选择继续等候，剩下 70% 的人要溜。
和上一节中的计算相同，无论开始时候两个厕所外排队人数如何，经过多次选择以后，B 占比约为 36.4%，而 A 占比为 63.6%，也就是最终的状态会停留在 4：7，正好和两个厕所中间的转移的概率成正比。

这里面的残酷事实就是，虽然两者之间会不断有人员交换，但是，人该多的的地方永远是人多的，就像你大爷永远是你大爷。
你大爷定律的精髓在于，我们平时看到的样子，其实已经是系统平衡以后的样子，系统之间内部状态的转移已经全都被自然地考虑进去了。这种时候我们一般只需要……直接选人少的就好了。
3
死理性派上厕所

现在手机地图使用起来已经非常地方便，比如可以打开高德地图，输入「厕所」进行查询，身边哪里有厕所一目了然。

▲小编利用高德地图，搜索在中科院物理所附近的厕所
结合地图可以直观看到我们附近到底有多少厕所，遇到了三急也有去处。假如遇到了人多到爆炸的情况，我们也可以再进行挑选。

这一类选择问题其实是一个十分古老的问题。
穿过一大片麦田，要求让你带一个最大的麦穗回来。中途你不能够回头，也不能够进行更换，用什么样的策略，捡到大麦穗的可能性最大？

这个问题最难的地方在于我们面对的是彻底的未知，用统计学术语来说的话，我们缺少先验分布。在进入麦田之前，我们不知道麦穗到底有多大。如果我们太早做出选择，则很有可能「捡了芝麻」；如果我们太晚做出选择，则会「丢了西瓜」。选择厕所的过程其实和选麦穗很类似，我们也不知道地图里的厕所长什么样。

▲选麦穗策略示意图，假设 A > B > C，我们拒绝掉最开始的第一个，那么会有一半的概率选到整个序列中的最大值。
传统的选麦穗问题套路很简单，最优的策略为拒绝掉开始的所有 r - 1 个选择，在这之后，一旦遇到比之前所有都好的，直接决定。利用这种策略得到了最佳选择需要满足两个条件：

第 i 个为最佳选择
前 i - 1 个选择的最大值被我们拒绝掉了，也就是在开头的 r - 1 个里面。这样我们才能一直看到第 i 个选项

由此我们可以得到计算这个策略成功的概率为 [2]

如果希望最后选中最佳选择的概率最大，我们大约需要拒绝 1 / e ，也就是 37% 的选择。
但是，在找厕所的路途之中，我们完全可以回过头来选择之前已经遇到的最好的，这并不是一件丢脸的事情。在我们的找厕所的方法里，这个 1 / e 原则很可能有点水土不服了。
4
好马要吃回头草

我们这时候新的策略完全就是「吃回头草」。在观察完 k 个选项以后及时止损，回头选择已经看到的最好的那个。

一共有 N 个选择，我们同样先看前 r 个选项，记录最佳的结果。接下来在第 k 个（我们选择的终点）之前，一旦我们遇到了比记录结果更好的，直接选择。但是如果我们没有找到更好的，那就回头，从过去的 N - k 个选项里面选择最好的。
这个策略和之前的至多都只能做 N 个选择，在这点上两者是公平的，唯一的区别在于能不能回头。
为了直观了解两个策略哪个更强，我们人为地随机生成了 10000 个长度为 100 的序列进行模拟，按照原来的 1 / e 策略和我们的吃回头草策略从序列中找出最大值。下图中横轴为 k 的取值，也就是选择的终点，到达这里以后就不再继续看新的选项了。纵轴为 r 的取值，在一开始需要拒绝的选项的数量。因为我们选择的终点显然要大于需要拒绝的数量，所以在我们的结果中只展示了上面半个三角形的部分。图中颜色的深浅代表了在这个参数下取到最大值，捡到最大的麦穗的可能性。

▲数值模拟结果，横轴为 k，考察的所有选项个数；纵轴为 r，在最开始拒绝的选项的个数。颜色的深浅代表在这个参数下捡到最大的麦穗的可能性。可以看到，不同的参数选取会影响我们的最终结果
在图中可以看到，颜色最深的两个分别集中在中间，以及最右边的边界上。而这最右边的边界不是别的，正是我们的 1 / e 策略。因为如果我们取把选择的终点取到头的话，我们的回头草策略实际上看完了所有的选项。而且 N - k = 0，此时也失去了「吃回头草」的能力。
我们单独把对角线上的结果和最右边的结果拿出来进行比较。

▲数值模拟结果，横轴为数值模拟时选择的参数。图中蓝线代表原来的 1/e 策略，此时的横轴参数代表最开始拒绝的选项的个数。我们可以看到在 37 附近，蓝线确实取到了最大值。图中红线代表回头草策略，在 r = k = 50 的时候，我们可以以 50% 的概率取到最好的那个选择。此时对应的策略为只考察系统中一半的选择，然后回头选择之前看过的最好的那个
图中蓝线代表原来的 1 / e 策略，可以看到如果我们开始拒绝了 37% 的选择的话，蓝线确实取到了最大值 0.37。而图中红线代表吃回头草策略，直接在看完前一半的选项以后回头选择最好的，就能够以 50% 的概率取到整个队列中最好的那个。此时也确实发挥了吃回头草的极致……

光说这点好处肯定不能让你们坚定地选择吃回头草策略，接下来还有一些更猛的发现。
前面我们比较的是选中了最大的概率，但是我们并不只是想要最好的体验，我们还很关心下限。在找厕所的时候，我们平均的体验其实会更重要，比如比起一个稍微不那么干净的厕所，没有纸这一点显然更尴尬。所以我们接下来分析了 1 / e 策略和吃回头草策略中结果的均值。从下图看上去，大家好像都很优秀的样子……

▲颜色越深代表最后得到的结果中平均值越大
但是如果我们单独把 1 / e 策略和对角线上的吃回头草策略拿出来比较的话……

▲1 / e 策略和对角线上的回头草策略对比结果图

这是什么坑爹玩意啊？！？！1 / e 策略在这时候不仅不能取到平均结果的最大值，更是被吃回头草策略远远地落下了。
谁说好马不吃回头草？好马就要吃回头草！
5
理论结合实践

因为经常被人问，你们算来算去都是真空中的球形鸡，有什么用啊？今天，我们就以著名景点——杭州西湖为例，来看看怎样才能科学地上厕所。
高德地图与杭州西湖合作上线「西湖一键智能游」，将西湖的厕所都搬到了手机上,通过大数据发布了西湖厕所热力分布。我们可以先来直观地感受一下这附近有多少众众众众众众众众众众众。图中每个圆点都代表一个厕所。如果这个点的颜色越绿，代表使用的人越少。而如果这个点越红，则代表使用的人越多。可以看到，在西湖沿岸的那些景点周围，几乎每个厕所都是爆满状态。

▲西湖景区厕所热力图，来源《西湖文旅大数据报告》
利用厕所热力数据，我们可以重建西湖景区的人员的密度。在图中，颜色的深浅表示了这个地方人的相对密度。利用厕所热力数据所反推出来的密度分布同样显示，在西湖附近集中了大量的人。不过从厕所分布来看，厕所基本上均匀地覆盖了西湖附近的所有景区，而且和人流较大的地方有较高的重合度。

▲利用厕所热力数据反推得到的西湖景区人员密度分布图，上图中的紫红色的点代表厕所的位置
如果我们把上面的热力分布图放大的话，还能够看出来大家都喜欢去什么样的景区。

▲西湖周围的热力分布图

▲西湖十景分布图
通过对比地图和热力图，西湖北岸的孤山以及其附近的断桥最受大家的喜欢，厕所热力的峰值同样也出现在这个地方。而在西湖的西南岸，雷峰夕照和柳浪闻莺同样聚集了大量的游客。如果出行游玩涉及到这些区域的话，需要提前做好心里准备，上厕所估计要等很长时间……

▲左图为西湖的厕所分布图，右图为其按照不同的热力范围分类得到的直方图，横轴为热力数据，高度为这个热力范围内的厕所数量

分析完人的分布以后，我们重新回到厕所问题上。人以类聚，物以群分，如果我们按照这种思维也给这些厕所们分一个类，其实绝大多数的厕所其实都不挤，而少数二十几个厕所则承包了 3/4 的厕所使用量。

结合你大爷定律和吃回头草策略，以及西湖景区的厕所分布和使用情况，我们的找厕所攻略如下：

看到人多的厕所坚决避开，有时候你坚持选个近的，就能体会到啥叫望眼欲穿了。
厕所的密度还是很高的，错过了一个还能有下一个，千万不要在一个厕所边憋死。
不要怕走回头路，看完了发现之前的那个更好，果断回头。

最后，祝愿大家，在憋尿的时候，别遇上这样的路……

顺利抵达厕所~

%2A 文中厕所热力分布等数据来自高德地图

%2A 参考链接
[1] 对于第谷的真正死因，一直有多种说法，最早将他的死归咎于肾结石或者汞中毒。但是最新的分析结果否认了之前的说法，认为第谷死因为膀胱破裂。维基百科
[2] 麦穗问题 - 知乎

原文地址：https://zhuanlan.zhihu.com/p/17379241186

图文播报

[分享] 生活中的统计学：一个大活人，还能让尿活活憋死？？？

登陆有奖并可浏览互动！

发表回复

官方推荐 /3

个人中心