读《漫谈现代统计"四大天王"》

wangzf / 2022-05-07

摘要
漫谈现代统计"四大天王": 卡尔·皮尔逊
漫谈现代统计"四大天王": 费舍尔
漫谈现代统计"四大天王": 埃贡·皮尔逊

摘要

《漫谈现代统计"四大天王"》是勤学派公众号中的一系列的随笔, 这个系列随笔主要记述波澜壮阔、精彩纷呈的统计世界里那些令笔者印象深刻的故事与传奇; 试图去理解和还原现代统计的逻辑与思想s

漫谈现代统计"四大天王": 卡尔·皮尔逊

统计

统计, 是数学作用于现实生活中的一场思想革命, 它正持续的进行着, 我们每个人亲历其中. 但人们谈起它, 也往往有着如狄更斯这样复杂的情愫: 当普罗大众可以在不经意间谈论"风险"、 “概率”、“相关"这些概念的时候, 它早已悄悄地改变了人们关于科学、关于世界的底层信念; 借着今天大数据、人工智能的春风, 它必将如火如荼地蔓延开去, 日新月异地改变我们的生活. 而另一方面, 统计可能是最不严谨的数学子学科, 像"建立在沙土的摩天大厦”, 很多本源的理论问题至今并没有得到令人满意的解答, 也导致人们在工作生活中越来越广泛地使用统计思想和模型的同时, 产生了越来越多的怀疑和忧虑.

世界的本质是随机的吗？

谈统计, 我们却不得不从这样一个哲学问题开始, 因为它涉及整个学科存在的合理性.

如果我们拿这个问题去问任何一个统计学家, 他/她一定会回答: 是！

——否则, 还要统计干什么呢？

但要大众文化接受这样的观念却并不容易.

一者, 自19世纪以来, 以牛顿力学为代表的科学, 应用于现实世界, 在各行各业取得了巨大的成就, 也让一种"决定论"的世界观深入人心——世界的本质就像一个大时钟运行着, 于是, 我们只需要少量的数学公式, 不仅可以描述现实, 还能预测未来.

二者, “随机"在人们日常的理解中就是"未知、复杂、毫无规律"的同义语. 比如, 讲故事的时候说"海盗把宝藏随机埋在了海岛上”——基本就是说, 你绝无可能找到宝藏了(假设根本没有藏宝图, 海盗都是打死不说). 那么, 就算世界上还有很多未解之谜, 也不能说本质是"随机"的吧.

代表作

美照

漫谈现代统计"四大天王": 费舍尔

试验该怎么做？

毫不夸张的说, 在费希尔之前, 可能没有人想过这个问题.

我们甚至不清楚, 这个问题在问什么. 因为长期以来, 在"决定论"的世界观下, 我们从不觉得存在讨论这个问题的必要: 用实验去发现新知, 难道不是自然而然？比方, 哈维做了解剖实验就发现了血液循环; 伽利略从比萨斜塔扔下去了两个大小不同的球就发现了自由落体定律; 孟德尔做了豌豆杂交实验就发现了遗传规律……不就是这么"直接"做嘛？哪里还有什么"怎么做"的问题？

但读者如能联系一下本系列第一篇里, 我们谈到"世界的本质是随机的"——这一统计学最底层哲学观点, 会不会就有一丝的迟疑: 觉得刚刚那些说的那些, 其实不是"直接", 实则是有点"简单粗暴"呢？当然, 暂时不明白也没关系, 让我们从下面这个"女士品茶"的故事说起——这个颇有维多利亚时代言情小说调调的典故, 其实大有来头.

20世纪20年代末一个夏日的午后, 在英国剑桥, 一群大学教员和他们的妻子以及一些客人围坐在一起喝下午茶. 一位女士坚持认为: 将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的. 在座的科学家都觉得这种观点很可笑: 这能有什么区别呢？他们觉得两种液体的混合物在化学成分上不可能有任何区别. 此时, 一个带着厚厚的眼镜、留着尖髯的男子表情变得严肃起来, 这个问题让他陷入了沉思.

“让我们检验这个命题吧. “他激动地说.

故事说到这里, 大家可能猜到故事里这个"厚厚眼镜”、“留着尖髯"的男子就是费希尔. 我们稍加停顿, 不妨带入他的角色, 深入地思考一下: 如何做实验来检验这个命题.

也许你觉得这个简单啊: 直接给她一杯用两种方式之一混的茶, 让她去区别就好了嘛. 但如果她说对了, 就能说明她有鉴别能力吗？如果她说错了, 就能说明她一定没有鉴别能力吗？也许, 你觉得一杯还不够, 要多试几杯. 那到底要试到多少杯呢？而对于她的判断结果, 又回到了原来的问题: 全对是不是意味着她一定有辨别能力, 全错是不是一定没有辨别能力？可能更复杂的是, 如果她有的对, 有的错, 又如何下结论呢？

到现在, 你大概终于明白了本节的标题: 实验怎么做, 大有学问！

还是以女士品茶问题为例: 假定她完全没有分辨能力, 给她一杯茶, 她随便猜一个答案其实也有50%的可能说对; 假如她有分辨能力, 但种种原因(比如茶还混得不好, 混合的温度不对, 她之前吃的甜食影响了她的味觉, 再或者……想想你怎么和父母解释为什么你考试没考好, 你就能帮她想出无数的"客观原因”), 她也有可能犯错啊.

我们可能想到, 要多试几杯, 那到底试几杯怎么定？另外, 我们要怎么去试, 即形式、顺序, 和向这个女士透露多少信息呢？比方, 定下测试十杯, 一种方案可以是分五组, 每组有一杯茶加奶, 另一杯奶加茶, 并告知这个女士, 让她一组一组判断. 另一个方案, 随机地选十杯, 没有任何提示, 让她一一判断. 当然了, 实验设计方案远不止这两种, 甚至是要多少有多少的. 那么, 应该选那种呢？

再者, 从女士的判断结果如何得出结论呢？比如, 她10杯里分辨对了8杯, 这说明什么？这和前面的实验设计方案当然是息息相关. 不用计算, 我们大概也能感觉得到, 在刚刚举例的两个方案中, 第一种方案说对8杯, 应该比第二种要"容易"不少.

卡尔·皮尔逊与费舍尔的哲学之争

如果世界的本质是随机, 不存在误差, 那么, 也就不存在误差估计了吧？

从卡尔.皮尔逊的角度, 是的, 因为,

皮尔逊认为统计分布是对他分析的实际数据集合的描述.

从费希尔的角度, 答案是否定的.

费希尔则认为真正的分布是抽象的数学公式. 人们所收集的数据只能用于估计真实分布的参数. 由于所有这些估计都会引入误差, 因此费希尔提出了使这类误差程度最小化或使估计值距离真实分布最近的工具.

怎么去理解呢？不妨先回忆一下咱们高中物理学到的一些观点. 学到最后, 老师一般会问及这两个世界观的问题: 宇宙有终极真理吗？我们可以发现终极真理吗？第一个问题, 我们的回答是"有！"——这源自于我们关于科学的信仰. 第二个问题的解答, 则是一种"模型"的观点: 我们不能直接发现"真理”, 而是一系列关于真理的"模型". 模型和真理当然是有差距的, 而我们追求真理的过程, 就是不断用更好的模型更新和扬弃那些旧的不那么好的模型的过程.

再用我们中学熟悉的知识举个例子, 在卢瑟福的alpha粒子轰击金箔散射实验之前, 汤姆生的"枣糕"模型就是最好的原子结构模型, 因为它能解释当时所有已知实验现象(如, 原子的电中性, 以及金属在紫外线的照射下能发出电子等等现象). 但散射实验之后, “枣糕"模型对新的实验现象不能自圆其说了, 于是, 卢瑟福的"行星模型"就取而代之. 这并非是说, 我们认定原子结构就是"行星"这个样子——其实我们永远都不确定原子究竟长什么样; 我们只是说"行星"模型是当下最好, 起码已经足够好——足够简单又足够解释所有已发现的实验现象. 以后当然还会有新的实验发现——“行星"模型也有不能自圆其说的一天, 我们就会发展更好的模型取代它. 科学研究就是这样基于"模型"持续不断自我更新的过程.

代表作

美照

漫谈现代统计"四大天王”: 埃贡·皮尔逊

没有故事的男同学

埃贡.皮尔逊(Egon Pearson 1895~1980)是现代统计奠基人卡尔.皮尔逊的儿子, 为了和他父亲好做区分, 我们称他为"小皮尔逊”(相对的, 称卡尔.皮尔逊为"老皮尔逊").

但直到今天, Pearson几乎还是任何一本统计教科书里的鼎鼎大名——恭喜你, 猜对了——绝大多数都是指向我们本节的主角: 小皮尔逊.

因此, 或许我们会觉得小皮尔逊要比父亲成功得多. 但是, 可能和我们想象大相径庭: 小皮尔逊之于老皮尔逊, 并不像苏轼之于苏洵、丹尼尔.伯努利之于约翰.伯努利那样——可以说得上是"顺理成章"地系出名门而青出于蓝. 其实, 如果读者还记得我们在本系列第一篇介绍过高尔顿爵士发现的均值回归原理的话, 应该明白, 才华出众的父亲应该有个才华不那么出众的儿子, 而不是才华更出众的儿子——才是这个世界上更 “顺理成章"的事情.

痛苦的抉择与意外的转机

“混"了个文凭, 由父亲安排工作, 在父亲当领导的地方上班, 当讲师五年却没讲过一节课, 吃住社交全都在家里——大家千万不要被他"佛系青年"的表象迷惑, 小皮尔逊其实非常勤勉上进.
小皮尔逊和他父亲的性格大相径庭: 父亲是个才华横溢、才思敏捷, 做事风风火火、过度自信甚至专横跋扈的人, 一旦有什么新思想, 就匆匆下笔, 立刻发表, 在数学表述上经常有不清晰甚至错误的地方; 而他则害羞而谦逊, 内敛而深沉, 自省而谨慎, 做研究非常认真, 仔细推敲计算过程的每一个细节. 大概也正因为这样迥异的个性, 他在研究上也与父亲渐行渐远. 在20世纪20年代, 老皮尔逊和费希尔的学术斗争如火如荼, 小皮尔逊则开始经历他人生中最为煎熬的一段时期, 他异常痛苦地发现, 父亲有可能错了, 而他必须在情感与理智的漩涡中艰难地抉择:
- 1.极为困难地试图理解费希尔,
- 2.痛恨他批评和攻击心中"神"一般存在父亲,
- 3.痛苦地发现, 至少在一些事情上, 费希尔是对的.
这些信件可以让我们深入了解科学家之间的交流情况, 向我们展示了两位具有开创精神的前辈怎样努力解决一个问题. 每个人都会提出新思想, 批评对方的思想. 小皮尔逊踌躇地表示内曼提出的一些想法可能行不通时, 他的谦虚风格非常引人注目, 而内曼透过复杂问题寻找关键要点时, 他的原创精神也在熠熠生辉. 如果你想知道为什么数学研究常常需要多人合作, 我推荐你拜读一下内曼和小皮尔逊之间的通信.

启示: 好雪片片

“均值回归"理论的共同开创者, 能接受"均值回归"发生在自己孩子身上不？
也许做父母这件事, 就是知易行难, 我们不能苛求前人. 按说时代在进步, 社会更为开明, 但即便在今天, 谁家里要是有一个性格如小皮尔逊的孩子, 估计父母们也多半是焦虑的: 我们今天再也不把为人谦逊作为一个十足正面的优点——即便作为优点也是要打折扣的, 一般都会紧跟一个令人生厌的"但是”; 而天生性格内向, 在今天几乎就实打实地被归为负面或缺点; 沉默寡言则更为糟糕, 害羞和自卑恐怕都要上升到影响生存的层面, 必须要尽力克服和纠正——总之, 所有这些加一起, 已经让人足够担心孩子成人后不能适应竞争激烈的社会了.
你被录取了, 但我希望, 你以后会知道, 统计界不只有费希尔一个人.
想起禅宗有一句话: “好雪片片, 不落别处”, 大意是说, 各有各的好, 各有各归宿. “统计回归"何足惧？只是我们应该放下焦虑与浮躁, 对孩子、对成长、乃至对万事万物, 有一种顺其自然的宽容态度.

费舍尔藏在地毯下的问题

到底当年小皮尔逊是用什么有趣的问题打动了内曼重回统计研究呢？

代表作

美照

漫谈现代统计"四大天王”: 内曼

早年经历: 坎坷 VS 乐观

1919年的秋天, 内曼的健康状况不佳, 医生让他务必去南方修养. 就在这一趟去克里米亚的旅行中, 他邂逅了两个结伴旅行、为寻找艺术灵感去采风的俄国女孩. 内曼把其中一位, 活泼又漂亮的劳拉, 在冬天就变成了内曼夫人——哈哈, 我猜想, 内曼对待爱情应该是和他对数学的追求一样的执着和热烈——这场结合在当年相当不易: 一个波兰人娶了一个俄国人——而当时两国正在交战; 此外, 还有信仰的鸿沟, 内曼出生虔诚的天主教家庭——说服天主教神父在教堂为他和东正教新娘举行婚礼, 一定也是大费周折.

与统计结缘

大三的时候, 教函数论的教授推荐内曼去读一些课程不涉及的高级内容——勒贝格积分. 于是, 内曼去图书馆找到法国数学家勒贝格(Henri Lebesgue)的原文来读. 后世一般认为, 勒贝格的原文是比较晦涩艰深的, 大家学习勒贝格积分也都是通过被其他数学家简化和整理过的版本, 极少有人是通过研究原文来学习. 但内曼就是完全靠自己读懂了！不仅是读懂了, 而且彻底沉迷进去, 一发不可收拾——用他自己的话来说, “战争扫荡了一切, 而勒贝格先生依然故我……”, 对于内曼而言, 恰是勒贝格扫荡了一切, 甚至扫荡了战争.
内曼日后说, 每当自己面对学生, 都会想起老皮尔逊, 会问自己有没有像老皮尔逊压制费希尔那样压制学生.
虽然没有在老皮尔逊那里学到太多东西, 但伦敦之行还是收获颇丰. 一来是由于老皮尔逊的推荐, 他获得了洛克菲勒基金会的资助继续去法国巴黎访学——终于亲见和聆听了他的偶像勒贝格的课, 内曼非常兴奋, 哪怕在那时, 内曼还是一心想要做回理论数学家的. 二来, 是他结识了老皮尔逊的儿子——小皮尔逊. 当这个与他年龄相仿、但从来都沉默寡言的青年人, 在他到巴黎后与他通信, 也许都让他颇感意外. 更让人意外的是, 这样的通信竟然把内曼从追寻偶像的成为理论数学家梦想拉回到统计研究中来, 且这一通信就是八年, 他们两成为了挚友和重要合作者——一同完成了永载史册的内曼-皮尔逊理论.
回过头来看, 内曼的统计生涯, 似乎完全是一系列阴差阳错促成的——甚至有朋友和我开玩笑说, 内曼是一个被统计"耽误"的数学家——或许吧, 如果他每次面临的情况不总是那么艰苦而毫无选择呢？但从另一个更宏大的视角看来, 这莫不是"命中注定”？统计的发展, 在经历了以老皮尔逊为代表的古典阶段后, 正在等待和召唤一个有着深厚功底的数学家, 为它打下坚实的理论基础, 开启数理统计的新篇章——内曼就是最合适的人选！

在英国: 一个人战斗

1934~1938年期间, 内曼对统计科学又做出了四项基础性的贡献, 每一项都足以让他获得国际声誉. 他提出了置信区间理论, 它对于统计理论与数据分析中的重要性怎么估计都不会过高. 他对传染分布理论的贡献在生物学数据处理中十分有效. 他的总体分布抽样法为一种统计学理论铺平道路, 让我们收益颇多——其中就包括盖洛普民意测验. 他以及费希尔的彼此带有不同的随机化实验模型的工作, 开辟了在农业、生物学、医学和物理学中广泛应用的全新实验领域.

在美国: 筚路蓝缕, 一代宗师

二战期间, 美军曾调查了飞机上的中弹分布, 决定在弹孔最密集的机翼部分增加防护, 以减少飞机被击落的概率. 有位统计专家却提出异议, 恰好相反, 应该加强弹孔最少的机身和机尾部分, 这是因为: 我们能看到弹孔多, 说明这个部位多次中弹飞机仍然可以飞回来; 而我们看到弹孔少, 是因为一旦中弹, 飞机可能根本就飞不回来了！
某研究生上课迟到了许久, 悄悄溜进教室, 发现了教授在黑板上留下的两个问题, 也不好意思问, 便以为是家庭作业. 没想到这次作业出奇地难, 他苦思冥想好几个月, 但终于做出来了. 交给教授一看, 简直让人喜极而泣: 学生交的作业, 其实解决了他在课上给学生们科普过的本学术领域的两个重要的open problem！
所以可以说, 中国每个学统计的人都是许先生的徒子徒孙, 自然也更是内曼的徒子徒孙了, 哈哈. 多少人突然惊喜地发现, 平凡的自己身上竟然传承着一大学术名门望族的血脉.