概率学是一门研究不确定事件和结果的学问。 风险判断和决策都需要考虑概率,用概率思维看清真相,用概率思维看清楚真实的世界。
概率并不会确凿地告诉我们将会发生什么,但我们通过概率计算能够知道很有可能发生什么、不太可能发生什么,聪明的人会使用这类数据为自己的事业和生活指明方向,而不是作出“非此即彼”和绝对化的判断。
拥抱概率,拥抱不确定性,用概率去认识世界,发现世界的运行规律。
本书关键词:相关性,误差,期望值,小概率事件(黑天鹅),中心极限定律(一种非常重要的统计方法),统计推断
最重要、值得重读的几章:第四章 相关性,第五章 期望值,第九章中心极限定律,第十章统计推断和假设检验
第一章强调统计学的重要性,是我们认识世界的工具;第二章强调统计学数字是“描述性语言”,不同于绝对性数字,描述性数字的使用会出现一些错误;第三章进一步介绍了统计学中常见的一些错误;第四章介绍相关性,如何通过统计分析判断两个因素之间是否有相关性;第五章介绍期望值,第六章举了一个统计学的例子,即蒙提•霍尔悖论; 第七章介绍“黑天鹅事件”,即小概率事件,我们倾向于绝对化思考,所以经常低估小概率事件,一旦发生又会高估发生概率。
第8-14章读书笔记: 《赤裸裸的统计学》读书笔记 8-14
第1章 统计学是大数据时代最炙手可热的学问/1
大数据时代,数据泛滥,我们不缺乏储存、分析数据的计算机硬件和软件,缺乏的是我们的统计学知识和直觉,甚至大脑的一些直觉判断正好是和概率思考是相冲突的,这就是这本书的目的,帮助我们深入了解统计的基础知识,避免陷阱,能从统计学的角度观察世界,分析观点。
统计学:设计实验或收集数据,分析数据,推测结论
统计学可以帮助我们分析信息并获得有意义的结果,本章列举了几个利用统计学概念认识世界的例子,比如用基尼系数这一统计数字来判断收入不均情况,比如淘宝用相关性来推荐商品。
另外强调“对于描述统计学的过分依赖会带来误导性的结论或导致不良行为”,描述统计学存在的意义就是简化,因此不可避免地会丢失一些内容和细节,所以切记不要不懂原理的滥用和误用统计学。
统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答那些我们还未掌握所有信息的“大”问题。简言之,我们能够使用“已知世界”的数据来对“未知世界”进行推断。
本书将会带你认识那些最常见的统计学方面的错误和曲解,这样你就不至于犯了错还被蒙在鼓里。
第2章 描述统计学/19
本章介绍了“描述性数字”,与之相对的是“绝对性数字”,统计数字属于描述性数字,比如这章强调的平均数、中位数、方差和标准差、甚至百分数等。描述性数据为我们提供了一个针对某一现象的可操作、有意义的概括。但任何一种简化都会面临被滥用的危险。所以使用或分析统计数字时,要看清楚每个统计数字的局限性。
《魔鬼数学》第一部分 线性 读书笔记强调了“百分比的滥用”,和本书内容相同。
如果我告诉你,某品牌麦片中A配方的钠含量要比B配方高31毫克,除非你恰好懂得很多关于钠的知识(以及该品牌麦片的食用分量),否则上面这句话并不能给你带来特别具体的信息。
百分数是一个非常有用的工具,但同时也容易产生混淆,甚至具有欺骗性。
最近就有一个绝佳的例子:伊利诺伊州的个人所得税税率由原来的3%上调到了5%。我们看到有两种不一样的说法来描述这一税率的变化,而且这两者在技术上都是正确的。主张并促成这次个税改革的民主党(正确无误地)指出,伊利诺伊州的个人所得税税率上升了两个百分点,从3%上涨到5%,共和党(同样正确无误地)指出,该州的所得税税率上升了67%,我们可以用刚刚学会的公式验证一下,(5-3)/3=2/3,即67%。
将一系列复杂的信息浓缩成一个数字,这是所有指数都具备的优点。我们可以因此对原先无法展开简单比较的事物进行排名。
同时,将一系列复杂的信息浓缩成一个数字,这也是所有指数的缺点所在。我们有各种各样的方式来浓缩信息,每种方式都有可能导致一个不同的结果。
描述统计学为我们所关心的现象打开了一扇窗,让我们更加接近事实的真相。【统计学是我们了解世界和更深入的认识世界的重要工具!】
备注:忘了是《思考,快与慢》还是《错误的行为》,作者提到一个概念是“理论的盲区”,强调的是一个概念或理论被发明出来,使用者经常忘了它的适用范围,而将之视为放之四海而皆准的法则。 “描述统计学”也是如此,每一个统计数字都能促进我们对世界运行方式的理解,但是前提是彻底理解这些统计学数字背后的含义,而不能盲目使用。 如果工具变成了一个黑匣子,那就距离被滥用不远了。
第3章 统计数字会撒谎/43
这一章的观点和上一章相关,都是强调真正的理解统计数字,不要被统计数字欺骗了,切莫陷入滥用统计的境地,牢记“判断比数学更重要“。
介绍了几个常见的统计学错误: 百分率的滥用,缺乏(缺乏起点判断,有点类似于“前景理论”),统计学导致的负激励(拿手术成功率作为KPI,医生就会选择不给重病患者做手术),
首先,我们应该弄明白“精确”和“准确”这两个词之间至关重要的区别。这两个词不可以相互替代。“精确”反映的是我们描述事物的精度。
一个数据的准确与否表明了其与真相是否一致,因此将“精确”和“准确”混为一谈是要付出代价的。如果一个答案是准确的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不准确的,那么再精确也毫无意义。
马克•吐温有一句名言是这样说的,“谎言有三种:谎言、该死的谎言,以及统计学”。
对优质数据的合理分析能够有效地调和对立的观点。【相同的数据,从不同的角度统计,可以得出不同的结论。】
政客甲(平民主义者):“我们的经济一塌糊涂!2012年有30个州的收入都出现了下滑。” 政客乙(更接近精英派):“我们的经济走势一片光明。2012年有70%的美国人的收入都增加了。
进化生物学家史蒂芬·杰·古尔德曾经被诊断出患有某种癌症,他的半数预期寿命只有区区8个月。但20年过去了,古尔德死于另一种不相关的癌症。古尔德生前写过一篇非常有名的文章,题目为“中位数不等于真信息”,他在文章里指出了他只能活8个月是一个错误结论,并表示是他头脑里积累的统计学科学知识将他从错误的结论中拯救了出来。中位数的定义告诉我们有1/2的病人活不到8个月,但另外1/2的病人至少可以活8个月,或者比8个月 的时间更长(甚至是活到老),其死亡分布是“右偏”的。因此,如果你恰好患上了这种病,这一数据的意义要比一个单纯的技术术语丰富得多。
本章内容一直在强调,统计陷阱与数学能力的关系不大。哪怕是令人叹为观止的精确计算也会混淆视听,甚至成为不良动机的掩护。有时候哪怕你准确无误地计算出平均数,也无法改变中位数在对真相的描述中更加准确这样一个事实。判断和正直成为关键所在,就好比一个人非常懂法也不能阻止其犯下罪行一样。渊博的统计学知识无法遏制不道德的行为,无论是统计学还是法律,坏人总是清楚地知道自己在做什么!
第4章 相关性与相关系数/69
本章介绍相关性的概念(两个变量之间的关系),通过“相关系数”来定量评估两个变量的相关性程度。比如体重和身高之间存在正的相关性,SAT成绩和大学后的表现存在正的相关性,百米赛跑的成绩和大学表现没有相关性。
我们在网上被推送的广告,视频网站被推荐的视频等,就是根据相关性进行匹配的结果。
尤其要注意的是,相关关系并不代表因果关系。
相关系数是一个区间为-1到1的常数。如果相关系数为1,即完全相关,表示一个变量的任何改变都会导致另一个变量朝着相同方向发生等量的改变。如果相关系数为-1,即完全负相关,代表一个变量的任何变化都将会引发另一个变量朝着相反方向发生等量的改变
书中介绍了计算两组数据的相关系数的具体方法,此处不赘述。需要强调的是,excel可以直接计算两组数据之间的相关系数,重要的是了解相关系数的含义。
假设的两组数据为:A1:A7和B1:B7,在C1输入公式=CORREL(A1:A7,B1:B7)即可
备注1: 最近在读《漫步华尔街》,其中风险的定量分析方法是方差和标准差,而多样化投资策略考虑不同股票和资产的相关性,相关性越高,一起涨跌的概率越大,风险越不容易被抵消。
第5章 概率与期望值/81
买福利彩票,去赌场豪赌、投资股票或期货,哪种方式让你跻身《福布斯》富豪排行榜的可能性更大?
这一部分的主要内容和《魔鬼数学》第三部分“期望值”读书笔记一致,只不过表述方式和例子不同。
举例:施利茨啤酒广告,依赖于“所有的啤酒都差不多”,让号称喜欢竞争对手啤酒的顾客做偏好测试,反而获得有利于自己的结果,100位爱好者至少会有40位选择施利茨啤酒(概率见第九章);其次选择100位而非10位,则是考虑到”大数定律“/避免小概率事件的发生。
施利茨所生产的这种啤酒喝起来没什么特别的,跟绝大多数其他品牌的同类啤酒几乎没有太大差别;但讽刺的是,正是这一点成为施利茨啤酒广告营销的核心。
如果盲品会果真如抛硬币一样,那么运用概率学的基本知识,就能得出至少有40人选择施利茨的概率为98%,至少有45人选择施利茨的概率为86%。从理论上来看,这场电视营销活动其实并没有很大的风险。
为什么施利茨要在“超级碗”中场休息时邀请100位而不是10位啤酒爱好者来参与啤酒盲品测试。随着盲品者人数的增多,越来越多的预期结果向中间(也就是有一半的人选择施利茨啤酒)集中;与此同时,位于曲线两端的极端结果出现的概率则下降得非常厉害。
概率可以帮助我们做出准确(准确并不意味着万无一失)的决策,其中一个重要的工具就是期望值。很多人没有察觉到概率的重要性,从而做出很多违背科学的选择,比如因为发生了911时间就选择开车而非坐飞机,反而造成更高的死亡人数。
当涉及风险的问题时,恐惧会让我们忽视数字背后的真相,反而对那些真正的危险视而不见。在史蒂芬•列维特和史蒂芬•都伯纳所著的《魔鬼经济学》一书中,提到了一个惊人的发现,那就是后院的游泳池远比柜子里的枪来得危险。列维特和都伯纳计算,10岁以下的儿童在游泳池溺死的概率要比枪击事故中意外中弹身亡的概率高100倍。
一份研究表明,“9•11”恐怖袭击事件导致的驾车死亡人数或已超过2000人。
从期望值看彩票,和《魔鬼数学》的观点完全一致:
虽然我中了2美元,依然无法改变购买彩票是一种愚蠢行为的事实,这就是概率教给我们的重要经验之一
保险公司也是建立在概率上的行业,保险公司之所以能赚钱,就是充分计算了期望值,从而保证大量和长期的购买保险行为肯定有利于自己。想起了巴菲特,他的伯克希尔哈撒韦公司的重要资金来源就是保险业务,建立在充分概率分析上的保险业务是现金奶牛。
本文有一个非常实际的忠告:对于是否购买保险的问题,作者建议购买保险防止那些足以毁掉你的生活、让你无法承受的意外,比如重大疾病、房屋被毁、汽车被盗等;但是对于那些非常小额的保险,比如京东小电器附带的延长保险,就可以完全忽视了。(这些无关紧要的保险和买两块钱的彩票没有区别)
从统计学的角度来看,购买保险是一项“糟糕的投资”,因为平均来看,你支付给保险公司的钱永远要比得到的赔付多。但如果想防止一些足以毁掉你生活的结果出现,保险就是一个理性的工具。
你应该时刻谨记为那些你无法轻松承受的意外上保险,而其他情况就不要浪费钱了,这是个人理财的核心原则之一。
当我们在生活中遇到不确定因素时,概率学是一个可靠的参考工具。你不应该购买彩票;如果你有一个长远的投资视野,那么你应该把钱投入股市(因为股票是能够带来长期收益的一种典型投资品种);你应该为某些东西购买保险,其他东西就算了
整个保险行业都是建立在概率的基础之上,保修只不过是保险的一种表现形式而已
第6章 蒙提•霍尔悖论/105
在这一部分,作者介绍了“蒙提•霍尔悖论”,从概率上分析应该如何选择。
Q:在《让我们做个交易》节目中,一共有三扇门,你任选了其中一扇门;然后主持人打开另外两扇门中的一个,门后是一头羊;然后主持人问你,在剩下的1号门和2号门中必定有一扇门后面是汽车,你是否要改变主意选择另外一扇门?
A:参赛者应不应该改变最初的选择? 答案是肯定的。如果参赛者坚持最初的选择,那么中大奖的概率为1/3,如果改选剩下的那扇门,那么中奖的概率就是2/3。 问题的关键就在于,主持人蒙提•霍尔本人提前知道每一扇门背后的奖品。
第7章 黑天鹅事件/113
1%的小概率风险如何在2008年成为击垮美国华尔街的“黑天鹅”,并毁了全球金融体系。
小概率事件也叫黑天鹅事件。小概率事件并不意味着概率为零,不代表一定不会发生。作者以2008年美国次贷危机为例,强调华尔街忽略了次级贷款的风险,将小概率事件视为不可能事件,最终酿成大祸。
从20世纪90年代开始一直到21世纪初,商业银行的房屋按揭业务所使用的贷款模型都认为房价出现大幅度下跌的概率为零。
很少有人会关注“尾部风险”(位于分布曲线末尾的小概率事件)
本章介绍了一个非常重要的法律案例,一个英国家庭连续两三个小孩都夭折了,陪审团判定父母有罪,因为同一个家庭连续发生两三次小孩夭折的概率非常低,陪审团犯了“低估概率”的错误,实际上并非是独立事件,可能存在很多其他的影响因素。
想当然地认为几个不同事件之间是彼此独立的(跟抛硬币一样),而忽略了它们之间的联系(某个特定结果的出现会增加类似结果发生的可能性)。“
英国《经济学人》杂志写道,“一个婴儿的死亡是悲剧,两个婴儿死亡就很可疑,三个婴儿死亡便可断定为谋杀,这就是大名鼎鼎的‘麦都定律’。
对两个事件的统计独立一无所知。人们犯的另一种常见错误是,面对相互独立的事件浑然不觉,甚至还将它们作为相关事件进行处理。
我们容易把独立事件看作有联系的事件,比如篮球的受热现象,《魔鬼数学》一书也有大量篇幅分析受热现象是一个纯粹的独立事件。
备注:想起前几天在newsela软件上读到的一篇英文文章“virginia’s collapse against Maryland is a statistical mystery”,介绍了橄榄球的排名第一的球队爆冷被排名十六的球队击败,球员自己打完比赛都一头雾水,完全不知为何在自己队伍如日中天的时候输掉了比赛,题目强调这就是一种冷冰冰的现实——小概率事件发生了,很多看似不可能发生的事情都凑到一起,产生了爆冷结果。
备注2: 前几天看到一篇文章(Framed for Murder By His Own DNA | FRONTLINE | PBS | Official Site),由于DNA方法筛选罪犯准确率很高但是并非百分百准确,一个人就被阴差阳错得控告犯下了谋杀罪行,因为现场有自己的DNA证据而难以辩驳,很好的一篇“小概率事件”的报道。
备注3: 关于彼此独立事件的共同发生的概率,容易被我们高估;而
备注4:在《随机漫步的傻瓜》中,作者强调黑天鹅事件要计算结果,通过期望值判断做一件事情的利益。
2017年读的最好的书是《魔鬼数学》,好得让我写了每章读书笔记同时又整理了一个全书读书笔记,随后又找了几本概率相关的图书,一本书《赤裸裸的统计学》,另一本是《看穿一切的统计学》 读书笔记,很多观点和《魔鬼数学》都有重复,但是表述方式不同,另外知识点各有侧重,通过主题阅读举一反三,进一步增进对“概率思考”的理解,依然很有收获。
这篇文章快速整理了《赤裸裸的统计学》一书各个章节的核心观点,先用自己的语言归纳每章的主要内容(费曼技巧),然后复制重要摘抄,补充个人备注。
2018.1.23 第五章
2018.3.23 第6/7章
2018.3.24 更新9/10/11/12
2018.4.3 更新12/13
2018.4.12 更新4/5
2018.4.22 前几天已经搞定《看穿一切的统计学》 读书笔记,所以本读书笔记补充了两本书的观点对比。
2018.5.4 更新第九章 中心极限定律
2018.5.7 第二章