《统计数据会撒谎》读书笔记 2/2

本读书笔记继续整理《统计学会撒谎》一书的后面几章的主要内容。

前四章的读书笔记见《统计数据会说谎》读书笔记 – Zero

统计学不仅是被一门科学,更是一门艺术。
对于不懂统计学的人来说, 很可能被引导对数据的理解,自己却浑然不知。这也让“坏人”和“商业机构”有机可乘,使用统计数字,见人说人话 见鬼说鬼话*。
比如书中前面提到的一个图片,一样的数据可以表达出相反的结论。比如书中最典型的几种平均值,比如利用小数定律重复实验直到得到对自己有利的结果,比如只公布平均值却不公布误差。

第五章 惊人的图形

主要内容:如何使用图表来骗人,这真是个简单好用的办法啊😯(学会防止被忽悠)
精选案例: 如果数据以表格形式展现无法给人足够的刺激结论,那就改成图片展示。 通过调整横坐标或者纵坐标的比例(比如本来是从0到100,但是只展示80-90这一段,从而把本来相对于整体很小的变化范围显得很大,就像下面的图片那样)。
通过调整坐标,就可以把真实的数据呈现出可能完全相反的结论,具体见下面第二个图片。

如何展现出完全相反的结论

第六章 一维图形

关键词:一维vs二维vs三维,差别(两倍vs四倍vs八倍),将两倍的差别呈现出八倍的效果!
主要内容:原本使用柱状图(一维图表,高度不同,宽度都一样)可视化描述的数据差异,改用二维(例如放一个小人,炼钢高炉,犀牛,长宽都等比例放大,也就是不用高度而使用面积来对应要表达的数据)甚至三维图表(即使是二维图片,我们的视觉化比较,会考虑到实际中的体积,比如用两个不同大小的钱袋,两头不同体积的犀牛来反映差距,我们实际是比较了两者的体积)。
这样原本两倍的差别,就可以使用图表给人带来四倍(二维放大)甚至八倍(三维放大)的冲击效果。
这是一个我之前没有留意到的骗人方法,有意思,警惕!

第七章看似相关的数据

关键词:相关性,

如果你无法证明自己想要证明的东西,那就展示一些其他东西,并假装他们是一样的。
这是生活中极为常见的错误。

主要内容:
本章介绍与相关性有关的错误,相关性和因果关系都是很容易被误用的概念,所以也很容易用来骗人,本章介绍了很多很接地气的例子,强调怎么用“看似相关实际相关性不强的数据”来骗人,比如年收益和销售利润直之间的关系。

本章列举了很多例子,将“不相关”的关系展示为“看似相关”的逻辑,都是坑啊。
所以要避免被别人误导,自己想清楚,证据和结论是否真的具有相关性

几个例子:

  1. 为了证明某种药物治疗感冒很好用,就论证一克药物可以在多长时间杀死多少细菌。 但实际上实验室结果和吃药还有很大的差距,比如喉咙能承受多少药物(用1g是不是和实际用量对应),比如体外抑菌不代表人体环境下也如此,比如抑制的细菌可能未必是真的感冒相关的细菌,等等
  2. 某某某协会和实验室证明,某种榨汁机多榨26%。 真的说明这种榨汁机更好吗? 或许用来做对比的榨汁机只是一个老旧的型号
  3. 因为晚上七点车祸数量是早晨七点车祸数量的四倍,所以说早晨七点出车祸的事故概率更低。 这个错在哪儿? 数量多未必概率高,因为基数差别可能更大。
  4. 如果某个商店说,自己的净利润只是销售额的1.1%,是否真的代表赢利能力很差? 实际是这没有相关性,因为年收益和销售所得纯利润完全是两码事,想想之前一本书中介绍的“印度摊贩商业模式”。 所以这就像上一章介绍的图表,对方用什么概念,取决于他想要使用什么结论。
  5. 军队宣称自己的死亡率低于社会死亡率,并以此作为征兵广告词,这难道这的说明待在军队更安全吗? 当然不是了,原因是军人都是壮年,死亡率低但都不是正常衰老死亡,和社会的整体死亡率完全是两码事。
  6. 某种疾病的发病率在某一年、某一地区突然暴增,真的说明疾病蔓延? 有可能是统计方式变化,将之前没有归入的案例列入,等等。

2019-5
这一章的“相关性”和《统计学的世界》第一部分的的“度量”一章观点有联系,我们在相关性上的错误,大都是因为“度量”的准确性和有效性不足,也就是我们所使用的数据不能真正衡量我们想要分析的结论。
比如例子中使用车祸数量来说明早晨与晚上开车哪个更安全,明显是强加“数量”和“安全性”的相关性,实际上并非如此。

第八章 因果颠倒

关键词: 因果关系,先后顺序

第七章介绍逻辑上的相关性强弱,避免一些相关性很差的推理,第八章介绍的则是时间上的相关性

很多人都习惯于认为:只有两件事情有相关性(有联系),它们就存在因果关系。 但实际上相关性和因果关系差别很大。

主要内容:
(1)将时间先后发生关系视为因果关系,这也是复杂系统中的“时间序列问题”,这是一个非常经典又古老的谬误。 比如经常说抽烟的人学习成绩更差,但有可能是因为成绩差所以采取抽烟呢。 比如吃饭后闹肚子,就先考虑是不是食物变质。(合理的推测,但是要警惕可能出现错误)
(2)除了因果颠倒,还可能是两个先后发生的事件都是第三个事件(潜在因素)的结果,比如性格内向的人容易成绩差,性格内向的人容易抽烟。

(3)有些相关性是有精确数据支持的因果关系,但是很多相关性并不是因果关系。这里有三种可能

  • 比如纯粹的机缘巧合和运气,尤其是样本量小导致的极端结果(小数定律)。
  • 比如“协变关系”,两个事件互为因果或者不能确定谁是因谁是果,比如收入高低和股票持有量的关系
  • 第三种情况是,两个事件之间不存在因果关系,但是确实存在某种相关性。 类似的相关性结论经常被拿来作为因果关系忽悠大众。
    (4) 要注意相关性存在适用范围,超出了适用范围,就没有相关性了,注意不要走极端
    (5)社会科学的很多相关性,并不像自然科学中那样确定性,即使两个事件相关,也不能排除其他相关性的存在,这就像整体正确和局部极端的关系。 比如整体上,受教育程度高收入也高,但是我们很容易找到相反的案例。 这就是统计学中的“结论精确程度的问题”。

几个例子:

  • 上大学和女性单身存在相关性,但是上大学就是原因吗,有没有可能是倾向于保持单身的女性更愿意上大学?
  • 某医学文章指出,爱喝牛奶的一些国家和地区有更高的癌症患病率,这是否是因果关系, 更有可能是,喝牛奶地区的中老年居多而已
  • 在一个海岛上,人们认为身上长虱子才更健康,体弱者身上没有虱子。但实际原因可能是,发病时比如体温升高,虱子难以生存而跑掉。了,所以因果就颠倒了。

备注:记得在某一本书介绍相关性,使用相关系数定量分析两个变量的关系。1是100%相关,0是完全不相干。大部分概率情况是介于0-1之间,强相关也不是100%相关,所以避免绝对化思维。

第九章 如何操纵统计

主要内容:统计操纵,利用统计数字传递错误信息。
这一章的内容是前面几章内容的应用,本章汇总介绍了很多数据操纵的例子。
常见的小伎俩:地图,平均值(不同的平均值,再加上错误的概念定义),小数点(更多的小数点让人感觉结果更准确),百分比,等等。

几个例子:

  • 平均值的误用和滥用,比如国家的平均收入使用的是中位数,而某基金会弄出一个“虚拟家庭”单位,家庭收入是均值乘以家庭数目,如此一来,多生孩子就可以大幅提高家庭平均收入。

  • 小数点的滥用: 用更多的小数点来表达更准确的数据,比如78.1就比78要看起来精确,给人一种精确感的错觉。 这也是化学实验中需要注意的,用0.00位的天平秤量不能得到9.125g段精确结果。
  • 百分比的滥用: (1)根据小规模样本得出的百分比都具有误导性,比如4.9%的小区居民的周工资是2美元,实际上这4.9%只是两个人。 (2)注意百分比的基数是谁,比如公司利润率的计算有多种方法,不指明方法就会出生误解,比如成本10元的商品售价100元,利润可以是900%也可以是90%。(3)注意不同百分比之间的基数不同,不能直接对比和加减,一个典型的例子是,商品先涨价20%再降价20%,最终价格并非没有变化;一件商品先打5折,再打2折,并不意味着总共优惠了7折: 树木成本低提高10%,工人工资上涨10%,并不代表图书出版成本低提高了20%!

第十章 如何反驳统计数据

本章给出五个问题,有点像《创新算法》中所说的“先导问题”。看到报纸、广告、电视上的统计数据、结论时,通过逐一检查这五个问题,从而发现可能的统计陷阱。

是谁这么说?

通过分析主角,了解是否存在主角产生的数据偏差,也就是判断是否利益相关。
数据偏差又包括有意识的偏差,比如实验室做实验只选择达到想要结果的数据,比如故意使用坐标局部放大的图片,比如故意选择有利于正面结论的平均值; 数据偏差也可能来自于无意识偏差,比如“引用专家观点”,结果让读者下意识受到权威的影响。

他怎么知道–数据是怎么来的?(数据的收集过程)

第二个问题是关注数据的收集过程是都有偏差, 最典型的就是抽样调查的准确性。 比如民意调查是否覆盖了所有人,如果打电话调查,那些没有电话的人就没办法覆盖,如果每天上午十点打家庭座机电话,上班的人就无法覆盖,诸如此类。
样本覆盖不全,是否有幸存者偏见(忽略了另外一大部分人群,沉默的样本,“没有返航的飞机”),统计量太小,等等,都是数据不够完整的情况。

漏掉了什么–描述性语言遗漏了什么

统计表达是一种“描述性语言”,描述过程就遗漏了大量的信息,所以第三个问题是,询问统计数据还需要哪些数据支撑。
比如只说平均值是多少,没有告知平均值的类型(均值,众数,算术平均)。
比如缺乏比较就下结论(分析的本质是对比),或者让读者和某些常识、默认假设比较,这些比较是否合理。 比如前面讲到一个例子,军队分析自己的死亡率低于社会平均的死亡率,解释强调入伍很安全,这其实就是典型的错误比较。
比如使用百分比却不提供绝对数, 学校33%的女学生嫁给了学校老师,但实际上学校只有三个女生,其中一个女学生嫁给了老师而已。

有人偷换了概念吗?–

本来讨论A和B,但是中途被人偷换概念,变成了讨论C和B,从而得到看似正式的结论。
比如一些看似看似相关的关系,例如用病人数量说明疾病大爆发,实则是检测手段或评判标准的升级让更多人被诊断; 比如每个公司都说成**行业的第一名,实则各用各自的评判标准。 等等

这是否合乎情理?

避免一些常识性的统计错误,比如用简单外推法(线性思维)进行预测。

2019-2-20 地铁更新第六七章
2019-3-15 地铁上更新第8章读书笔记
2019-4-1 地铁上更新第九章读书笔记
2019-5-11 done,发表,下次反刍堵住笔记时,快速浏览一下纸质书!