19年读完了这本书,现在2020年3月回顾本书并终于把所有章节的读书笔记整理完毕,也算彻底读完这本书。这儿汇总这本书的读书笔记,并接着机会快速梳理几个部分的关键词,方便自己再次加深理解,以后有机会再继续更新读书笔记。
这本书算是开启我概率阅读的第一本“高知识密度图书”,之前的那本《统计数字会撒谎》只算启蒙了。
关键词:抽样调查,相关性和因果关系,随机,期望值;
统计的关键是抽样,抽样的核心是随机;分析的本质是比较;具体的统计方法论则是显著性检验。
center + spread
抽样调查
抽样调查 有句谚语说:“你不必吃完整头牛,就能知道肉老。”这就是抽样调查的精髓,即通过一部分获知全体的情况。“抽样调查”(sample survey)是一种很重要的观察研究方法。他们只研究目标对象中的一部分人,选中这些人并不是因为实验人员对他们特别感兴趣,而是因为他们具有代表性。
第一部分 产生数据
关键词:抽样调查,实验设计,度量,检测系统,统计陷阱。
从第1章到第8章我们了解到,应该经常问一问数据是怎样产生的,以及具体是怎样测量的。这两方面决定了结论的质量,目的是通过数据获得真相。数字对于那些仔细检视它们的人,最有可能揭示出真相。我们需要培养“数字感”,即检查数字是否有意义的习惯。
抽样调查 有句谚语说:“你不必吃完整头牛,就能知道肉老。”这就是抽样调查的精髓,即通过一部分获知全体的情况。“抽样调查”(sample survey)是一种很重要的观察研究方法。他们只研究目标对象中的一部分人,选中这些人并不是因为实验人员对他们特别感兴趣,而是因为他们具有代表性。
统计推断的第一步,是弄清楚“数据的来源,以及测量系统的情况”,否则就是在错误的前提下进行推理。这就像解决问题理论的一个最基本前提,“问题的本质是什么”,费力解决了错误的问题,还不如什么也不做。
这部分包括,抽样调查(最基本的数据来源方式),如何判断抽样调查过程是否准确,好试验和坏试验(和我最近在学的DOE有很多相似之处!),现实中的一些举例,等,具体见下面两篇读书笔记,我有空再重读并更新。
《统计学的世界》第1部分 产生数据 读书笔记 1/2 2019-4-13
《统计学的世界》第1部分 产生数据 读书笔记 2/2 2020-3-15
第二部分 整合数据(数据可视化)
关键词:图表类型,数据类型,正态分布,相关关系,因果关系,
通过第一部分的“抽样调查”和“实验设计DOE”获得统计数据之后,第二步就是“分析和展示数据”,通过合适的图表等实现数据的可视化,从而获得基本的统计结论,比如数据之间的相关性,进而辅助决策(比如从相关关系进一步分析是否具有因果关系)。
Q1:几种图表类型,何时选择和种图表?
Q2:两种数据类型,分别使用何种图表类型?
Q3:正态分布的基本知识,比如68-95-99.7规则
Q4:两个变量之间通过散点图展示相关关系,如何通过散点分布判断相关性大小,如何计算相关系数并量化相关关系。
Q5:相关关系和因果关系的区别,最容易犯的错误是什么?「《原因与结果的经济学》的三个情况:第三方变量(隐含变量),反向因果,?】
统计数字给出的是相关关系,而我们需要用逻辑来寻找因果关系。
《统计学的世界》第2部分整合数据 读书笔记1/2 2020-03-08
《统计学的世界》第2部分整合数据 读书笔记2/2 2020-03-10
第三部分 机会与概率
关键词:随机,概率模型,统计模拟,期望值
这一部分是更进一步的“统计基础知识”,上面的四个关键词,每一个都相当重要。
随机:随机事件,比如掷骰子。
概率模型:一些最常见的随机事件组合,对应常见的概率模型,比如正态分布模型,比如更基础的概率=1/6的掷骰子模型(均匀分布),这些常见的模型帮助我们快速的理解事情的运行规律。
统计模拟:相对复杂的事件,难以用基础概率模型去分析,比如连续掷骰子三次,三个数字都是奇数的概率。这种情况就需要进行统计模拟,自己建立模型并进行随机运算,从而得到相应的概率。很多我们用excel就能搞定。 用模拟代替行动,建立随机模型和模拟是一种科学工具!
期望值:什么是期望值,如何利用期望值决策,比如是否应该买彩票等。简单又超级实用的统计工具!
《统计学的世界》第3部分机会与概率 读书笔记-1 2019-2-11
《统计学的世界》第3部分机会与概率 读书笔记-2 2019-2-20
第四部分 统计推断
关键词:置信区间,显著性检验,双向表,卡方检验。
有了前三部分的基础,这一部分介绍更实用和有价值的统计推断,这是“科学工作者”重要又基础的工具,也是学习DOE和6 sigma的基础知识。
说实话,工作这几年一直对统计推断尤其是p值和显著性检验似懂非懂,工作中一直有接触,但是又不敢确定我的理解是正确的,就像很多人都说“结果显著”或“没有显著性差异”,但是却并不了解“显著”的本质,我自己更是忘了卡方检验和t检验到底代表什么,上学的时候真是狼吞虎咽,只会做题考试,不会灵活运用。
我也是仔细研究这一部分,才真正弄清楚了p值的含义(p=0.05,代表单纯因为随机性得到我们观察到的结果的概率是5%,我们选择接受这5%的“小概率事件”,从而认可我们观测到的结果),
置信区间:正态分布之中,选择一个平均值附近的波动范围,作为可以接受的区间。
置信区间对应几个标准差。
可以用置信区间的概念,反映抽验结果代表整体的可能性。
样本标准差计算公式:
置信区间和显著性检验是相似的,
显著性检验是先建立零假设(认为不存在预期的结果),然后计算出零假设成立的概率,因为概率很低,比如<0.05,进而推翻零假设,选择“备则假设”(alternative hypothesis),并根据计算的概率说明是“显著”还是“非常显著”。
书中的两个经典例子,都是基于显著性检验进行统计推断:
(1)现煮咖啡是否比速溶咖啡好喝?
区分现煮咖啡和速溶咖啡的可能性, 类似于另外一本书的牛奶咖啡先加牛奶和后加牛奶有没有区别,给50个人各两杯进行判断, 假设有36人喜欢现煮咖啡,请问这样是否可以推翻假设,即人们无法区分现煮咖啡和速溶咖啡。
(2)布冯伯爵抛硬币
布冯伯爵抛了4040次硬币,有2048次正面朝上,问这枚硬币是否是正常硬币?
上面的统计推断针对的是“数值变量”,而双向表则针对的是“类型变量”,比如男女,专业,是否上大学,等等。
卡方检验是一种特殊的“显著性检验”,只不过对应的不是正态分布,而是特殊的卡方分布,需要通过查表找到相应条件下的概率。
《统计学的世界》第4部分统计推断 读书笔记-1 2019-3-17
《统计学的世界》第4部分统计推断 读书笔记-2 显著性检验 2019-3-21
《统计学的世界》第4部分统计推断 读书笔记-3 双向表 2019-5-28
2020-03-21 整理本文,重读各章节读书笔记,1 hour