《统计学的世界》第2部分整合数据 读书笔记1/2

在展示统计数字过程中,也就是使用图表过程中,有很多的统计陷阱。
好的图表可以更好的展示数据的意义,也就是可视化!

几个关键问题:

  1. 数据的两种类型
  2. 如何根据数据类型选择合适的图表
  3. 图表中的常见陷阱
  4. 柱状图和直方图的区别是什么?
  5. 数据分布:中心center和幅度spread

chapter 10 好图表与坏图表

统计学被用于处理数据,图表则被用来展示数据。图表可以帮助我们看清楚数据在说什么,但并非所有图表都能做到这一点。在这一章,我们将学习一些展示数据的基本方法,以及如何评估你在媒体上接触到的图表的质量。
类型变量categorical variable
数值变量quantitative variable

几种常见图表类型:柱状图,扇形图,线图,象形图。
这几种图表的适用情况:

  • 柱状图:比较几组的“数值变量”时,建议用柱状图,比如比较四个国家的GDP,比如三个公司的利润,几个汽车公司的汽车销量,不同学历的人数,不同客户反馈效果的分布等
  • 扇形图:当总和为100%时,使用扇形图pie chart,比如四个季度的汽车销售在全年的占比,比如各个部门的支出情况,比如企业或地区中不同学历的分布情况
  • 线图:当展示数值变量随时间的变化时,使用线图line graph,横坐标是间隔相同的变量,比如时间年份,比如某种添加剂的添加量。 比如油价随时间的变化情况,比如智商随年龄的增长情况,等
  • 尽量不要用象形图! 很容易误导人!容易出现《统计数字会撒谎》中提到的统计陷阱!

以下是同样数据用扇形图和柱状图的表述结果。

扇形图表达整体中各个部分,但是变成柱状图更容易看出两两比较的大小关系,所以尽量用柱状图
柱状图比饼图的适用范围更广。饼图只适用于比较一个整体的各个部分,柱状图适用于比较多个个体的数量。
扇形图

柱状图

类别变量和数值变量
类别变量(categorical variable)用于把个体归类到数个组(group)或数个类别(category)中。
数值变量(quantitative variable)的值是定量的,可以拿来做计算,比如求和或求平均值。
要表示类别变量的分布情况,可以用饼图或柱状图。

常见的统计学错误:
大部分的错误,都在另一本书《统计数据会说谎》读书笔记《统计数据会撒谎》读书笔记 2/2

  • 乱用几个图表,比如该用柱状图的时候用扇形图,或者反之。
  • 数值变量:小心刻度!谨慎的人在看线图时,会很仔细地看横轴和纵轴上标示的刻度。

做好图表的几个原则

•一定要在标示和说明里说清楚,图里面展示的变量是什么、单位是什么以及数据的来源。
•要让数据很醒目。请记住,抓住看图者注意力的是数据本身,而不是标示、格子,也不是背景的图样。你是在画一个呈现数据的图,不是在从事艺术创作。
•要注意眼睛会捕捉到什么信息。避免用象形图,而且要小心选择刻度。也不要用很炫目的“三维”效果,因为那只会让人看得稀里糊涂,而不会增加看图人对数据的了解。考虑一下是不是对图稍微做些改变,从而使信息更清楚。

chapter 11 数值变量的分布图

两种图——直方图和茎叶图。如何绘制这两种图,以及该怎么看懂它们。
Q1:直方图和上一章的柱形图的区别?
A:直方图是将柱状图分组后的结果,因为横坐标是连续的数值变量时,横坐标不方便分得太细,所以按照相同的间隔进行分组,比如10-20岁,20-30岁,30-40岁,以简化图表
A:柱状图既可以用于数值变量,又可以用于类型变量。 而直方图用于展示数值变量的“分组”分布。

Q:什么时候用直方图,什么时候用茎叶图
A:要呈现数值变量的分布可以用直方图或茎叶图。在观察值的个数不多的时候,我们通常喜欢用茎叶图,数量大时才用直方图(数量大时,有分组的必要)。

Q:从直方图中,如何分析数据的意义?
A:整体形态(形状、中心Center和幅度spread)和偏斜(异常值)对于变量分布是非常重要的特征。

chapter12 用数字描述分布

关键词:对称分布和非对称分布,两种分布分别用什么数字描述,箱形图,中位数vs平均数,两种“中心”受极端数据和有偏数据影响的程度,

在这一章,介绍了用于描述分布中心Center和幅度spread的几类数字。
对称分布而言,平均数和标准差可用来描述中心和幅度。
对于非对称的分布,我们使用五数(five number summary)概括来描述:中位数和四分位数——最小数、第一四分位数Q1,中位数M,第三四分位数Q3,最大数。根据一个分布的五数就可以绘制“箱型图(boxplot)

最常用的描述变量分布的方法是平均数Mean和标准差(standard deviation)。
Q:标准差计算公式,标准差的含义?

描述中心center和幅度spread有两种常用方式:五数概括,平均数和标准差。

Q:如何选择两种描述方法(五数表达,mean+SD)
A:平均数和标准差会受异常值或偏斜分布的长尾巴的严重影响,而中位数和四分位数则几乎不受影响。要描述偏斜分布,或者有异常值的分布,五数概括通常要比平均数和标准差更合适。只有在分布的形状大致对称又没有异常值的时候,才用平均数和标准差s。【所以正态分布非常适合用平均数和标准差】

常见统计学错误:

  • 小心两种反映平均的数据:中位数vs平均数
  • 注意两种描述中心和偏差的描述方法的适用范围,使用平均数和标准差描述分布很不均匀的数据,不能客观描述分布情况。【不是所有分布用平均值和标准差都是合适的】
    ## chapter13 正态分布=高斯分布
    正态分布曲线(normal curve)是直方图的精细化版本,直方图进行平滑处理,即直方图的间隔进一步变小。
    正态分布的一些性质,略。
    知道平均数和标准差,就可以绘制出标准曲线。

68-95-99.7规则:68%,95%和99.7%的观察值,落在距平均值1,2,3个标准差的范围!

65-95-99.7规则

68-95-99.7规则的应用:

  • 标准分:观察值距离平均值几个标准差!标准分=(观察值-平均值)/标准差
  • 正态分布的百分位数:

问题:如何计算百分位数?
答案:50%是平均值,68%,95%和99.7%对应于1,2,3个标准差,基于此就可以大概推测百分位数。

2019-6-25 读完第二部分,这样就读完了本书。
2020-03-08 借着学习DOE的机会,最近重新梳理这本书,把这本书没有整理的读书笔记整理出来,并重读这本书读书笔记