《统计学的世界》第2部分 整合数据 2/2

接第二部分的上半部分读书笔记:《统计学的世界》第2部分整合数据 读书笔记1/2

这一部分的关键是如何使用统计数字分析“两个变脸之间的关系”,对我说最关键的还是“相关性和因果关系”,后续通过整理《原因与结果的经济学》读书笔记再加深理解。

关键词:相关系数,回归
关键Q1:相关系数如何计算,相关系数如何反映相关性?相关系数r的平方r2的含义是什么?
关键Q2: 如何绘制回归曲线,原理是什么?
关键Q3: 如何解释相关关系,相关性与因果关系,常见的解释类型是什么?!

chapter14 描述相关关系:散点图和相关系数

关键词:解释变量x,反应变量y,散点图(Scatter plot),相关系数(correlation),

Q:相关系数是什么?
A:描述两个数值变量之间相关关系的方向和强度,同样用符号r表示。

Q:如何从散点图的形态,判断相关性强弱,如何判断异常值。

Q:如何计算两个变量x和y的相关系数,
A:(1)x和y分别的平均值和标准差,(2)变量的标准分,(3)相关系数就是每组标准分的乘积的平均值。

Q:相关系数(-1,-0.5,0,0.5,1,等)表达的相关关系的方向和强度是什么?

chapter15 描述相关关系:回归、预测和因果关系

关键词: 回归(regression),预测,相关系数,相关系数r的平方r2 及其含义,因果关系,

Q:如何拟合曲线,如何绘制回归曲线?
A:垂直方向上距离那个点最近的线性方程,即“垂直距离越小越好”,具体方法是最小二乘法(least squares)。

Q:相关系数的平方,对应的具体含义是什么?
A:代表多少比例的数据可以用拟合曲线的相关关系来解释。
相关系数的大小,反映了回归直线的预测能力!这就是为何要在汇报回归直线时,要同时说明相关系数的平方r2

相关系数的平方r2 的含义?
相关系数的平方r2 ,是y的变异值当中,可以用y对x的线性回归方程式来解释的那一部分所占的比例。

Q:以前总是用excel拟合得到回归直线,然后列出r2=0.999等,实际含义是什么?
A:若 r=-0.7 或 r=0.7 ,则 r2=0.49 ,表明只有差不多一半的变异值可以用线性相关关系来解释

**相关系数和因果关系 **

  • 即使两个变量间有很强的相关性,也不一定意味着改变其中一个变量的值会引起另一个变量值的改变。
  • 两个变量之间的相关性,常常受其他潜在变量的影响。
  • 证明存在因果关系的最好证据,来自随机比较实验

如何解释观察到的相关性?
两个变量之间存在的相关性,可能解释是:存在直接的因果关系,潜在变量的影响(,两者皆有。
以上的相关性的解释,可以参考《原因与结果的经济学》的内容!

图15-5表明如何用变量间的潜在联系来解释相关性。虚线代表变量 x 和 y 之间可以观察到的相关性,一些相关性可由变量间的直接因果关系解释。图 15-5 的第一个图用 x 到 y 的箭头表明“x造成了 y” 。第二个图表示的是共同反应,即 x 和 y 之间的相关性是由潜在变量 z 造成的。这种共同反应即便在 x 和 y 之间没有直接关系的情况下也可以构成相关性。第三个图展示了交叉影响,解释变量 x 和潜在变量 z 可能一起影响了反应变量 y 。变量 x 和 z 之间是相关的,所以无法区分出 z 和 x 各自对 y 产生的影响。
图15-5 相关性的解释

共同反应和交叉影响都包含了潜在变量 z 对反应变量 y 的影响。我们无法区分这两种关系的不同,只能记住,在考虑变量之间的关系时,一个值得汲取的建议是“留意潜在变量。

Q:为什么相关关系很强,却不能说因果关系。
A:答案的核心是潜在变量的存在。因果关系,共同反应,交叉影响。

共同反应和交叉影响都包含了潜在变量z对反应变量y的影响。我们无法区分这两种关系的不同,只能记住,在考虑变量之间的关系时,一个值得汲取的建议是“留意潜在变量”。

chapter 16 居民消费价格指数和政府统计数字

关键词:CPI指数,基期(base period),市场篮子,一篮子物价指数,社会统计
指数都存在一个基准,比如以2000年的工资作为基期,之后每年的工作是2000年的几倍。

问题:如何使用CPI指数比较不同年份美元的购买力?
以购买“一篮子产品和服务”需要的货币,得到不同时期的PCI物价指数。
B时间的美元=A时间的美元*B时期的CPI/A时期的CPI

我们把作为价格追踪对象的全部商品和服务统称为“市场篮子”( market basket ),由此算出的指数被称为“固定市场一篮子物价指数”( fixed market basket price index )。

Q:如何抽样调查CPI(消费价格指数)

20200310 整理本书第二部分2/2读书笔记