0%

【书摘】赤裸裸的统计学

人们喜欢看到简单的答案。什么是最好的?当然是第一名。


更新历史

  • 2017.04.24: 完成初稿

我们所能收集的数据以及所能进行的实验的种类总归是有限的。

我们运用最好的数据、理论和资源来进行统计分析,但这一过程并不等同于加法或除法,正确的技术不一定能够得到『正确的』答案,电脑也不一定比人脑更加准确和无懈可击。数据总是想要高速我们一些信息,但是面对这些信息,聪明又诚实的人经常有不同的看法。

如果一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的。

将一系列复杂的信息浓缩成一个数字,我们可以因此对原先无法展开简单比较的事物进行排名,但不同的浓缩方式可能会得到不同的结果。

使用统计学来描述复杂现象的这一过程并不是精确无误的,这就为掩盖真相创造了大量的空间。

即使是最为精确和精密的描述性数据,都有可能面临一个根本性的问题:缺乏清晰度,不知道我们到底要定义、描述或解释什么。

在某些时候,统计学的功能仅仅是让数据看上去更顺眼。

人们喜欢看到简单的答案。什么是最好的?当然是第一名。

相关系数是很好的统计指标。

作为消费者,你应该知道,从长远来看,保险并不能为你省钱。从统计学的角度来看,购买保险是一项『糟糕的投资』,因为平均来看,你支付给保险公司的钱永远要比得到的赔付多。

常见的与概率有关的错误、误解和道德困境:

  • 想当然地认为事件之间不存在联系
  • 成群病例的发生(事情有的时候真的就是这么巧)
  • 检方谬误
  • 回归平均数(或趋均数回归)
  • 统计性歧视

每一项重要的研究成果都离不开优质数据的默默支持,让分析成为可能。我们需要避免常见的偏见:

  • 选择性偏见
  • 记忆性偏见
  • 幸存者偏见
  • 健康用户偏见

中心极限定理是许多统计活动的『动力源泉』,其核心要义是,一个大型样本的正确抽样与其所代表的群体存在相似关系。一些推理:

  1. 如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况。
  2. 如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就呢个对其所代表的群体做出令人惊讶的正确推理。
  3. 如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。
  4. 如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。

统计推断与假设检验:并非绝对可靠的魔法,但对于认识这个世界来说,作用是巨大的。

回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。也就是说,我们能够在保持其他变量效果不变的情况下,将某个变量的效果分离出来。

只有当变量之间的关系为线性时,回归分析才可派上用场。

在一个回归方程式中,假如两个或两个以上解释变量彼此之间高度相关,那么回归分析的结果将有可能无法分清每一个变量与因变量之间的真实关系。

假如变量过多,尤其当无关变量过多的时候,回归分析的结果就会被冲淡或稀释。