零基础统计学入门(3):概率与概率分布

概率一词,历史悠久,非常重要。日常生活中,有很多意思与概率非常贴近的词,包括几率、不确定性、运气、命运、可能性、不可预测性、倾向......等等。掌握统计概率常识,网上很多问题可能就不应该被提出来,它们归根结底就是概率问题。

零基础统计学入门(3):概率与概率分布

比如这样的问题:

为什么高考状元,最后都很平庸?
为什么学区房那么值钱,但学历不值钱?
为什么一个清华毕业的,收入还干不过咪蒙?

当然,统计概率知识是推断统计学的基础,也是以后从事数据分析、机器学习、深度学习的基础知识。学会这些知识,可以为我们未来的选择多一个机会,希望大家在学校和工作中,好好学习统计学。

概率

当我们说,

“这个粒子衰变的概率是50%;”

“掷硬币正面朝上的概率是50%;”

“这个手术成功的概率是60%;”

“Trump被弹劾的概率是5%;”

都是什么意思?

这其实是一个非常深刻的哲学问题,一般被称作为"概率的解释"。概率论需要回答的第一个问题就是,什么是概率?

刚接触这门学科的同学可能觉得难以置信,这么一个简单的问题仍然存在着广泛的争论。

对于概率的定义有几个主流的派别:

  • 频率派
  • 古典派
  • 主观派

1、频率派

学习概率从抛硬币开始才是正确的姿势,硬币抛出之后,得到的结果是随机的,那么得到正面的概率是多少呢?不妨扔100次硬币试试:

可以看到,得到48次正面,52次反面,用正面次数除以总的次数:

这就是正面出现的频率,为0.48。从实验的结果可见,随着实验次数n的增大,频率越来越趋近于0.5。可见,虽然单次扔硬币的结果是随机的,但多次重复后频率趋于稳定,这种稳定性也称为频率稳定性,反应了扔硬币存在某种必然性。

2、古典派

古典派的理论基础是不充分理由原则,代表人物雅各布·伯努利(1654-1705):

零基础统计学入门(3):概率与概率分布

就提出,如果因为无知,使得我们没有办法判断哪一个结果会比另外一个结果更容易出现,那么应该给予它们相同的概率。比如:

硬币:由于不清楚硬币哪一面更容易出现,那么应该给予正面、反面相同的概率,即为1/2。

骰子:我们不清楚骰子哪一面更容易出现,那么应该给予每一面相同的概率,即为1/6。

3、主观派

主观派认为概率是信念强度。

如说,我个人相信20年后人类从网络时代进入人工智能时代的概率为70%。

上面说的概率也就是主观概率,是个人对这个命题的信念强度,换句话说我觉得还是很有可能实现的。

虽说是主观概率,其实也有客观的部分,比如刚才对人工智能的判断,就是基于AI的基础设置发展、计算速度的提高等事实。

主观概率更贴近人的思考方式,比如我们在作科学研究时,会先给出一个猜想,这就是给出了一个主观概率。

小结:

为什么概率的定义不明确?可能因为概率本身研究的就是“不确定性”。

零基础统计学入门(3):概率与概率分布

概率分布

回答什么是概率分布之前,先了解下随机变量、数据类型和分布

随机变量是值为一个随机事件的结果的变量,例如,抛硬币的结果或者掷骰子的点数都是随机变量。

数据类型有两种,一种是离散数据,一种是连续数据。离散数据,就是数据的取值不连续,比如抛硬币,就是2种数值,要么是正面,要么是反面。连续数据,正好相反,它能取任意的数值。例如时间,就是一个典型的连续数据,它是无限分割的。

分布,就是数据在统计图中的形状。

零基础统计学入门(3):概率与概率分布

什么是概率分布?概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。根据数据类型不一样,分为离散概率分布和连续概率分布。

零基础统计学入门(3):概率与概率分布

例如,均匀6面骰子的离散概率分布为:

为什么要关注数据类型,因为数据类型会影响求概率的方法。

对于离散概率分布,我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为:p(x=正面)=1/2。

而对于连续概率分布来说,我们无法给出每一个数值的概率,因为我们不可能列举每一个精确数值。

例如,你在咖啡馆约妹子出来,你提前到了。为了给妹子留下好印象,你估计妹子会在5分钟之内出现,有可能是在4分钟10秒以后出现,或者在4分钟10.5秒以后出现,你不可能数清楚所有的可能时间,你更关心的是在妹子出现前的1-5分钟内(范围),你把发型重新整理下(虽然你因为加班头发已经秃顶了,但是发型不能乱),给妹子留个好印象。所以,对于像时间这样的连续型数据,你更关心的是一个特定范围的概率是多少。

当统计学家们开始研究概率分布时,他们看到,有几种形状反复出现,于是就研究他们的规律,根据这些规律来解决特定条件下的问题。

零基础统计学入门(3):概率与概率分布

零基础统计学入门(3):概率与概率分布

现实中,常见的4种概率分布。

1)3种离散概率分布

二项分布 泊松分布 几何分布

2)1种连续概率分布

正态分布

至于以上各种分布是怎么回事,每个分布都可以长篇大论,后期可以就每个分布写一篇文章。

数字特征

也许有人会问“为什么要学习随机变量的数字特征呢?学习过分布,我们经常会碰到这样的问题:

这个分布主要集中在哪个区域?

这个分布是胖还是瘦?

分布是不是对称的?

不对称的话是向左偏还是向右偏?

这些都是通过随机变量的数字特征来体现的,这就是了解随机变量数字特征的意义。

什么是数字特征?要回答这个问题,先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。任一客体或一组客体都具有众多特性,人们根据客体所共有的特性抽象出某一概念,该概念便成为了特征。数字特征是对于数字的一种抽象方式,不同的抽象方式表现数字不同方面的数字特征(如,均值表现平均水平,方差表示离散程度)。从信息的角度来说,特征化(抽象)是压缩信息的一种方式。

常见的数字特征

  • 数学期望(均值)
  • 方差
  • 标准差
  • 相关系数

1、数学期望(均值)

数学期望是随机变量的重要特征之一,随机变量X的数学期望记为E(X),E(X)是X的算术平均的近似值,数学期望表示了X的平均值大小。

当X为离散型随机变量时,并且其分布律为 P(X=xk) = pk   ,其中k=1,2,…,n;则数学期期望:

零基础统计学入门(3):概率与概率分布

当X为连续型随机变量时,设其概率密度为f(x),则数学期望为:

零基础统计学入门(3):概率与概率分布

数学期望反映的是平均水平,通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,个体信息被压缩了,在刻画群体特征的时候,多个数字特征配合才能达到效果。

2、方差

数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征,用来衡量随机变量或一组数据时离散程度的度量。

设X是随机变量,并且E{[X-E(X)^2]}存在,则称它为X的方差,记为D(X)。

当X为离散型时,D(x)为:

零基础统计学入门(3):概率与概率分布

当X为连续型时,D(x) 为:

零基础统计学入门(3):概率与概率分布

方差的算术平方根为X的标准差:

零基础统计学入门(3):概率与概率分布

另外,D(X) = E{[X-E(X)^2]} 经过化解可得 D(X) = E(X^2) – [E(X)]^2  .我们一般计算的时候常用这个式子。

标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。

4、相关系数

相关系数为了衡量两个变量之间的线性相关程度,数值范围处于[-1,1]。

其计算公式如下:

零基础统计学入门(3):概率与概率分布

我们称为X与Y的相关系数。

相关系数|<=1,如等于1,则说明X与Y存在线性关系。若等于0,则说明X与Y不相关,也就是说X与Y不存在线性关系。

PS:以上所有涉及到公式的地方,本文章讲的比较粗糙,建议可以找一本统计学的书籍仔细看看。

我们生活中和工作中有很多数据的分布,如正态分布,平均的占主要部分,极好的和极差的占少数,而且和平均值差别不会特别大,比如身高的分布、智商的分布等等。也有很多事件符合幂律分布,比如收入、股市波动、网站访问量、照片点击量、公众号文章的阅读量。要读懂这些数据的规律,都需要用到统计学的概率和概率分布知识。

所以我觉得要想成为合格的数据分析师,统计学是必须掌握的知识之一。

本文由 新媒体之家 作者: 一个数据人的自留地 发布或转载,其版权均为原作者所有,如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。未经许可,请勿转载,题图来自Unsplash,基于CC0协议。
25

发表评论