统计学中各类指标详解
Author:zhoulujun Date:
统计学中的 最大值、最小值、方差、平均数、平均数、几何平均数这些初高中都学过。
平均数系列
算数平均数:mean
所有数值加起来,然后除以数值的个数

算术平均是特征工程中最常用的指标之一,表示一组数据的总和除以数据的个数,反映了一组数据的平均水平或集中趋势。当样本中出现极端值的时候,算术平均数并不是一个很好的度量。切身体会就是每年我总是被人均工资,人均收入平均一下,很伤。
几何平均数:geometricMean
几何平均数适用于计算一组正数的平均值,尤其是当这组数以相乘的方式组合,再开根号

年均增长率的平均就是几何平均,还是因为这个计算是在乘法法则上面的。
调和平均数:harmonicMean
调和平均数是倒数的算术平均数的倒数,适用于计算比率的平均值。

调和平均往往用在两个比率的量纲不一致的情况,比如路程一定的情况下,去程和返程的平均速度就不能用简单的算术平均来做了。
平方平均(Quadratic Mean)
平方平均数也称为均方根(Root Mean Square, RMS),它是每个数值的平方的算术平均数的平方根。

均方根最重要的就是先对数据进行了平方。所以核心就在于平方的优势。取平方有两个好处,第一个是恒正值,第二个能够放大差异。RMSE应该是机器学习最常见的损失函数形式之一了,统计衡量残差来计算损失,计算梯度啥的性质非常好。
上述四种平均数的几何意义
平方平均数AD >= 算术平均数OD >= 几何平均数AE >= 调和平均数EF

中位数:median
需要先将一组数据从小到大排列,然后根据数据的个数是奇数还是偶数来确定中位数。
如果是奇数个数据,中位数就是中间的那个数;如果是偶数个数据,中位数就是中间两个数的平均值。
中位数不易受一组数据中极端数值的影响,常用它来描述一组数据的集中趋势。
假设比尔•盖茨和十几个穷人在一个房间里,这个房间里十几个人的平均收入就都超过亿元。因为比尔•盖茨和穷人的收入差距过大,导致平均数值缺乏实际参考意义。但如果用中位数来衡量,就知道这房间里起码有一半人是穷人,有助于了解普通民众的收入水平。
中位数也有局限性,主要是中位数不能推算总量和结构。
比如我们要核算居民消费总量时,需要居民消费的平均数与人口规模相结合。

四分位数:quartile
中位数是分位数中最简单的一种,它将数据等分成两分。
四分位数(quartile)则是将数据按照大小顺序排序后,把数据分割成四等分的三个分割点上的数值。
即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
四分位数的位置一般为 
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。

十分位数(deciles)是将数据按照大小顺序排序后,把数据分割成十等分的九个分割点上的数值;百分位数(percentile)是将数据按照大小顺序排序后,把数据分割成一百等分的九十九个分割点上的数值。
上面这些简单,都可以用工具计算:https://ava.antv.antgroup.com/api/data/statistics
加权平均(Weighted Mean)
加权平均数是考虑了每个数值的重要性或权重的平均数。

常见的期望公式就是加权平均
其他的加权平在机器学习中用的就太多了,CNN的卷积核,Attention的
也是都是加权平均的思想。后面可以展开来说说。
移动平均(Moving Average)
移动平均数是用于分析时间序列数据的一种方法,它通过计算一定时间段内的数据的平均值来平滑短期波动,展示长期趋势。
简单移动平均(Simple Moving Average, SMA)的公式如下: 设Mt是时间点的移动平均值,p是移动平均的周期,其中St是时间点t的实际值。

移动平均在时间序列上的分析用的非常多,窗口就是对应的时间周期。K线图中经常见到,搞股票技术流的应该非常熟悉,譬如江恩操作心法。
移动平均衍生还有加权移动平均,其中指数移动平均EMA在提升深度学习性能方面还挺常见的。
方差:variance
方差用于衡量随机变量或一组数据的离散程度,方差在在统计描述和概率分布中有不同的定义和计算公式。
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度;
统计中的方差(样本方差)是每个样本值与全体样本均值之差的平方值的平均数,代表每个变量与总体均值间的离散程度。
总体方差
总体方差,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差!
先算总体均值

再算总体方差

样本方差

标准差:standardDeviation
标准差也被称为标准偏差,在中文环境中又常称均方差,是数据偏离均值的平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度,只是由于方差出现了平方项造成量纲的倍数变化,无法直观反映出偏离程度,于是出现了标准差,标准偏差越小,这些值偏离平均值就越少,反之亦然。

标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集。
比如,一个人的身高和体重是否存在一些联系。
协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义,来度量各个维度偏离其均值的程度!
协方差covariance
协方差在概率论和统计学中用于衡量两个变量的总体误差。
而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差的计算过程如下:
假设我们有两个变量X和Y,并有以下数据:
X = [1, 2, 3, 4, 5] Y = [2, 4, 6, 8, 10]
步骤如下:
计算均值:首先,计算变量X和Y的均值。
μₓ = (1 + 2 + 3 + 4 + 5) / 5 = 3 μᵧ = (2 + 4 + 6 + 8 + 10) / 5 = 6
计算差异:计算每个数据点与对应变量的均值之间的差异。
X的差异: (1 - 3) = -2 (2 - 3) = -1 (3 - 3) = 0 (4 - 3) = 1 (5 - 3) = 2
Y的差异: (2 - 6) = -4 (4 - 6) = -2 (6 - 6) = 0 (8 - 6) = 2 (10 - 6) = 4
计算乘积:将每个对应数据点的差异相乘。
乘积: (-2) * (-4) = 8 (-1) * (-2) = 2 (0) * (0) = 0 (1) * (2) = 2 (2) * (4) = 8
计算协方差:将所有乘积值相加,然后除以数据点的数量。
协方差: Cov(X, Y) = (8 + 2 + 0 + 2 + 8) / 5 = 4
协方差可以反应两个变量的协同关系, 变化趋势是否一致。同向还是方向变化。
X变大,同时Y也变大,说明两个变量是同向变化的,这时协方差就是正的
你变大,同时我也变大,说明两个变量是同向变化的
X变大,同时Y变小,说明两个变量是反向变化的,这时协方差就是负的。
你变大,同时我变小,说明两个变量是反向变化的
从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。
更多推荐阅读:https://www.zhihu.com/question/20852004/answer/134902061
均方误差(mean-square error, MSE)
均方误差是反映估计量与被估计量之间差异程度的一种度量,换句话说,参数估计值与参数真值之差的平方的期望值。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。

均方根误差(root mean squared error,RMSE)
方根误差亦称标准误差,是均方误差的算术平方根。换句话说,是观测值与真值(或模拟值)偏差(而不是观测值与其平均值之间的偏差)的平方与观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替。标准误差对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。因此,标准差是用来衡量一组数自身的离散程度,而均方根误差是用来衡量观测值同真值之间的偏差。

均方根值(root-mean-square,RMES)
均方根值也称作为方均根值或有效值,在数据统计分析中,将所有值平方求和,求其均值,再开平方,就得到均方根值。在物理学中,我们常用均方根值来分析噪声。

皮尔逊系数:pearson
协方差是一个反映两个随机变量相关程度的指标,比如,一个人的身高和体重是否存在一些联系。
Pearson相关系数是用协方差除以两个变量的标准差得到的,公式如下:

计算步骤
x=[1,2,3] y=[4,5,6]
计算 x 和 y 的和:∑x 是 x,∑y 是 y.
例如:∑x=1+2+3=6 ∑y=4+5+6=15
乘法 x 和 y 每对
将每对 x 值和 y 值相乘,求出 ∑xy.
xy=[1×4,2×5,3×6]=[4,10,18]
∑xy=4+10+18=32
每个 x 值和 y 值的平方:
求出每个 x 值和 y 值的平方,然后求和得出 ∑x2 和 ∑y2.
x2=[12,22,32]=[1,4,9]
∑x2=1+4+9=14
y2=[42,52,62]=[16,25,36]
∑y2=16+25+36=77
将数值输入皮尔逊公式: 现在,将这些值代入皮尔逊相关公式:
r = (n∑xy - ∑x∑y)/ √[(n∑x² - (∑x)²) * (n∑y² - (∑y)²)]
r = (3 × 32 - 6 × 15) / √[(3 × 14 - (6)²) × (3 × 77 - (15)²)]
r = (96 - 90) / √[(42 - 36) × (231 - 225)]
r = 6 / √[6 × 6]
r = 6 / 6 = 1
衡量两个变量之间线性关系的强度和方向。
虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,例如,现在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的。
为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差除以两个变量的标准差。pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;
具体推荐阅读:https://mindthegraph.com/blog/zh/pearson-correlation/
变异数:coefficientOfVariance
变异数衡量的是单个变量内部的离散程度,而皮尔逊相关系数衡量的是两个变量之间的线性相关程度。
变异系数是测度数据变异程度的相对统计量,用于比较平均数不同的两个或多个样本数据的变异程度,是标准差与其平均值之比。又可称离散系数、标准差系数。

其中,
为变异系数,
为标准差,
为数学期望或平均数。
变异系数也可以表示为样本数据最大最小值之间的变异幅度。通常用百分比表示,取值范围一般在0~100之间,变异系数越大,则说明数据极差越大。
推荐阅读:https://www.stats.gov.cn/zs/tjws/tjbk/202301/t20230101_1912944.html
转载本站文章《统计学中各类指标详解》,
请注明出处:https://www.zhoulujun.cn/html/theory/Mathematics/Statistics/9683.html