峰度
峰度(英语:Kurtosis),亦称尖度,在统计学中衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。
定义[编辑]
总体峰态系数定义为:
- <math>\frac{\mu_4}{\sigma^4},\! </math>
即四阶标准矩,其中<math>\mu_4</math>是四阶中心矩,<math>\sigma</math>是标准差。
在更通常的情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3:
- <math>\gamma_2 = \frac{\kappa_4}{\kappa_2^2} = \frac{\mu_4}{\sigma^4} - 3</math>
这也被称为超值峰度(excess kurtosis)。“减3”是为了让正态分布的峰度为0。
假定<math>Y</math>为<math>n</math>个独立变量之和,且这些变量和<math>X</math>具有相同的分布,那么:<math>\mathrm{Kurt}[Y] = \frac{\mathrm{Kurt}[X]}{n}</math>, 但如果峰度被定义为:<math>\frac{\mu_4}{\sigma^4}</math>,公式可变得更加复杂。
更一般地说,假定<math>X_1,\ldots,X_n</math>为方差相等的独立随机变量,那么:
- <math>\operatorname{Kurt}\left(\sum_{i=1}^n X_i \right) = {1 \over n^2} \sum_{i=1}^n \operatorname{Kurt}(X_i),</math>
而定义中如果不包含“减3”就无法成立。
如果超值峰度为正,称为高狭峰(leptokurtic)。如果超值峰度为负,称为低阔峰(platykurtic)。
样本峰度[编辑]
对于具有<math>n</math>个值的样本,样本峰度为:
- <math> g_2 = \frac{m_4}{m_{2}^2} -3 = \frac{\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^4}{\left(\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2\right)^2} - 3 </math>
其中<math>m_4</math>是四阶样本中心矩,<math>m_2</math>是二阶中心矩(即使样本方差),<math>x_i</math>是第<math>i^{th}</math>个值,<math>\overline{x}</math>是样本平均值。注意此处计算方差的时候除数是<math>N</math>,而不是单独计算样本方差的<math>(N-1)</math>。
有时候也使用公式:
- <math> D = {1 \over n} \sum_{i=1}^n{ (x_i - \bar{x})^2} </math>,
- <math> E = {1 \over n D^2} \sum_{i=1}^n{ (x_i - \bar{x})^4} - 3 </math>
其中,<math>n</math>为样本大小,<math>D</math>为事先计算的方差,<math>x_i</math>为第<math>i</math>个测量值,<math>\bar{x}</math>为事先计算的算术平均数。
在一些统计软件中,其公式有所差别。如EXCEL,计算样本的峰度公式如下:
- <math> \text{Kurtosis} = {n(n+1) \over (n-1)(n-2)(n-3)}\sum_{i=1}^n({x_i-\bar{x} \over \text{StDev}})^4 - {3(n-1) ^2\over (n-2)(n-3)} </math>
参见[编辑]
参考资料[编辑]
- Joanes, D. N. & Gill, C. A. (1998) Comparing measures of sample skewness and kurtosis. Journal of the Royal Statistical Society (Series D): The Statistician 47 (1), 183–189. doi:10.1111/1467-9884.00122
- Are the Skewness and Kurtosis Useful Statistics? (页面存档备份,存于互联网档案馆)