零、数据描述的数值方法

  1. 集中趋势
    给出一组数据,具体向谁靠拢,分布在谁的附近
    具体指标:
    • 均值
    • 中位数
    • 众数
  2. 离散程度
    数据的分布情况,是松散分布的,还是紧密分布的
    具体指标:
    • 极差
    • 方差
  3. 分布的形状
    数据大概的形状
    具体指标:
    • 偏度
    • 蜂度

一、集中趋势

一组数据向其中心值靠拢的倾向和程度

  • 集中趋势测度:
    寻找数据的水平代表值或中心值
  • 具体指标
    1. 均值
      是指在一组数据中所有数据之和再除以数据的个数,是反映数据集中趋势的一项指标
      • 数学表达式:
    2. 中位数
      又称中值,对于有限的数集,可以通过把所有观察值按高低拍寻后找出正中间的一个数字作为中位数
      注:如果观察值有偶数个,通常取最中间的两个数的平均值作为中位数
    3. 众数
      一组数据中出现次数最多的数
      注:一组数据中可能存在多个众数,也可能不存在众数;众数不仅适用于数值型数据,队医枫树执行数据也适用
  • 均值、中位数、众数优缺点
优点 缺点
均值 充分利用所有数据,使用性强 容易受到极端值的影响
中位数 不受极端值影响 缺乏敏感性
众数 当数据具有明显的集中趋势时,代表型号;不受极端值的影响 缺乏唯一性:可能有一个,可能有两个,也可能一个也没有

二、离散程度

反映各变量值远离其中心值的程度

  • 具体指标
    1. 极差
      最大值-最小值,简单的描述数据的范围大小,但是直用极差衡量离散程度存在不足
    2. 方差
      描述一组数据离散程度的度量。用来计算每一个变量于总体均数之间的差异
      表达式:
      注:Xi表示数据集中第i个数据的观察值,miu表示数据集的均值
    3. 偏态
      数据分布的不对称性
      • 偏态系数:对数据分布的不对称性(偏斜程度)的测度
      • 偏袒系数有多种计算方法,通常采用以下公式:
      • 左偏分布(负偏分布)
        偏态系数SK<0,偏态系数的绝对值越大,偏斜约严重
      • 对称分布
        偏态系数SK=0
      • 右偏分布(正片分布)
        偏态系数SK>0,偏态系数的绝对值越大,偏斜约严重
    4. 峰度
      数据分布的扁平和尖峰程度
      峰度系数:数据分布峰度的度量值,读数据分布尖峰或扁平程度的测度,用K表示。
      通常采用以下公式计算:
      • 扁平分布
        峰度系数K<0,与正太分布相比该分布一般为扁平、瘦尾,肩部较胖
      • 尖峰分布
        峰度系数K>0,与正太分布相比该分布一般为尖峰、肥尾,肩部较瘦