使用范围

占用较少空间的优势,这在比较许多组或数据集之间的分布时非常有用

绘制箱线图

确定四分位数

对于四分位数的确定有两种方法,一种是基于「N+1」基础, 另一种是基于「N-1」基础,这里N代表数据的个数。

N+1

EXCEL 的函数 “QUARTILE.EXC” 就是基于此, 这里EXC: Exclusive

  1. Q1的位置=(n+1) * 0.25
  2. Q2的位置=(n+1) * 0.5
  3. Q3的位置=(n+1) * 0.75

实例

结合样本T,计算如下 Step1:数据从小到大排序 {5, 6, 7, 8, 11, 12, 12, 13, 14, 15, 16, 28} Step2:计算Q1 Q1位置 = (12+1) × 0.25 = 3.25 , 数据位于第3和第4数据之间,靠近第3数据 相当于第三,第四数据的权重分别为0.75,0.25 Q1 = 7 × 0.75 + 8 × 0.25 = 7.25 Step3:计算Q2 Q2[中位数]位置 = (12+1) × 0.5 = 6.5 , 数据位于第6和第7数据之间,均匀分布 Q2 =12×0.5 + 12×0.5 = 12 Step4:计算Q3 Q3位置 = (12+1) × 0.75 = 9.75 , 数据位于第9和第10数据之间,靠近第10数据 Q3 = 14 × 0.25 + 15 × 0.75 = 14.75 Step5:计算IQR IQR = Q3 - Q1 = 7.5

绘制

  • 数据用盒子表示
  • 盒子的上下表示Q1和Q3,高度表示IQR
  • 中位数用一条线画出来
  • 胡须Whiskers:框外的两条线扩展到最小值和最大值(通常在1.5xIQR范围内,即非离群点的,Q1-1.5 x IQR, Q3+1.5 x IQR)
  • 异常值:超出正常值的离群点,每个点都要画出来