使用范围
占用较少空间的优势,这在比较许多组或数据集之间的分布时非常有用
绘制箱线图
确定四分位数
对于四分位数的确定有两种方法,一种是基于「N+1」基础, 另一种是基于「N-1」基础,这里N代表数据的个数。
N+1
EXCEL 的函数 “QUARTILE.EXC” 就是基于此, 这里EXC: Exclusive
- Q1的位置=(n+1) * 0.25
- Q2的位置=(n+1) * 0.5
- Q3的位置=(n+1) * 0.75
实例
结合样本T,计算如下 Step1:数据从小到大排序 {5, 6, 7, 8, 11, 12, 12, 13, 14, 15, 16, 28} Step2:计算Q1 Q1位置 = (12+1) × 0.25 = 3.25 , 数据位于第3和第4数据之间,靠近第3数据 相当于第三,第四数据的权重分别为0.75,0.25 Q1 = 7 × 0.75 + 8 × 0.25 = 7.25 Step3:计算Q2 Q2[中位数]位置 = (12+1) × 0.5 = 6.5 , 数据位于第6和第7数据之间,均匀分布 Q2 =12×0.5 + 12×0.5 = 12 Step4:计算Q3 Q3位置 = (12+1) × 0.75 = 9.75 , 数据位于第9和第10数据之间,靠近第10数据 Q3 = 14 × 0.25 + 15 × 0.75 = 14.75 Step5:计算IQR IQR = Q3 - Q1 = 7.5
绘制
- 数据用盒子表示
- 盒子的上下表示Q1和Q3,高度表示IQR
- 中位数用一条线画出来
- 胡须Whiskers:框外的两条线扩展到最小值和最大值(通常在1.5xIQR范围内,即非离群点的,Q1-1.5 x IQR, Q3+1.5 x IQR)
- 异常值:超出正常值的离群点,每个点都要画出来