分组柱状图
什么是分组柱状图?
分组柱状图(又名簇状柱状图、多系列柱状图)扩展了条形图,它为两个分类变量的水平绘制数值,而不是一个。柱子按位置分组,表示一个分类变量的水平,颜色则表示每个组内的次要分类水平。
上方的分组柱状图比较了四位销售代表一年内每个季度的收入。每个季度绘制一个柱簇,每个簇中包含每位代表的柱子。每个簇内的颜色和位置保持一致:例如,我们可以看到肯特始终用蓝色表示且排在首位。从图表中可以看出,林肯在 Q1 表现最佳,而肯特在其余所有季度表现最佳。我们还可以查看个人表现,例如默西在全年相对稳定的业绩,或约克在 Q1 至 Q3 下滑后 Q4 的显著增长。
什么时候应该使用分组柱状图
与标准柱状图一样,分组柱状图用于展示数据点的分布或在不同数据类别之间进行比较。分组柱状图与标准柱状图的不同之处在于,它将数据点分配到两个不同的分类变量中,而不仅仅是一个。当你想要查看第二个分类变量在每个第一个分类变量的级别上的变化,或者想要查看第一个分类变量在第二个分类变量的不同级别上的变化时,就应该使用分组柱状图。我们将第一种类型的比较称为“组内”比较,将第二种类型的比较称为“组间”比较。在上面的示例中,组内比较将关注单个季度的柱状图,而组间比较将关注季度中单个代表性柱状图。
为了便于这些比较,分组柱状图中的柱子是系统性地绘制的。对于组内比较,主要分类变量的水平决定了柱子簇的绘制位置。每个组中绘制的柱子数量等于次要分类变量的水平数。通过为每个组中绘制的每个次要变量的水平选择一致的颜色和顺序,可以辅助进行组间比较。
值得指出的是,分组柱状图并不适合比较单个分类变量不同水平上的总计。由于分组柱状图中没有用于组总计的原生元素,读者需要花费大量工作来估算任何分类水平的总计,无论是主要还是次要。如果比较分类变量的总计很重要,那么标准柱状图或堆叠柱状图等其他图表类型将更适合执行这项任务。
分类变量的顺序
创建分组柱状图时需要考虑的一个重要因素是确定两个分类变量中哪一个将成为主要变量(决定每个柱状簇的轴位置),哪一个将成为次要变量(决定每个簇中绘制的柱状数量)。可以根据领域知识和关于要绘制的分类变量的信息来决定哪个更重要,从而将其选为主要变量。
表示时间数据的分类变量(例如 20XX-1 月、20XX-2 月、20XX-3 月等月度汇总)通常会是主要分类变量的明显选择。对于像性别或国家这样纯粹的分类变量,如果它们的级别数量较少,我们倾向于将它们设置为次要变量:级别越多,我们需要的不同颜色就越多,区分它们可能就越困难。另一方面,其他数值变量,如年龄范围(18-24、25-34、35-44 等)或排名分数(1-7 分制上的同意程度),可以很好地作为次要变量,因为我们可能更关注值的连续分布,而不是精确识别各个级别及其值。
不可避免地,即使考虑了领域知识和可视化目标,仍然会有没有明显选择如何设置你的分类层次的情况。尝试两种变量顺序并没有坏处,看看哪种顺序能更好地传达数据。
数据结构示例
QUARTER | KENT | LINCOLN | MERSEY | YORK |
---|---|---|---|---|
2020-Q1 | 44 700 | 52 800 | 43 500 | 38 800 |
2020-Q2 | 45 000 | 36 500 | 41 000 | 34 100 |
2020-Q3 | 51 200 | 44 200 | 39 700 | 27 000 |
2020-Q4 | 56 500 | 45 300 | 41 200 | 48 900 |
分组柱状图的通常以表格形式提供,如上图所示。第一列表示主要分类变量的水平,而第二列及后续列对应次要分类变量的每个水平。单元格中的数值变量表示每个柱子的高度;柱子按行绘制以生成柱组。
使用分组柱状图的最佳实践
分组柱状图的最佳实践原则与标准柱状图一致,但由于存在次要分类变量,需要做一些调整。
保持零基线
添加簇状柱实际上对我们在柱状图中包含零基线原则没有影响。与基础图表一样,基线使得柱子的长度与其编码的值保持一致。
类别级别的排序
将条形图按从大到小的顺序排列的原则(除非它们本身具有固有顺序),同样适用于簇状条形图,也适用于基本条形图,但需要稍加考虑如何确定“最大”到“最小”的顺序。大小判断应基于每个类别变量单独进行,忽略其他感兴趣类别变量的划分。这对次要类别变量尤其重要:跨组保持条形图的一致顺序通常比在每个组内按从大到小排序更有帮助。然而,后者(组内排序)确实有使用场景,例如当关注跨越时间的主要变量的排名时。
选择有效的颜色
在标准条形图中,通常的规则是保持所有条形颜色相同,但在分组条形图中,颜色选择成为区分次要分类变量层级的关键部分。这里要做出的重要选择是选择一个与次要变量类型相匹配的调色板:对于纯分类变量选择定性调色板,对于具有内在排序的分类变量选择顺序或发散调色板。
常见的分组柱状图选项
水平分组条形图
与标准条形图一样,分组条形图可以使用垂直条形(水平轴上的主要类别)或水平条形(垂直轴上的主要类别)生成。水平方向提供了与标准条形图相同的好处,为长主要类别标签提供了额外的空间,而无需旋转或截断。
值注释
为分组条形图添加条形长度注释的效果几乎与标准条形图一样好。虽然注释仍然可以帮助读者像以前一样精确地确定值,但由于通常需要绘制更多的条形,因此注释在分组条形图中的视觉杂乱程度会更高。
显示总和的附加组件
如前文所述,分组条形图通常不会包含任何显示主要或次要分类变量总和值的元素。为主要分类变量添加总和值的一种方法是在每个组后面添加一个大的条形,或在每个组上方添加一个折线图组件。然而,这可能会大幅增加绘图的高度,尤其是在有大量次要条形时。总的来说,如果对总和感兴趣,建议使用单独的绘图而不是试图将所有内容都强制放入一个绘图内。
分面条形图
一个看起来像分组柱状图的用例是将主要分类变量替换为多个不同的指标。由于每个指标可能有不同的坐标轴尺度,每个指标通常会拥有自己的坐标轴。实际上,这种图表只是将多个标准柱状图并排放置(即标题中的分面),但柱状图的着色赋予了图表强大的功能。分组柱状图类型所选择的柱状图着色和排序强调组内比较,这比将每个子图独立考虑时效果更好。
相关图
折线图
当主要分类变量是连续性质时,尤其是涉及时间时,可以考虑使用折线图作为有用的替代图表类型。当主要分类变量有很多级别时,折线图特别有用:在各个位置聚集许多条形图会使图表难以阅读。折线图通过垂直排列每个子组,并通过点之间的连接线使追踪每个子组的变化变得更容易。
堆叠条形图
如果我们修改一个分组柱状图,使得对于每个主要组,我们将柱子首尾相接堆叠,而不是并排排列,那么结果将是一个堆叠条形图 。每个主要柱子的总长度将与次要类别不存在时相同,因此堆叠柱状图强调主要类别级别的总和以及每个次要类别级别的相对部分对整体贡献。这种图表类型的权衡在于,现在比较主要类别级别之间的子类别变得更加困难。
热力图
如果我们想象条形图具有深度,我们可以想象改变我们的视角从上方观察它们。如果我们还调整分组,使它们形成条形图的矩阵,我们本质上就会得到一个热力图。热力图就像带有颜色增强模式检测和趋势识别功能的表格。尽管热力图需要注释才能像分组条形图一样轻松读取数值,但它们也非常紧凑,并且有其他更广泛的应用。
子弹图
子弹图或子弹图是一种在商业环境中用于跟踪性能指标与其目标的专用条形图。一个细长的条形表示实际指标值,而较大的条形和其他标记表示目标值和其他基准。在某种程度上,这就像一个簇状条形图,其中次要分类级别是真实值、目标和基准,但以特定的重叠方式绘制。由于子弹图只有一个“真实”数据值,它是一种快速直观进行比较判断的紧凑方式。
可视化工具
分组柱状图是可视化工具中非常常见的一种选项。根据所使用的工具,分组柱状图可能被设置为专门的图表类型,而其他工具则通过通用柱状图类型来创建分组柱状图。在后一种情况下,分组柱状图可能会与堆叠柱状图一起作为处理次要变量多列数据的选项。
当基本分组条形图不可用时,可以通过叠加多个条形图来创建。这可以通过调整整体条形宽度,并将每个条形系列的相对位置偏移到每个次要类别级别的中心位置来实现。
分组柱状图是用于数据可视化的多种不同图表类型中的一种。您可以通过阅读我们关于数据可视化的基本图表类型、如何选择合适的数据可视化的文章,或浏览图表分类下的全部文章来了解更多信息。