条形图
条形图是最基本的图表类型之一,也是探索和理解数据的常用工具。
什么是条形图?
条形图(又名柱状图)将分类特征的数值水平绘制为条形。水平绘制在图表的一个轴上,数值绘制在另一个轴上。每个分类值占据一个条形,每个条形的长度对应其数值。条形绘制在共同的基线上,以便于比较数值。
这个示例条形图展示了不同类型用户在网站上进行的购买数量。分类特征“用户类型”绘制在水平轴上,每个条形的高度对应于每种用户类型的购买数量。从这张图表中我们可以看出,虽然创建账户的新用户的购买数量大约是没有创建账户的用户(访客)的三倍,但两者都远不及重复用户的购买数量。
什么时候应该使用条形图
当你想要展示数据点的分布或比较不同数据子组的指标值时,应该使用条形图。从条形图中,我们可以看出哪些组是最高或最常见的,以及其他组如何与其他组进行比较。由于这是一个相当常见的任务,条形图是一种相当普遍的图表类型。
条形图的主要变量是其分类变量。分类变量取离散值,可以理解为标签。例如包括州或国家、行业类型、网站访问方式(桌面、移动)、访客类型(免费、基础、高级)。有些分类变量具有有序值,比如按大小划分对象(小、中、大)。此外,一些非分类变量可以转化为组,例如按日期聚合时间数据(例如按季度分为 20XX-Q1、20XX-Q2、20XX-Q3、20XX-Q4 等)。这个主要变量的重要点是组别是互不相同的。
相比之下,次要变量将是数值型的。次要变量的值决定了每根条形的长度。这些值可以来自各种各样的来源。在最简单的形式中,这些值可能只是简单频率计数或比例,表示数据如何分配到每个类别中——这根本不是实际的数据特征。例如,以下图表统计了六个月的页面浏览量。从这种可视化中可以看出,六七月出现了一个小高峰,然后又回到了之前的基线。
有时,这些值可能是一个平均值、总和或其他为每个组单独计算的汇总指标。在以下示例中,每根条形的高度表示按支付方式的平均交易金额。请注意,虽然支票的平均支付金额最高,但要显示客户实际使用支票的频率,则需要不同的图表。
数据结构示例
#### 支付类型 | #### 平均交易额 | |
---|---|---|
核对 | 46.861 | |
信用卡 | 36.681 | |
借记卡 | 28.860 | |
数字钱包 | 18.900 | |
现金 | 4.802 |
以条形图呈现的数据可能以类似于上方表格的紧凑形式出现,其中一列为类别,第二列为它们的值。其他时候,数据可能以未聚合的形式出现,如下方表格片段所示,可视化工具在创建可视化时自动执行聚合。
对于基于计数的条形图,只需要第一列。对于基于汇总的条形图,按第一列分组,然后在第二列上计算汇总指标。
使用条形图的最佳实践
使用一个常见的零值基线
首先,确保所有条形图都是基于零值基线绘制的。这种基线不仅使读者更容易比较条形长度,还保持了数据可视化的真实性。带有非零基线或其他坐标轴刻度间隔的条形图很容易歪曲组之间的比较,因为条形长度之比将不会与实际条形值之比相匹配。
通过在垂直轴上削减90个单位,一个微小的4个单位差异可能会被夸张地看起来像1:3的比例。
保持条形的矩形形状
另一个大忌是弄乱条形图的形状。有些工具允许将条形顶端圆化,而不仅仅是直角。这种圆化意味着读者难以确定实际数值的读取位置:是从半圆顶部,还是从中部?稍微圆化一下角落是可以的,但要确保每个条形足够平坦,以便能够识别其真实数值,并便于条形之间的比较。
同样,你应该避免在条形上添加 3D 效果。与过度圆化类似,这会使测量条形长度变得更加困难,而且,可能会导致基线不对齐(参见上述要点)。
考虑类别级别的排序
在制作条形图时,您需要考虑的一个因素是条形的排列顺序。一个标准的惯例是按从长到短的顺序排列条形:无论顺序如何,始终可以比较条形的长度,但这可以减轻读者自己进行比较的负担。主要的例外情况是,如果类别标签本身在某些方面具有固有的顺序。在这种情况下,固有的顺序通常优先。
区域代码并非天生有序,因此按数值排序是更好的表示方式。
明智地使用颜色
另一个考虑因素是如何在条形图中使用颜色。某些工具默认会以不同颜色显示每根条形,但这可能会通过暗示不存在于实际中的额外含义来分散读者的注意力。相反,使用颜色应有明确目的。例如,你可以用颜色突出特定列以进行故事叙述。如果颜色对类别有实际意义(例如,匹配公司或团队颜色),也可以使用颜色。
左侧的彩虹色对解读图表没有任何意义。右侧,大多数条形图是中性的灰色,以突出两种彩色条形图之间的比较。
常见误用
用图片替换条形图
用图片代替条形图来展示所测量的内容(例如,用一袋袋的钱来表示金额)可能很有诱惑力,但要小心不要因此歪曲数据。如果符号的宽度和高度都随数值变化,那么差异看起来会比实际大得多,因为人们最终会通过比较条形图的面积而不是仅仅比较它们的宽度或高度来进行比较。在下面的例子中,2018年到2019年的下载量增长了58%。然而,这种基于符号的表示方式夸大了这一增长,因为2019年符号的表面积是2018年符号的2.5倍多。
如果你觉得需要用图标来表示数值,那么一个更好——尽管仍然不完美——的选择是使用象形图类型。在_象形图_中,每个类别的数值通过一系列图标来表示,每个图标代表一定的数量。在某种意义上,这就像将其对应的条形图的纹理更改为重复的图像。使用这种图表类型的主要注意事项是它可能使数值更难阅读,因为读者需要做一些心理计算来评估每个类别的相对数值。
常见的条形图选项
水平条形图与垂直条形图
条形图的常见变化在于是否应该垂直排列(类别在水平轴上)或水平排列(类别在垂直轴上)。虽然垂直条形图通常是默认选项,但当面临较长的类别标签时,使用水平条形图是个好主意。在垂直图表中,这些标签可能会重叠,需要旋转或移动以保持可读性;水平方向则避免了这个问题。
如果之前的示例中的条形图是垂直排列的,那么 Team 刻度标签就需要旋转才能被阅读。
包含值注释
条形图常见的一个补充是数值标注。虽然读者通过比较条形长度和从条形图中大致判断数值相对容易,但精确值并不一定容易直接说明。标注可以在重要位置报告这些数值,通常放置在条形的中部或两端。
包含变化范围须线
当数值为汇总指标时,一个常见的考虑是是否在图中包含误差线。误差线是添加到每个条形末端的其他须线,用于指示构成汇总指标的各个数据点的变化范围。由于不确定性的度量方法有很多选择(例如标准差、置信区间、四分位距),因此当您显示误差线时,务必在注释或说明中注明误差线代表什么。
或者,您可能希望使用不同的图表类型(如箱线图 或 小提琴图 )来描绘每个类别的方差。虽然这些图表对读者来说需要解析更多元素,但它们能提供更深入的关于每个组内数值分布的理解。
误差线表示每种支付方式交易金额的标准差。与其它方式相比,信用卡和借记卡的变异性较低。
棒棒糖图
条形图的一种变体是棒棒糖图。它和条形图展示完全相同的信息,但具有不同的美学风格。我们使用的是顶部带有端点圆圈的线条,而不是条形。当有很多类别且它们的值非常接近时,棒棒糖图最为实用。通过改变绘制值的美学形式,可以使图表更容易阅读。
相关图
饼图
如果条形图中的数值代表整体的一部分(条形长度的总和等于数据点数量或 100%),那么你可以考虑使用另一种图表类型,即饼图 。尽管饼图备受诟病,但在类别较少且需要突出部分与整体的关系时,它仍然有其用武之地。不过,通常情况下,你更可能会使用条形图,因为它更容易进行类别间的比较。
直方图
直方图 是柱状图的近亲,用于展示频数值。柱状图的主要变量是分类性质的,而直方图的主要变量是连续且数值型的。直方图中的条形通常紧挨着放置,以强调其连续性:柱状图通常在条形之间留有空隙,以强调主要变量的分类性质。
折线图
对于展示汇总统计数据的条形图, 折线图 是其最接近的亲戚。就像条形图与直方图的关系一样,折线图的主要变量通常是连续的数值型,这一点通过点之间的连续线强调。在折线与零基线之间的区域进行着色,会生成一个 面积图 ,这可以被视为条形图和折线图的结合。
散点图
或者,当我们对分类主要变量有汇总统计数据时,我们可能会选择使用点图,或克利夫兰点图,而不是条形图。点图本质上是没有连接各点的线段的线图。这使得它能够用于分类级别,而不是连续的进程。点图相对于条形图的最大优势在于,数值是通过位置而不是长度来表示的,因此我们不一定需要一个零基线。当条形图的必要基线干扰了对条形图之间变化或差异的感知时,那么线图或点图可以是一个很好的替代选择。
堆叠条形图和分组条形图
当引入第二个分类变量来划分原始分类变量中的每个组时,条形图可以进行扩展。如果条形图的值表示组频率,那么第二个分类变量可以将每个条形的计数细分为子组。应用于原始条形图,这会产生一个堆叠条形图 ,如图下方左侧所示。或者,如果我们把不同的子组的条形移动到基线,得到的图表类型是 分组条形图 ,如图右侧所示。当我们计算两个分类变量不同水平上的统计汇总指标时,我们也使用分组条形图。
可视化工具
大多数能够创建可视化的工具,无论是电子表格、编程库还是商业智能工具,都应该能够创建基本的垂直条形图。有时,需要检查或修改选项以遵循最佳实践。然而,对于基本的数据探索需求,任何工具都应该足够。其他变体,如水平条形图、误差线和注释,可能并不总是可用。特别是,"棒棒糖图"变体通常不被视为默认图表类型,并且通常需要使用程序化工具进行专门的调整。
条形图是用于数据可视化的多种图表类型之一。您可以通过阅读我们关于基本图表类型、如何选择数据可视化类型的文章,或浏览图表分类下的全部文章来了解更多信息。