区域图
什么是区域图?
区域图结合了折线图 和 柱状图 ,用于展示一个或多个组的数值随第二个变量(通常是时间)的进展变化。区域图与折线图的区别在于增加了线条与基线之间的阴影,类似于柱状图。
这个区域图展示了某虚构网络公司的月度活跃用户数量。每个月的数值不仅可以通过形状顶部的垂直位置来衡量,还可以通过基线与顶部的彩色高度来衡量。在这个图表中,我们可以看到从2019年11月到2020年2月,活跃用户数量大约翻了一番,并且用户增长速率随着时间的推移而增加。
何时使用面积图
虽然上面的示例仅绘制了一条带阴影区域的线,但面积图通常用于使用多条线来比较组(也称为系列)或显示整体如何分为组成部分。这导致出现两种不同类型的面积图,每种用例对应一种类型。
重叠面积图
如果我们想比较组之间的值,就会得到一个重叠面积图。在重叠面积图中,我们从一个标准的折线图开始。对于每个组,在每个水平值处绘制一个点,其高度表示该组在垂直轴变量上的值;一条线连接该组所有点,从左到右。面积图在每条线与零基线之间添加阴影。由于组的阴影通常会一定程度上重叠,因此在阴影中包含了一些透明度,以便所有组的线都能被轻松看到。阴影有助于强调哪个组的值最大,这取决于哪个组的纯色是可见的。
注意,不要让一个系列总是高于另一个系列,否则图表可能会与另一种面积图类型——堆叠面积图——混淆。在这种情况下,坚持使用标准的折线图会是更好的选择。
堆叠面积图
通常,当使用“面积图”一词时,实际上指的是堆叠面积图。在重叠面积图中,每条线都从其垂直值着色到公共基线。在堆叠面积图中,线条逐条绘制,最近绘制的组的最高点作为移动基线。因此,最上面线条的完全堆叠高度将对应于所有组总和时的值。
当你不仅想跟踪总值,还想了解按组分解的总值时,你会使用堆叠面积图。比较曲线每个部分的 heights 可以让我们大致了解每个子组对总值的贡献如何与其他子组相比。
大部分活跃用户来自基础账户,但高级用户似乎在更快速地按比例增长。
数据结构示例
MONTH | TRIALS | BASIC | PREMIUM |
---|---|---|---|
2019-11 | 154 | 1180 | 201 |
2019-12 | 157 | 1186 | 219 |
2020-01 | 170 | 1195 | 270 |
2020-02 | 180 | 1213 | 285 |
… | … | … | … |
用于绘制面积图的通常需要将数据汇总到一个包含两列或多列的表格中。第一列表示水平轴上每条线绘制的位置。接下来的每一列将表示每个点的垂直贡献,每个系列对应一列。这种格式适用于重叠面积图和堆叠面积图,两者之间的主要区别在于值如何被解释以进行渲染。
对于堆叠面积图,某些可视化工具要求列中列出不是单个贡献,而是累积贡献。在这种情况下,列直接指定线的高度,每个组的贡献由列值之间的差异隐含。
MONTH | TRIALS | + 基础 | + 高级 |
---|---|---|---|
2019-11 | 154 | 1334 | 15 5 |
2019-12 | 157 | 1343 | 1 62 |
2020-01 | 170 | 1365 | 635 |
2020-02 | 180 | 1393 | 1678 |
… | … | … … |
使用面积图的最佳实践
包含零基线
虽然折线图不限制必须使用零基线,但添加阴影意味着将使用彩色区域的相对高度来比较每个组数值的大小。因此,与柱状图一样,必须存在一个零基线,以便进行阴影处理。如果截断坐标轴,则组数值的实际比例将无法与生成的图表所暗示的比例相匹配。
在比较重叠区域图中的两个序列时,可以通过改变着色规则来打破这一规则。如果我们限制着色仅在两条线之间,而不是从两条线到公共基线,那么我们可以在没有基线的情况下将垂直轴范围缩放到感兴趣的效果。现在着色有了不同的含义,颜色表示哪个组具有更大的值,颜色的量表示差异的大小。
限制重叠区域图中的系列数量
在重叠区域图中,系列越多,重叠时颜色组合就越多。大多数颜色不会与单一组相关联这一事实可能会导致解释上的困难。即使只有三个系列,有时也可能难以追踪:三个单独的颜色、三个两两重叠的组合,以及三个组重叠时的总颜色数达到七个。
比较两个系列通常是安全的,但如果其中一个系列总是比另一个大,图表很容易被误认为是堆叠区域图。读者可能会因解释重叠颜色而感到困惑,而这些颜色不会出现在普通图例中。作为一般经验法则,如果你考虑使用重叠区域图,限制自己使用两个系列,并考虑使用折线图是否能更清晰地展示组之间的比较。
考虑堆叠面积图中线条的顺序
无论按何种顺序绘制各组的线条,图表的整体形状都将保持不变,但通过合理选择线条顺序可以更好地理解可视化效果。一个经验法则是将最大或最稳定的组放在底部,而将最易变或最小的组放在最上面。正如下一节将提到的,除了最底部的组外,要读取任何其他组的数值都需要花费一些精力,因此最好将这一组作为最重要的部分。
常见误用
使用面积图绘制单个序列
如本文开头所述,面积图的主要用途是进行比较或展示两个或多个序列之间的数量分配。当我们只需要绘制单个数值序列时,通常不适合使用面积图。更好的选择是使用条形图或折线图,具体取决于你想要从数据中学习或传达的内容。
如果我们想了解精确值随时间的推移,并且横向轴上没有太多需要绘制的值,那么条形图是一个不错的选择。否则,线形图是更好的选择。与条形图相比,线形图在绘制大量值时具有更高的数据与墨水比,并且看起来更简洁。此外,当有大量值时,我们可能更关注趋势的方向和斜率,而不是精确值,在这种情况下,线形图表现更佳。
在堆叠面积图中解释单个组的值
在堆叠面积图中,准确判断数值只有在两种情况下才真正容易:对于总体总和和最底层的组。对于中间层组,要得到某个组贡献的准确值需要找到该组线条的高度,然后减去其下方线条的高度。
当我们想要追踪随时间的变化时,这个任务会更加困难。和之前一样,对于总和和最底层的组来说这很容易。然而,中间层组受到不断变化的基线的影响,使得感知准确的垂直差异变得困难。下面的例子改编自这篇博客文章 清晰地说明了这一点。虽然中间的黄色组的大小看起来随时间变化,但实际上每个点的高度是一致的。
如果你想知道关于确切组值及其随时间的变化,那么选择一个标准的折线图将是一个更好的选择,正如在这篇日常分析文章中所示。
常见的区域图选项
百分比堆积面积图
面积图的一个常见选项是百分比堆叠面积图,或称相对频率堆叠面积图。这种图表不是在每个垂直切片中堆叠每个组的绝对值,而是堆叠每个组对总和的相对或百分比贡献,使得整体高度始终为100%。这种图表类型会丢失绝对总额趋势的信息(因此需要单独的折线图来展示),但它有助于突出显示组间相对贡献的比较。额外的好处是,这种图表类型在图表顶部增加了一个第二基线,可以用来衡量单个组的贡献。
相关图
折线图
折线图是面积图类型的主要祖先。如果你不确定自己是否对面积图感兴趣,使用折线图不太可能走错方向。这一点对于重叠面积图尤其适用,因为重叠区域可能会迅速失控。作为另一个考虑因素,如果你想在数据中进行多重比较而不是仅仅感觉需要选择一种图表类型来承载尽可能多的信息,总是可以生成更多的图表。
条形图和堆叠条形图
面积图的其他起源是条形图。然而,更准确地说,最紧密的联系是堆叠面积图和堆叠条形图之间的联系;重叠面积图和任何柱状图之间并没有很好的类比。
堆叠柱状图与堆叠面积图非常相似,只是用柱子代替了线条。因此,堆叠面积图的许多局限性也适用于堆叠柱状图。然而,堆叠柱状图的一个优势是,在每個水平轴的区间内更容易做出一致的数值判断。面积图中的阴影区域可能会像上面看到的这样变形,尤其是在线条改变方向时。由于堆叠柱状图中的每个区域都是矩形的,因此可以避免这种变形。
脊线图
另一种替代重叠面积图的选择是脊线图。脊线图不是将所有线条和彩色区域绘制在同一个轴上,而是将每条线放在不同的轴上,每条线与其他线有部分垂直偏移。由于线条的偏移特性,脊线图中通常不保留垂直标记。这意味着脊线图在仅根据形状就能看出各个系列值有明显模式时最为有用。
流图
区域图的奇妙亲戚是流图。在堆叠区域图中,所有线条都堆叠在堆叠底部的一条直基线上。而在流图中,基线设置在图表的中心,区域对称地围绕中心线聚集。正因如此,很难精确判断任何一组数据或整体总和的值。
正如 安迪·柯克所论述 ,当需要向广大受众展示大量数据时,流图最好以交互形式使用。交互性至关重要,它允许读者深入探索可视化并形成自己的发现。然而,当需要做出准确判断或进行静态展示时,最好坚持使用更传统的可视化方式,以最佳方式聚合数据,突出你希望呈现的要点。
这个图表使用与上方小提琴图相同的数据。
可视化工具
作为最常见的两种图表类型(折线图和柱状图)的组合,面积图也是可视化工具中相当常见的图表选项。在可视化工具中,如果存在面积图类型,通常的实现方式是堆叠面积图。重叠面积图通常不是可视化工具的内置选项,需要从折线图基础开始自定义创建。对于某些工具,通常是程序化的,创建这两种类型的面积图都不是基本图表类型选项,需要在数据上做一些额外的工作,从阴影区域和线条创建面积图。
区域图是用于数据可视化的多种图表类型之一。您可以通过阅读我们关于基本图表类型、如何选择合适的数据可视化的文章,或浏览图表分类下的全部文章来了解更多信息。