如何选择合适的数据可视化
数据可视化是数据分析的重要组成部分,它们能够高效地将大量数据以图形格式进行总结。有多种图表可供选择 ,每种都有其独特的优势和适用场景。在分析过程中,选择合适的方式使用这些可视化来表示数据是最具挑战性的部分之一。
在本文中,我们将根据您想要执行的任务类型来探讨选择数据可视化的方法。
数据可视化的常见用途包括:
- 显示随时间的变化
- 显示部分与整体的关系
- 观察数据的分布情况
- 比较组间数值
- 观察变量间关系
- 查看地理数据
你正在分析的变量类型和可视化受众也会影响在每个角色中哪种图表效果最佳。某些可视化图表也可以根据这些因素用于多种目的。
用于展示随时间变化的数据的图表
将变量的值随时间变化进行可视化是最常见的应用之一。这些图表通常将时间放在水平轴上,从左向右移动,而将感兴趣变量的值放在垂直轴上。编码这些值的方法有多种:
- 柱状图 通过柱状图的高度从基线来编码值。
- 折线图通过由线段连接的点的垂直位置来编码值。当基线没有意义,或者如果绘制太多柱状图会让人眼花缭乱时,这很有用。
- 一个箱线图在需要为每个时间段绘制值分布时很有用;每组箱须可以显示最常见的数据值所在位置。
- 金融领域有一些专门的图表类型,比如蜡烛图或 Kagi 图。
用于显示部分与整体组成的图表
有时,我们不仅需要知道总数,还需要知道构成该总数的组成部分。虽然其他图表(如标准条形图)可以用来比较各组成部分的值,但以下图表将部分与整体分解放在了首位:
- 饼图和它的表亲甜甜圈图用圆形表示整体,通过分片来划分部分。
- 堆叠条形图通过将每个条形分成多个子条形来修改条形图,展示每个主要条形内的部分到整体构成。
- 类似地,堆叠面积图通过在线条下方使用阴影来修改折线图,将总量分成子组值。
- 还有许多其他更复杂的图表类型也已开发出来,用于展示层次关系。这些包括 Marimekko 图和树图。
用于查看数据分布的图表
可视化的一项重要用途是展示数据点值的分布情况。这在探索过程中特别有用,有助于构建对数据特征属性的理解。
- 条形图 用于表示一个变量是定性的,并且取一系列离散值。
- 一个直方图 用于当变量是定量的,取数值时。或者,可以用密度曲线 代替直方图,作为对潜在分布的平滑估计。
- 一个提琴图通过为每个组绘制密度曲线来比较组间数值值分布。
- 箱线图是另一种比较组间分布的方式,但使用统计数据摘要而不是估计的分布形状。
用于比较组间数值的图表
数据可视化的另一个非常常见的应用是对比不同组之间的数值。这通常与其他数据可视化的作用相结合,例如展示随时间的变化,或观察数据的分布情况。
- 一个条形图 通过为每个组分配一个条形来比较组之间的值。
- 一个点图 可以用类似的方式使用,只是用点的位置而不是条形长度来表示值。这就像一条没有线段的折线图,消除了连续点之间的“连接”。也像折线图一样,点图在垂直基线没有意义时很有用。
- 一个折线图 可以用来通过为每个组绘制一条线来比较组之间的值随时间的变化。
- 一个分组条形图 可以通过在每个位置绘制多个条形,而不是只有一个,来比较跨越两个不同分组变量的数据。
- 提琴图 和 箱线图用于比较不同组的数据分布。
- 一个 漏斗图 是专门用于展示数量在流程中如何流动的图表,例如追踪有多少访客从看到广告最终完成购买。
- 子弹图 是另一种专门用于比较真实值与一个或多个基准值的图表。
- 图表的一个子类别来自于对多个属性中不同组值之间的比较。这些图表的例子包括平行坐标图(及其特殊情况斜率图)和哑铃图。
用于观察变量之间关系的图表
数据探索中的另一项任务是理解数据特征之间的关系。下面的图表类型可以用来绘制两个或多个变量之间的关系,以观察它们之间的趋势和模式。
- 散点图 是展示两个变量之间关系的标准方式。
- 散点图还可以通过为每个点添加颜色、形状或大小作为指示器来扩展到更多变量,例如在气泡图中。
- 当第三个变量代表时间时,散点图中的点可以用线段连接起来,生成一个带连接线的散点图 。
- 另一个时间第三变量的替代方案是双轴图 ,例如使用共享的水平轴绘制折线图和柱状图。
- 当比较的一个或两个变量不是数值型时,可以使用热力图 来展示组之间的关系。热力图也可以用于纯数值型数据,例如在二维直方图或二维密度曲线上。
用于查看地理数据的图表
有时,数据中包含地理数据,如经纬度或地区,如国家或州。虽然绘制这些数据可能只是在地图背景上扩展现有的可视化(例如,在散点图上绘制点),但也有一些图表类型会考虑制图领域。以下重点介绍其中两种:
正确:来自 census.gov 的美国人口地图
- 一个分级统计地图 就像热力图,它着色的是地缘政治区域而不是严格的网格。
- 制图统计地图 采用不同的方法,通过每个区域的大小来编码数值。这种方法需要形状和拓扑结构的一些扭曲。
结语
为工作选择合适的图表取决于你正在查看的变量类型以及你希望从中获得什么。以上只是一个一般性指南:跳出标准模式可能会帮助你获得额外的见解。尝试不同的图表类型,以及每个图表中变量的编码方式。同时也要记住,你不必仅限于在一个图中展示所有内容。通常,保持每个单独的图尽可能简单明了,而使用多个图进行比较、展示趋势和演示多个变量之间的关系会更好。