可视化的数据基础
数据是可视化的源头。本章从数据属性类型出发,介绍数据的分类体系与组织结构,探讨数据获取与预处理方法,并深入描述统计与关联分析,为后续的可视化设计奠定坚实的数据基础。
数据属性类型和组织
数据属性类型是可视化设计的基础——不同类型的数据适用不同的视觉编码方式。数据属性从宏观上可分为定性数据和定量数据两大类。
名义数据(Nominal):仅用于区分类别,无顺序关系。如:国籍、血型、颜色。
序数数据(Ordinal):有自然排列顺序,但间距不等。如:学历、满意度等级。
等距数据(Interval):有固定间距但无绝对零点。如:温度(摄氏度)、日期。
比率数据(Ratio):有绝对零点,可做比值运算。如:身高、收入、重量。
此外,数据值还可以按离散与连续来区分:离散值只在有限或可数个取值中选择(如整数),连续值则可取某个范围内任意值(如身高 175.3cm)。
| 类型 | 分类 | 举例 | 可做运算 | 适用视觉编码 |
|---|---|---|---|---|
| 名义 | 定性 | 血型、国家 | = / ≠ | 颜色、形状 |
| 序数 | 定性 | 学历、满意度 | = / ≠ / > / < | 颜色深浅、位置 |
| 等距 | 定量 | 温度、日期 | + / - | 位置、长度 |
| 比率 | 定量 | 身高、收入 | + / - / × / ÷ | 位置、面积、角度 |
将下方的数据实例拖放到对应的类别区域中,检验你对数据属性类型的理解。
小测验:2.1.1 数据属性类型
+20 XP数据可以从维度和组织结构两个角度来描述。按维度分,数据可以是单变量(一维)、双变量(二维)或高维数据(多维)。按组织结构分,常见的有时序数据、空间数据、网络数据和层次数据。
点击下方卡片切换不同的数据组织结构,查看对应的可视化示例。
时序数据
随时间变化的有序数据
空间数据
具有地理位置的数据
网络数据
节点与边组成的关系图
层次数据
树形的嵌套结构
小测验:2.1.2 数据组织
+20 XP数据获取与分析
数据获取是可视化工作的第一步,可以分为被动获取和主动收集两种方式。
利用已有的公开数据集(如政府开放数据、Kaggle),或通过 API 接口(如 Twitter API、天气 API)获取结构化数据。特点是成本低、效率高。
通过网络爬虫抓取网页数据,设计调查问卷收集用户反馈,或利用传感器(IoT设备)实时采集环境数据。特点是针对性强、可定制。
原始数据往往包含噪声、缺失值和异常值,需要经过预处理才能用于可视化和分析。数据预处理的核心步骤包括:
数据清洗:去除重复记录、统一格式、修正错误。缺失值处理:可以删除缺失记录、填充均值/中位数、或用插值法估算。异常值检测:通过统计方法(如3σ原则、IQR方法)或可视化方法(箱线图)识别异常值。
小测验:2.2.1-2.2.2 数据获取与预处理
+20 XP描述统计是理解数据分布的第一步。常用的统计量包括:均值(平均水平)、中位数(中间位置值,对异常值更稳健)、标准差/方差(衡量数据离散程度)。
常用的可视化手段包括直方图(展示数据分布频率)和箱线图(展示四分位数、中位数、异常值)。
调整参数生成不同分布的数据,观察直方图、箱线图和统计量的变化。
小测验:2.2.3 描述统计
+20 XP探索变量之间的关联关系是数据分析的核心任务之一。散点图是最直观的工具——将两个变量分别映射到 X、Y 轴,通过点的分布模式判断相关性。
皮尔逊相关系数(r)衡量两个变量的线性相关程度:r = 1 表示完全正相关,r = -1 表示完全负相关,r = 0 表示无线性相关。
拖动滑块调整相关系数,观察散点图中数据点分布模式的变化。
小测验:2.2.4 数据关联
+20 XP数据存储和管理
数据获取和分析之后,需要合理地存储和管理数据。不同的数据特点和应用场景适合不同的存储方案。
| 存储类型 | 代表产品 | 适用场景 | 优势 | 局限 |
|---|---|---|---|---|
| 关系型数据库 | MySQL、PostgreSQL | 结构化数据、事务处理 | ACID事务、SQL查询、数据一致性 | 水平扩展困难、模式固定 |
| NoSQL数据库 | MongoDB、Redis | 半结构化/非结构化数据 | 灵活模式、易于扩展、高性能 | 弱事务支持、查询能力有限 |
| 数据仓库 | Hive、Snowflake | 大规模数据分析、BI报表 | 面向分析优化、支持OLAP | 数据加载延迟、成本高 |
小测验:2.3 数据存储管理
+20 XP互动闯关:数据基础挑战
通过趣味游戏巩固所学知识,在挑战中加深理解!完成每个游戏可获得额外 XP 奖励。
快速判断每个数据示例属于哪种类型!共10轮,每轮8秒。
将统计量与其定义配对。点击左边的统计量,再点击右边的定义完成配对。
为每个数据场景选择最佳的图表类型!共6轮。