第一部分 · 道 / Chapter 2

可视化的数据基础

数据是可视化的源头。本章从数据属性类型出发,介绍数据的分类体系与组织结构,探讨数据获取与预处理方法,并深入描述统计与关联分析,为后续的可视化设计奠定坚实的数据基础。

数据属性类型 数据组织 数据获取 数据预处理 描述统计 相关分析 数据存储
2.1

数据属性类型和组织

2.1.1 数据属性类型

数据属性类型是可视化设计的基础——不同类型的数据适用不同的视觉编码方式。数据属性从宏观上可分为定性数据定量数据两大类。

📋
定性数据(Qualitative)
名义数据(Nominal):仅用于区分类别,无顺序关系。如:国籍、血型、颜色。
序数数据(Ordinal):有自然排列顺序,但间距不等。如:学历、满意度等级。
📐
定量数据(Quantitative)
等距数据(Interval):有固定间距但无绝对零点。如:温度(摄氏度)、日期。
比率数据(Ratio):有绝对零点,可做比值运算。如:身高、收入、重量。

此外,数据值还可以按离散连续来区分:离散值只在有限或可数个取值中选择(如整数),连续值则可取某个范围内任意值(如身高 175.3cm)。

类型分类举例可做运算适用视觉编码
名义定性血型、国家= / ≠颜色、形状
序数定性学历、满意度= / ≠ / > / <颜色深浅、位置
等距定量温度、日期+ / -位置、长度
比率定量身高、收入+ / - / × / ÷位置、面积、角度
🧪 交互演示:数据属性分类器 互动

将下方的数据实例拖放到对应的类别区域中,检验你对数据属性类型的理解。

名义数据 (Nominal)
序数数据 (Ordinal)
等距数据 (Interval)
比率数据 (Ratio)
🤔
思考:"学生的考试成绩"是等距数据还是比率数据?考虑一下:0分是否代表"没有知识"?你能说一个考80分的学生"能力是40分学生的两倍"吗?
📋

小测验:2.1.1 数据属性类型

+20 XP
Q1. "手机品牌(苹果、华为、小米)"属于哪种数据属性类型?
Q2. 以下哪个是等距数据而非比率数据的关键特征?
2.1.2 数据组织

数据可以从维度组织结构两个角度来描述。按维度分,数据可以是单变量(一维)、双变量(二维)或高维数据(多维)。按组织结构分,常见的有时序数据、空间数据、网络数据和层次数据。

🔗 交互演示:数据组织结构 互动

点击下方卡片切换不同的数据组织结构,查看对应的可视化示例。

时序数据

随时间变化的有序数据

空间数据

具有地理位置的数据

网络数据

节点与边组成的关系图

层次数据

树形的嵌套结构

💡
要点:同一份数据可能同时具有多种组织特性。例如,社交网络中的用户互动数据既是网络数据(用户间的关系),又是时序数据(互动随时间变化),还可能是空间数据(用户的地理位置)。
📐

小测验:2.1.2 数据组织

+20 XP
Q1. 一份包含"日期、最高温、最低温、湿度、风速"的天气数据属于几维数据?
Q2. 公司组织架构图(CEO→VP→Director→Manager→Employee)最适合用哪种数据结构描述?
2.2

数据获取与分析

2.2.1 数据获取

数据获取是可视化工作的第一步,可以分为被动获取主动收集两种方式。

📥
被动获取
利用已有的公开数据集(如政府开放数据、Kaggle),或通过 API 接口(如 Twitter API、天气 API)获取结构化数据。特点是成本低、效率高。
🔧
主动收集
通过网络爬虫抓取网页数据,设计调查问卷收集用户反馈,或利用传感器(IoT设备)实时采集环境数据。特点是针对性强、可定制。
2.2.2 数据预处理

原始数据往往包含噪声、缺失值和异常值,需要经过预处理才能用于可视化和分析。数据预处理的核心步骤包括:

数据清洗:去除重复记录、统一格式、修正错误。缺失值处理:可以删除缺失记录、填充均值/中位数、或用插值法估算。异常值检测:通过统计方法(如3σ原则、IQR方法)或可视化方法(箱线图)识别异常值。

💡
3σ原则:在正态分布中,约99.7%的数据落在均值±3个标准差范围内。超出此范围的数据可被视为异常值。IQR方法:将小于 Q1 - 1.5×IQR 或大于 Q3 + 1.5×IQR 的值视为异常值。
🔍

小测验:2.2.1-2.2.2 数据获取与预处理

+20 XP
Q1. 通过 Kaggle 下载公开数据集属于以下哪种数据获取方式?
Q2. 使用 IQR 方法检测异常值时,上界(上须)的计算公式是?
2.2.3 数据归纳与总结

描述统计是理解数据分布的第一步。常用的统计量包括:均值(平均水平)、中位数(中间位置值,对异常值更稳健)、标准差/方差(衡量数据离散程度)。

常用的可视化手段包括直方图(展示数据分布频率)和箱线图(展示四分位数、中位数、异常值)。

📊 交互演示:描述统计探索器 互动

调整参数生成不同分布的数据,观察直方图、箱线图和统计量的变化。

📊

小测验:2.2.3 描述统计

+20 XP
Q1. 在右偏分布中,均值和中位数的关系通常是?
Q2. 箱线图中的"箱子"代表什么区间?
2.2.4 数据关联与对比

探索变量之间的关联关系是数据分析的核心任务之一。散点图是最直观的工具——将两个变量分别映射到 X、Y 轴,通过点的分布模式判断相关性。

皮尔逊相关系数(r)衡量两个变量的线性相关程度:r = 1 表示完全正相关,r = -1 表示完全负相关,r = 0 表示无线性相关。

🔍 交互演示:相关性探索 互动

拖动滑块调整相关系数,观察散点图中数据点分布模式的变化。

🤔
注意:相关不等于因果。即使两个变量高度相关,也不能直接断言一个导致了另一个。经典例子:冰淇淋销量和溺水人数正相关,但真正的原因是夏天气温高。
🔍

小测验:2.2.4 数据关联

+20 XP
Q1. 皮尔逊相关系数 r = -0.85 表示什么?
Q2. 以下哪种说法是正确的?
2.3

数据存储和管理

数据获取和分析之后,需要合理地存储和管理数据。不同的数据特点和应用场景适合不同的存储方案。

存储类型代表产品适用场景优势局限
关系型数据库 MySQL、PostgreSQL 结构化数据、事务处理 ACID事务、SQL查询、数据一致性 水平扩展困难、模式固定
NoSQL数据库 MongoDB、Redis 半结构化/非结构化数据 灵活模式、易于扩展、高性能 弱事务支持、查询能力有限
数据仓库 Hive、Snowflake 大规模数据分析、BI报表 面向分析优化、支持OLAP 数据加载延迟、成本高
🗄️
选择原则:结构化数据优先考虑关系型数据库;需要灵活模式和高扩展性时选择 NoSQL;面向大规模分析和历史数据查询时使用数据仓库。实际项目中常常混合使用多种存储方案。
💾

小测验:2.3 数据存储管理

+20 XP
Q1. 一个电商网站需要存储用户订单(强一致性、事务),最适合用哪种数据库?
Q2. OLAP 是什么的缩写,主要用于什么场景?
🎮

互动闯关:数据基础挑战

通过趣味游戏巩固所学知识,在挑战中加深理解!完成每个游戏可获得额外 XP 奖励。

🏷️数据类型快速分类 +30 XP

快速判断每个数据示例属于哪种类型!共10轮,每轮8秒。

轮次: 0/10 得分: 0 ⏱️ 8s
点击开始按钮
🧩统计量配对挑战 +30 XP

将统计量与其定义配对。点击左边的统计量,再点击右边的定义完成配对。

已配对: 0/6 得分: 0
统计量(点击选择)
定义(点击配对)
📊图表选择器 +30 XP

为每个数据场景选择最佳的图表类型!共6轮。

轮次: 0/6 得分: 0
点击开始按钮
📚 返回教材首页