第一部分 · 道 / Chapter 2

可视化的数据基础

数据是可视化的源头。本章从数据属性类型出发，介绍数据的分类体系与组织结构，探讨数据获取与预处理方法，并深入描述统计与关联分析，为后续的可视化设计奠定坚实的数据基础。

数据属性类型数据组织数据获取数据预处理描述统计相关分析数据存储

2.1

数据属性类型和组织

2.1.1 数据属性类型

数据属性类型是可视化设计的基础——不同类型的数据适用不同的视觉编码方式。数据属性从宏观上可分为定性数据和定量数据两大类。

📋

定性数据（Qualitative）
名义数据（Nominal）：仅用于区分类别，无顺序关系。如：国籍、血型、颜色。
序数数据（Ordinal）：有自然排列顺序，但间距不等。如：学历、满意度等级。

📐

定量数据（Quantitative）
等距数据（Interval）：有固定间距但无绝对零点。如：温度（摄氏度）、日期。
比率数据（Ratio）：有绝对零点，可做比值运算。如：身高、收入、重量。

此外，数据值还可以按离散与连续来区分：离散值只在有限或可数个取值中选择（如整数），连续值则可取某个范围内任意值（如身高 175.3cm）。

类型	分类	举例	可做运算	适用视觉编码
名义	定性	血型、国家	= / ≠	颜色、形状
序数	定性	学历、满意度	= / ≠ / > / <	颜色深浅、位置
等距	定量	温度、日期	+ / -	位置、长度
比率	定量	身高、收入	+ / - / × / ÷	位置、面积、角度

🧪 交互演示：数据属性分类器互动

将下方的数据实例拖放到对应的类别区域中，检验你对数据属性类型的理解。

名义数据 (Nominal)

序数数据 (Ordinal)

等距数据 (Interval)

比率数据 (Ratio)

🤔

思考："学生的考试成绩"是等距数据还是比率数据？考虑一下：0分是否代表"没有知识"？你能说一个考80分的学生"能力是40分学生的两倍"吗？

📋

小测验：2.1.1 数据属性类型

+20 XP

Q1. "手机品牌（苹果、华为、小米）"属于哪种数据属性类型？

Q2. 以下哪个是等距数据而非比率数据的关键特征？

2.1.2 数据组织

数据可以从维度和组织结构两个角度来描述。按维度分，数据可以是单变量（一维）、双变量（二维）或高维数据（多维）。按组织结构分，常见的有时序数据、空间数据、网络数据和层次数据。

🔗 交互演示：数据组织结构互动

点击下方卡片切换不同的数据组织结构，查看对应的可视化示例。

时序数据

随时间变化的有序数据

空间数据

具有地理位置的数据

网络数据

节点与边组成的关系图

层次数据

树形的嵌套结构

💡

要点：同一份数据可能同时具有多种组织特性。例如，社交网络中的用户互动数据既是网络数据（用户间的关系），又是时序数据（互动随时间变化），还可能是空间数据（用户的地理位置）。

📐

小测验：2.1.2 数据组织

+20 XP

Q1. 一份包含"日期、最高温、最低温、湿度、风速"的天气数据属于几维数据？

Q2. 公司组织架构图（CEO→VP→Director→Manager→Employee）最适合用哪种数据结构描述？

2.2

数据获取与分析

2.2.1 数据获取

数据获取是可视化工作的第一步，可以分为被动获取和主动收集两种方式。

📥

被动获取
利用已有的公开数据集（如政府开放数据、Kaggle），或通过 API 接口（如 Twitter API、天气 API）获取结构化数据。特点是成本低、效率高。

🔧

主动收集
通过网络爬虫抓取网页数据，设计调查问卷收集用户反馈，或利用传感器（IoT设备）实时采集环境数据。特点是针对性强、可定制。

2.2.2 数据预处理

原始数据往往包含噪声、缺失值和异常值，需要经过预处理才能用于可视化和分析。数据预处理的核心步骤包括：

数据清洗：去除重复记录、统一格式、修正错误。缺失值处理：可以删除缺失记录、填充均值/中位数、或用插值法估算。异常值检测：通过统计方法（如3σ原则、IQR方法）或可视化方法（箱线图）识别异常值。

💡

3σ原则：在正态分布中，约99.7%的数据落在均值±3个标准差范围内。超出此范围的数据可被视为异常值。IQR方法：将小于 Q1 - 1.5×IQR 或大于 Q3 + 1.5×IQR 的值视为异常值。

🔍

小测验：2.2.1-2.2.2 数据获取与预处理

+20 XP

Q1. 通过 Kaggle 下载公开数据集属于以下哪种数据获取方式？

Q2. 使用 IQR 方法检测异常值时，上界（上须）的计算公式是？

2.2.3 数据归纳与总结

描述统计是理解数据分布的第一步。常用的统计量包括：均值（平均水平）、中位数（中间位置值，对异常值更稳健）、标准差/方差（衡量数据离散程度）。

常用的可视化手段包括直方图（展示数据分布频率）和箱线图（展示四分位数、中位数、异常值）。

📊 交互演示：描述统计探索器互动

调整参数生成不同分布的数据，观察直方图、箱线图和统计量的变化。

数据分布

样本量 200

分箱数 20

📊

小测验：2.2.3 描述统计

+20 XP

Q1. 在右偏分布中，均值和中位数的关系通常是？

Q2. 箱线图中的"箱子"代表什么区间？

2.2.4 数据关联与对比

探索变量之间的关联关系是数据分析的核心任务之一。散点图是最直观的工具——将两个变量分别映射到 X、Y 轴，通过点的分布模式判断相关性。

皮尔逊相关系数（r）衡量两个变量的线性相关程度：r = 1 表示完全正相关，r = -1 表示完全负相关，r = 0 表示无线性相关。

🔍 交互演示：相关性探索互动

拖动滑块调整相关系数，观察散点图中数据点分布模式的变化。

小测验：2.2.4 数据关联

+20 XP

Q1. 皮尔逊相关系数 r = -0.85 表示什么？

Q2. 以下哪种说法是正确的？

2.3

数据存储和管理

数据获取和分析之后，需要合理地存储和管理数据。不同的数据特点和应用场景适合不同的存储方案。

存储类型	代表产品	适用场景	优势	局限
关系型数据库	MySQL、PostgreSQL	结构化数据、事务处理	ACID事务、SQL查询、数据一致性	水平扩展困难、模式固定
NoSQL数据库	MongoDB、Redis	半结构化/非结构化数据	灵活模式、易于扩展、高性能	弱事务支持、查询能力有限
数据仓库	Hive、Snowflake	大规模数据分析、BI报表	面向分析优化、支持OLAP	数据加载延迟、成本高

🗄️

选择原则：结构化数据优先考虑关系型数据库；需要灵活模式和高扩展性时选择 NoSQL；面向大规模分析和历史数据查询时使用数据仓库。实际项目中常常混合使用多种存储方案。

💾

小测验：2.3 数据存储管理

+20 XP

Q1. 一个电商网站需要存储用户订单（强一致性、事务），最适合用哪种数据库？

Q2. OLAP 是什么的缩写，主要用于什么场景？

🎮

互动闯关：数据基础挑战

通过趣味游戏巩固所学知识，在挑战中加深理解！完成每个游戏可获得额外 XP 奖励。

🏷️数据类型快速分类 +30 XP

快速判断每个数据示例属于哪种类型！共10轮，每轮8秒。

轮次: 0/10 得分: 0 ⏱️ 8s

点击开始按钮

🧩统计量配对挑战 +30 XP

将统计量与其定义配对。点击左边的统计量，再点击右边的定义完成配对。

已配对: 0/6 得分: 0

统计量（点击选择）

定义（点击配对）

📊图表选择器 +30 XP

为每个数据场景选择最佳的图表类型！共6轮。

轮次: 0/6 得分: 0

点击开始按钮

← 上一章第 1 章：可视化概述下一章 → 第 3 章：视觉编码原理

📚 返回教材首页