第二部分 · 术 / Chapter 6

高维数据可视化
与可视分析

当数据维度超过三维,传统的位置编码方式便捉襟见肘。本章探索如何用雷达图、平行坐标、散点图矩阵等经典方法展示高维数据,以及如何用 PCA、MDS、t-SNE 将数据投影到低维空间,帮助人们发现其中隐藏的结构与规律。

雷达图 平行坐标 散点图矩阵 PCA MDS t-SNE 降维
6.1

高维数据概述

高维数据在现代数据科学中越来越常见,特别是在金融、社交媒体和生物信息等领域。当数据项的维度超过几十个时,称其为高维数据。

面对多维数据,我们首先想到的是:能不能继续用位置来编码?位置是最强的视觉变量,但屏幕只有二维,最多三维。当维度继续增加,我们有两条路:

🎨
路径一:增加视觉变量
用颜色、大小、形状等继续编码,但随着维度增加,可读性会急剧下降。
🔗
路径二:多视图链接
用多个视图分别展示不同维度,并通过刷选交互联动,共同表达高维数据。
🧪 交互演示:多维度视觉编码 互动

拖动滑块增加编码维度,观察随着维度增加,可视化的可读性变化。

🧠

小测验:6.1 高维数据概述

+20 XP
Q1. 位置编码最多同时表达几个维度?
Q2. 多视图联动(Linked Views)的核心交互机制是什么?
6.2

高维可视化方法

面对高维数据,研究者设计了专门的可视化结构,其核心思想是:将每个维度作为一个独立的视觉轴,合理地组合、排列这些轴,在有限的二维屏幕上尽可能地展示高维信息。

6.2.1 雷达图

雷达图将不同的维度放置在同一个圆形上,用半径来表示数据的大小。对于一个 N 维数据,将圆周等分为 N 份,每 360°/N 放一个坐标轴,一个数据点就是各坐标轴上的属性位置相连形成的多边形。

雷达图的优点在于:多维可视化直观,空间利用充分,图形美观;常作为"图元"(glyph)小而多并置,用于对比不同高维数据点。

雷达图的缺点在于:数据量多时图形混乱,可扩展性较差,多个数据点叠加后交叉严重。

📡 交互演示:雷达图 (Radar Chart) 互动
🤔
思考:常说的"六边形战士"——各属性维度均衡无短板——在雷达图中如何体现?维度轴的排列顺序会影响雷达图的形态吗?
📡

小测验:6.2.1 雷达图

+20 XP
Q1. 一个 6 维雷达图中,相邻两轴之间的夹角是多少度?
Q2. 当需要对比 20 个数据点时,雷达图最佳展示方式是?
6.2.2 平行坐标

平行坐标(Parallel Coordinates)由 Inselberg 在 1985 年发明。在平行坐标中,每个维度对应一个竖轴,数据点表示为连接各轴的折线。它能有效地展示十几维以下的高维数据,揭示维度之间的关联、异常与趋势。

关键洞察:每一个平行坐标只是高维空间的一个子空间采样。改变轴的顺序,会看到完全不同的模式。相邻两轴间折线交叉说明负相关,平行说明正相关。

📊 交互演示:平行坐标 (Parallel Coordinates) 互动 · 支持刷选
在轴上上下拖动可刷选数据范围
💡
使用要点:对于 20 维以下的高维数据,平行坐标可展现属性分布;要善用交互刷选,探索不同维度;轴的排序不同会得到不同洞见;用颜色区分不同类别效果更好。
📊

小测验:6.2.2 平行坐标

+20 XP
Q1. 在平行坐标中,相邻两轴的折线大量交叉,说明这两个维度之间存在?
Q2. "每种轴排列是高维空间的一个子空间采样"的含义是?
6.2.3 散点图矩阵

散点图矩阵(SPLOM, Scatter Plot Matrix)将高维数据的维度两两组合,每个格子是一个散点图,全面展示任意两个维度之间的关系。特别适用于包含 10 个或更少维度的数据。

优点:全面展示两两维度关系,刷选时可探索相关性。缺点:随维度增加,矩阵数量呈指数增长(N 维 → N² 个散点图),可扩展性差。

🔢 交互演示:散点图矩阵 (SPLOM) 互动 · 联动刷选
在任意散点图上拖拽框选,其他视图同步高亮
🔢

小测验:6.2.3 散点图矩阵

+20 XP
Q1. 8 维数据的 SPLOM 中,非对角线格子共有多少个?
Q2. SPLOM 最大的缺点是什么?
6.3

高维投影方法

除了通过可视化设计展示高维数据,还有一类重要方法——高维投影:将高维空间投影到一维、二维或三维平面。任何投影都会损失信息,核心问题是:如何在降维的同时保留重要信息?

6.3.1 主成分分析 (PCA)

PCA(Principal Component Analysis)是最经典的线性降维方法。其核心思想:找到使投影后数据方差最大化的方向,即主成分方向。PCA 通过最大化投影后方差、最小化投影损失,来保留数据的最主要结构。

🔭 交互演示:主成分分析 (PCA) 互动
🔭

小测验:6.3.1 主成分分析 PCA

+20 XP
Q1. PCA 属于哪类降维方法?
Q2. 第一主成分(PC1)的方向是?
6.3.2 多维标度 (MDS)

MDS(Multi-Dimensional Scaling)基于数据的相似度进行投影:如果在高维空间中两个数据点相近,那么在低维空间中它们也应该相近。MDS 的优化目标是最小化高低维空间中点对距离之差(应力函数 Stress)。

MDS 与 PCA 的关键区别:PCA 是线性方法,基于原始特征;MDS 只需要距离矩阵,不需要原始特征,因此可以处理只有相似度信息的场景(如心理学感知数据)。

🗺️ 交互演示:多维标度 (MDS) 互动
🗺️

小测验:6.3.2 多维标度 MDS

+20 XP
Q1. MDS 相比 PCA 最独特的优势是什么?
Q2. MDS 的优化目标(应力函数 Stress)最小化的是?
6.3.3 t-SNE 的原理与方法

t-SNE(t-Distributed Stochastic Neighbor Embedding)是目前最流行的非线性降维算法之一。它的基本思想:在高维和低维空间中分别构建相似性概率分布,最小化两个分布之间的 KL 散度

与 PCA 不同,t-SNE 擅长保留数据的局部结构,能够将相似的数据点聚集在一起,但可能不保留全局结构。困惑度(Perplexity)是核心超参数,控制每个点的有效邻域大小(典型值 5~50)。

🌌 交互演示:t-SNE 参数影响 互动
方法类型保留结构优点缺点适用场景
PCA 线性 全局(方差) 快速、可解释、确定性 线性假设,无法捕捉非线性结构 数据预处理、特征压缩
MDS 非线性可 全局(距离) 只需距离矩阵 计算复杂度高 O(N²) 感知数据、品牌定位分析
t-SNE 非线性 局部(邻域) 簇结构清晰、视觉效果好 随机、慢、不可解释、非确定 高维特征可视化、NLP、生物信息
🌌

小测验:6.3.3 t-SNE

+20 XP
Q1. t-SNE 名字中的 "t" 来自哪里?
Q2. 增大困惑度(Perplexity)参数,会产生什么效果?
6.4

前沿案例

高维可视化的前沿工作体现在两方面:一是对高维数据可视化方法本身的研究,设计新的降维算法与可视分析系统;二是在包含高维数据的领域应用中,结合领域知识进行可视化设计。

案例 1

iVisDesigner

允许用户为复杂数据集创建交互式可视化,无须编程。强调模块化和表达性,支持数据输入、操作和交互式可视化创建。

无代码 高维可视化 交互设计
案例 2

HiLow

基于 Capacity 概念评估降维质量的可视分析系统。用户可视化感知高维投影在低维与高维空间的差距,辅以交互推荐算法。

降维评估 可视分析 Capacity度量
案例 3

VEQA

用于分析开放域问答模型可解释性的可视分析系统。将 NLP 模型中的高维词向量、注意力矩阵等数据降维后可视化,揭示模型决策逻辑。

AI可解释性 NLP 注意力可视化
🎮

互动闯关:高维可视化挑战

通过趣味游戏巩固所学知识,在挑战中加深理解!完成每个游戏可获得额外 XP 奖励。

🔍相关性侦探 +30 XP

观察平行坐标图中两条相邻轴之间的折线模式,判断它们的相关关系。共 5 轮,每轮 10 秒!

轮次: 1/5 得分: 0 ⏱️ 10s
🧩图表配对挑战 +30 XP

将下方的应用场景与最适合的可视化方法配对。点击场景卡片,再点击方法卡片完成配对。

已配对: 0/6 得分: 0
📋 应用场景(点击选择)
📊 可视化方法(点击配对)
📡雷达图大师 +30 XP

调整左侧滑块,使你的雷达图(蓝色)与目标形状(红色虚线)尽可能重合!相似度达到 85% 即过关。

关卡: 1/3 相似度: 0%
调整你的形状:
目标 vs 当前:
📚 返回教材首页