第二部分 · 术 / Chapter 6

高维数据可视化
与可视分析

当数据维度超过三维，传统的位置编码方式便捉襟见肘。本章探索如何用雷达图、平行坐标、散点图矩阵等经典方法展示高维数据，以及如何用 PCA、MDS、t-SNE 将数据投影到低维空间，帮助人们发现其中隐藏的结构与规律。

雷达图平行坐标散点图矩阵 PCA MDS t-SNE 降维

6.1

高维数据概述

高维数据在现代数据科学中越来越常见，特别是在金融、社交媒体和生物信息等领域。当数据项的维度超过几十个时，称其为高维数据。

面对多维数据，我们首先想到的是：能不能继续用位置来编码？位置是最强的视觉变量，但屏幕只有二维，最多三维。当维度继续增加，我们有两条路：

🎨

路径一：增加视觉变量
用颜色、大小、形状等继续编码，但随着维度增加，可读性会急剧下降。

🔗

路径二：多视图链接
用多个视图分别展示不同维度，并通过刷选交互联动，共同表达高维数据。

🧪 交互演示：多维度视觉编码互动

拖动滑块增加编码维度，观察随着维度增加，可视化的可读性变化。

显示维度数 2

🧠

小测验：6.1 高维数据概述

+20 XP

Q1. 位置编码最多同时表达几个维度？

Q2. 多视图联动（Linked Views）的核心交互机制是什么？

6.2

高维可视化方法

面对高维数据，研究者设计了专门的可视化结构，其核心思想是：将每个维度作为一个独立的视觉轴，合理地组合、排列这些轴，在有限的二维屏幕上尽可能地展示高维信息。

6.2.1 雷达图

雷达图将不同的维度放置在同一个圆形上，用半径来表示数据的大小。对于一个 N 维数据，将圆周等分为 N 份，每 360°/N 放一个坐标轴，一个数据点就是各坐标轴上的属性位置相连形成的多边形。

雷达图的优点在于：多维可视化直观，空间利用充分，图形美观；常作为"图元"（glyph）小而多并置，用于对比不同高维数据点。

雷达图的缺点在于：数据量多时图形混乱，可扩展性较差，多个数据点叠加后交叉严重。

📡 交互演示：雷达图 (Radar Chart) 互动

选择数据集

显示模式

填充透明度 0.3

🤔

思考：常说的"六边形战士"——各属性维度均衡无短板——在雷达图中如何体现？维度轴的排列顺序会影响雷达图的形态吗？

📡

小测验：6.2.1 雷达图

+20 XP

Q1. 一个 6 维雷达图中，相邻两轴之间的夹角是多少度？

Q2. 当需要对比 20 个数据点时，雷达图最佳展示方式是？

6.2.2 平行坐标

平行坐标（Parallel Coordinates）由 Inselberg 在 1985 年发明。在平行坐标中，每个维度对应一个竖轴，数据点表示为连接各轴的折线。它能有效地展示十几维以下的高维数据，揭示维度之间的关联、异常与趋势。

关键洞察：每一个平行坐标只是高维空间的一个子空间采样。改变轴的顺序，会看到完全不同的模式。相邻两轴间折线交叉说明负相关，平行说明正相关。

📊 交互演示：平行坐标 (Parallel Coordinates) 互动 · 支持刷选

数据集

颜色编码

在轴上上下拖动可刷选数据范围

💡

使用要点：对于 20 维以下的高维数据，平行坐标可展现属性分布；要善用交互刷选，探索不同维度；轴的排序不同会得到不同洞见；用颜色区分不同类别效果更好。

📊

小测验：6.2.2 平行坐标

+20 XP

Q1. 在平行坐标中，相邻两轴的折线大量交叉，说明这两个维度之间存在？

Q2. "每种轴排列是高维空间的一个子空间采样"的含义是？

6.2.3 散点图矩阵

散点图矩阵（SPLOM, Scatter Plot Matrix）将高维数据的维度两两组合，每个格子是一个散点图，全面展示任意两个维度之间的关系。特别适用于包含 10 个或更少维度的数据。

优点：全面展示两两维度关系，刷选时可探索相关性。缺点：随维度增加，矩阵数量呈指数增长（N 维 → N² 个散点图），可扩展性差。

🔢 交互演示：散点图矩阵 (SPLOM) 互动 · 联动刷选

数据集

在任意散点图上拖拽框选，其他视图同步高亮

🔢

小测验：6.2.3 散点图矩阵

+20 XP

Q1. 8 维数据的 SPLOM 中，非对角线格子共有多少个？

Q2. SPLOM 最大的缺点是什么？

6.3

高维投影方法

除了通过可视化设计展示高维数据，还有一类重要方法——高维投影：将高维空间投影到一维、二维或三维平面。任何投影都会损失信息，核心问题是：如何在降维的同时保留重要信息？

6.3.1 主成分分析 (PCA)

PCA（Principal Component Analysis）是最经典的线性降维方法。其核心思想：找到使投影后数据方差最大化的方向，即主成分方向。PCA 通过最大化投影后方差、最小化投影损失，来保留数据的最主要结构。

🔭 交互演示：主成分分析 (PCA) 互动

数据集

显示方差解释

🔭

小测验：6.3.1 主成分分析 PCA

+20 XP

Q1. PCA 属于哪类降维方法？

Q2. 第一主成分（PC1）的方向是？

6.3.2 多维标度 (MDS)

MDS（Multi-Dimensional Scaling）基于数据的相似度进行投影：如果在高维空间中两个数据点相近，那么在低维空间中它们也应该相近。MDS 的优化目标是最小化高低维空间中点对距离之差（应力函数 Stress）。

MDS 与 PCA 的关键区别：PCA 是线性方法，基于原始特征；MDS 只需要距离矩阵，不需要原始特征，因此可以处理只有相似度信息的场景（如心理学感知数据）。

🗺️ 交互演示：多维标度 (MDS) 互动

数据集

迭代次数 100

🗺️

小测验：6.3.2 多维标度 MDS

+20 XP

Q1. MDS 相比 PCA 最独特的优势是什么？

Q2. MDS 的优化目标（应力函数 Stress）最小化的是？

6.3.3 t-SNE 的原理与方法

t-SNE（t-Distributed Stochastic Neighbor Embedding）是目前最流行的非线性降维算法之一。它的基本思想：在高维和低维空间中分别构建相似性概率分布，最小化两个分布之间的 KL 散度。

与 PCA 不同，t-SNE 擅长保留数据的局部结构，能够将相似的数据点聚集在一起，但可能不保留全局结构。困惑度（Perplexity）是核心超参数，控制每个点的有效邻域大小（典型值 5~50）。

🌌 交互演示：t-SNE 参数影响互动

数据集

困惑度 Perplexity 30

学习率 200

方法	类型	保留结构	优点	缺点	适用场景
PCA	线性	全局（方差）	快速、可解释、确定性	线性假设，无法捕捉非线性结构	数据预处理、特征压缩
MDS	非线性可	全局（距离）	只需距离矩阵	计算复杂度高 O(N²)	感知数据、品牌定位分析
t-SNE	非线性	局部（邻域）	簇结构清晰、视觉效果好	随机、慢、不可解释、非确定	高维特征可视化、NLP、生物信息

🌌

小测验：6.3.3 t-SNE

+20 XP

Q1. t-SNE 名字中的 "t" 来自哪里？

Q2. 增大困惑度（Perplexity）参数，会产生什么效果？

6.4

前沿案例

高维可视化的前沿工作体现在两方面：一是对高维数据可视化方法本身的研究，设计新的降维算法与可视分析系统；二是在包含高维数据的领域应用中，结合领域知识进行可视化设计。

案例 1

iVisDesigner

允许用户为复杂数据集创建交互式可视化，无须编程。强调模块化和表达性，支持数据输入、操作和交互式可视化创建。

无代码高维可视化交互设计

案例 2

HiLow

基于 Capacity 概念评估降维质量的可视分析系统。用户可视化感知高维投影在低维与高维空间的差距，辅以交互推荐算法。

降维评估可视分析 Capacity度量

案例 3

VEQA

用于分析开放域问答模型可解释性的可视分析系统。将 NLP 模型中的高维词向量、注意力矩阵等数据降维后可视化，揭示模型决策逻辑。

AI可解释性 NLP 注意力可视化

🎮

互动闯关：高维可视化挑战

通过趣味游戏巩固所学知识，在挑战中加深理解！完成每个游戏可获得额外 XP 奖励。

🔍相关性侦探 +30 XP

观察平行坐标图中两条相邻轴之间的折线模式，判断它们的相关关系。共 5 轮，每轮 10 秒！

轮次: 1/5 得分: 0 ⏱️ 10s

🧩图表配对挑战 +30 XP

将下方的应用场景与最适合的可视化方法配对。点击场景卡片，再点击方法卡片完成配对。

已配对: 0/6 得分: 0

📋 应用场景（点击选择）

📊 可视化方法（点击配对）

📡雷达图大师 +30 XP

调整左侧滑块，使你的雷达图（蓝色）与目标形状（红色虚线）尽可能重合！相似度达到 85% 即过关。

关卡: 1/3 相似度: 0%

调整你的形状：

目标 vs 当前：

← 上一章第 5 章：编程基础下一章 → 第 7 章：时序数据可视化

📚 返回教材首页

高维数据可视化与可视分析

高维数据概述

小测验：6.1 高维数据概述

高维可视化方法

小测验：6.2.1 雷达图

小测验：6.2.2 平行坐标

小测验：6.2.3 散点图矩阵

高维投影方法

小测验：6.3.1 主成分分析 PCA

小测验：6.3.2 多维标度 MDS

小测验：6.3.3 t-SNE

前沿案例

iVisDesigner

HiLow

VEQA

互动闯关：高维可视化挑战

高维数据可视化
与可视分析