高维数据可视化
与可视分析
当数据维度超过三维,传统的位置编码方式便捉襟见肘。本章探索如何用雷达图、平行坐标、散点图矩阵等经典方法展示高维数据,以及如何用 PCA、MDS、t-SNE 将数据投影到低维空间,帮助人们发现其中隐藏的结构与规律。
高维数据概述
高维数据在现代数据科学中越来越常见,特别是在金融、社交媒体和生物信息等领域。当数据项的维度超过几十个时,称其为高维数据。
面对多维数据,我们首先想到的是:能不能继续用位置来编码?位置是最强的视觉变量,但屏幕只有二维,最多三维。当维度继续增加,我们有两条路:
用颜色、大小、形状等继续编码,但随着维度增加,可读性会急剧下降。
用多个视图分别展示不同维度,并通过刷选交互联动,共同表达高维数据。
拖动滑块增加编码维度,观察随着维度增加,可视化的可读性变化。
小测验:6.1 高维数据概述
+20 XP高维可视化方法
面对高维数据,研究者设计了专门的可视化结构,其核心思想是:将每个维度作为一个独立的视觉轴,合理地组合、排列这些轴,在有限的二维屏幕上尽可能地展示高维信息。
雷达图将不同的维度放置在同一个圆形上,用半径来表示数据的大小。对于一个 N 维数据,将圆周等分为 N 份,每 360°/N 放一个坐标轴,一个数据点就是各坐标轴上的属性位置相连形成的多边形。
雷达图的优点在于:多维可视化直观,空间利用充分,图形美观;常作为"图元"(glyph)小而多并置,用于对比不同高维数据点。
雷达图的缺点在于:数据量多时图形混乱,可扩展性较差,多个数据点叠加后交叉严重。
小测验:6.2.1 雷达图
+20 XP平行坐标(Parallel Coordinates)由 Inselberg 在 1985 年发明。在平行坐标中,每个维度对应一个竖轴,数据点表示为连接各轴的折线。它能有效地展示十几维以下的高维数据,揭示维度之间的关联、异常与趋势。
关键洞察:每一个平行坐标只是高维空间的一个子空间采样。改变轴的顺序,会看到完全不同的模式。相邻两轴间折线交叉说明负相关,平行说明正相关。
小测验:6.2.2 平行坐标
+20 XP散点图矩阵(SPLOM, Scatter Plot Matrix)将高维数据的维度两两组合,每个格子是一个散点图,全面展示任意两个维度之间的关系。特别适用于包含 10 个或更少维度的数据。
优点:全面展示两两维度关系,刷选时可探索相关性。缺点:随维度增加,矩阵数量呈指数增长(N 维 → N² 个散点图),可扩展性差。
小测验:6.2.3 散点图矩阵
+20 XP高维投影方法
除了通过可视化设计展示高维数据,还有一类重要方法——高维投影:将高维空间投影到一维、二维或三维平面。任何投影都会损失信息,核心问题是:如何在降维的同时保留重要信息?
PCA(Principal Component Analysis)是最经典的线性降维方法。其核心思想:找到使投影后数据方差最大化的方向,即主成分方向。PCA 通过最大化投影后方差、最小化投影损失,来保留数据的最主要结构。
小测验:6.3.1 主成分分析 PCA
+20 XPMDS(Multi-Dimensional Scaling)基于数据的相似度进行投影:如果在高维空间中两个数据点相近,那么在低维空间中它们也应该相近。MDS 的优化目标是最小化高低维空间中点对距离之差(应力函数 Stress)。
MDS 与 PCA 的关键区别:PCA 是线性方法,基于原始特征;MDS 只需要距离矩阵,不需要原始特征,因此可以处理只有相似度信息的场景(如心理学感知数据)。
小测验:6.3.2 多维标度 MDS
+20 XPt-SNE(t-Distributed Stochastic Neighbor Embedding)是目前最流行的非线性降维算法之一。它的基本思想:在高维和低维空间中分别构建相似性概率分布,最小化两个分布之间的 KL 散度。
与 PCA 不同,t-SNE 擅长保留数据的局部结构,能够将相似的数据点聚集在一起,但可能不保留全局结构。困惑度(Perplexity)是核心超参数,控制每个点的有效邻域大小(典型值 5~50)。
| 方法 | 类型 | 保留结构 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|---|
| PCA | 线性 | 全局(方差) | 快速、可解释、确定性 | 线性假设,无法捕捉非线性结构 | 数据预处理、特征压缩 |
| MDS | 非线性可 | 全局(距离) | 只需距离矩阵 | 计算复杂度高 O(N²) | 感知数据、品牌定位分析 |
| t-SNE | 非线性 | 局部(邻域) | 簇结构清晰、视觉效果好 | 随机、慢、不可解释、非确定 | 高维特征可视化、NLP、生物信息 |
小测验:6.3.3 t-SNE
+20 XP前沿案例
高维可视化的前沿工作体现在两方面:一是对高维数据可视化方法本身的研究,设计新的降维算法与可视分析系统;二是在包含高维数据的领域应用中,结合领域知识进行可视化设计。
iVisDesigner
允许用户为复杂数据集创建交互式可视化,无须编程。强调模块化和表达性,支持数据输入、操作和交互式可视化创建。
HiLow
基于 Capacity 概念评估降维质量的可视分析系统。用户可视化感知高维投影在低维与高维空间的差距,辅以交互推荐算法。
VEQA
用于分析开放域问答模型可解释性的可视分析系统。将 NLP 模型中的高维词向量、注意力矩阵等数据降维后可视化,揭示模型决策逻辑。
互动闯关:高维可视化挑战
通过趣味游戏巩固所学知识,在挑战中加深理解!完成每个游戏可获得额外 XP 奖励。
观察平行坐标图中两条相邻轴之间的折线模式,判断它们的相关关系。共 5 轮,每轮 10 秒!
将下方的应用场景与最适合的可视化方法配对。点击场景卡片,再点击方法卡片完成配对。
调整左侧滑块,使你的雷达图(蓝色)与目标形状(红色虚线)尽可能重合!相似度达到 85% 即过关。