数据可视化导论¶
约 1246 个字 3 张图片 预计阅读时间 5 分钟
分数构成
- 线上客观题考核:30%
- 两次平时作业:5% + 10%
- 课程大作业:50%
- 出勤:5%
数据¶
数据的属性¶
属性在不同领域中可能有不同的称呼,例如
- 数学:维度
- 机器学期:特征
- 统计学:变量
属性可以大致分为两类
-
类别属性:也称为状态,可以理解为“某种东西的名称”
- 如形状、颜色等,仅用于区分不同对象,不蕴含序列的信息,也不能具备运算的功能
-
序数属性:若属性能提供对象之间的比较信息,就将其称为序数属性
- 虽然序数属性能够进行比较,但未必能进行运算,例如我们不能说特大号衣服减去大号衣服等于小号衣服
-
数值属性:如果一个序数属性在算术运算下具有意义,就可将其称为数值属性
- 数值属性包括离散型(只能用整数单位表示)和连续型(需计量或测量获得)两种类型
相异性矩阵¶
相异性矩阵:一个下三角矩阵,第 \(i\) 行、第 \(j\) 列的元素表示第 \(i\) 个对象和第 \(j\) 个对象之间的相异性。主对角线上的元素为 0,表示对象与自身的相异性为 0。
\[ \begin{bmatrix}
& 0 \\\\
& d(2,1) & 0 \\\\
& d(3,1) & d(3,2) & 0 \\
& \vdots & \vdots & \vdots\\
& d(n,1) & d(n,2) & d(n,3) & \cdots & 0 \\
\end{bmatrix} \]
这里的 \(d(i,j)\) 表示第 \(i\) 个对象和第 \(j\) 个对象之间的相异性(距离)。
对于类别属性,可以用失配比来表示它们之间的差异
- 失配比:两个对象值不相等的属性的数量占所有属性的比例 $$ d(i,j) = \frac{p-m}{p} $$
Example
A | B | C | D | |
---|---|---|---|---|
data1 | true | true | false | false |
data2 | true | false | true | false |
这里的两个数据的失配比为 \(\dfrac{2}{4} = 0.5\)
有时候我们干脆就不希望考虑进两个对象中都不存在(都为假)的属性,那么此时我们可以使用 Jaccard 相似系数来表示它们之间的相异性

于是上面这个例子的 Jaccard 距离就为 \(\dfrac{2}{3} = 0.66\)
如果需要比较的属性是数据
- 欧氏距离:即两点间的距离公式 $$ d_{Euc} = \sqrt{\sum_{i=1}^{d} |P_i - Q_i|^2} $$
- 曼哈顿距离:各属性差值的绝对值之和 $$ d_{CB} = \sum_{i=1}^{d} |P_i - Q_i| $$
- 闵可夫斯基距离:可以把上面的两种距离用统一的公式来表示 $$ d_{Mk} = \sqrt[P]{ \sum_{i=1}^{d} |P_i - Q_i|^p } $$ 其中 \(p\) 是一个正整数,\(p=2\) 时为欧氏距离,\(p=1\) 时为曼哈顿距离。
数据科学¶
获取数据时可能由于人工失误、机器故障等原因导致数据质量不佳。
- 准确性:数据的值是否正确
- 完整性
- 一致性:数据单位等是否一致
- 时效性
- 真实性
- 可解释性:数据是否存在语义上的解释
数据清洗:纠正数据中的错误和不一致,提高数据质量
- 数据库的完整性约束有助于帮助我们发现数据质量问题
- 但这些约束依赖于我们事先定义好的问题,对于潜在的、未知的问题,有时我们可以通过排序、分组、生成视图(例如节点链接图、矩阵视图)等可视化方法来发现数据质量问题
可视化¶
按信息复杂程度,可视化方法可分为原始数据可视化、统计结果可视化、多协同视图三类
- 数据轨迹:单变量数据呈现方法,将自变量与因变量在图中用点呈现
- 展示数据分布、走势和离群异常点
- 柱状图、饼状图、直方图、
- 等高线图:把相等数值所在位置用曲线连接起来
- 走势图、散点图/散点图矩阵
- 热力图:用于有三个维度的数据,把第三个维度的数值用颜色表示出来
- 例如用热力图表示西湖周边出行人数
- 箱线图:
多协同视图就是把多个视图组合在一起,每个视图展示数据某个维度的属性,形成一个多维数据的可视化界面
数据挖掘:从大型数据库、网络等发现和提取、模式特征、知识
- 挖掘非常规的或以前未知的信息

- 描述型任务
- 概念描述
- 关联描述
- 聚类
- 异常分析
- 预测型任务
- 分类:寻找一个模型或算法来实现对数据的分类
- 演化分析:建立模型来表示数据在时间和空间中的变化规律,用于预测未知对象的时空行为