Skip to content

数据可视化导论

约 1246 个字 3 张图片 预计阅读时间 5 分钟

Abstract

“数据可视化导论”课程相关笔记

分数构成

  • 线上客观题考核:30%
  • 两次平时作业:5% + 10%
  • 课程大作业:50%
  • 出勤:5%

数据

数据的属性

属性在不同领域中可能有不同的称呼,例如

  • 数学:维度
  • 机器学期:特征
  • 统计学:变量

属性可以大致分为两类

  • 类别属性:也称为状态,可以理解为“某种东西的名称”

    • 如形状、颜色等,仅用于区分不同对象,不蕴含序列的信息,也不能具备运算的功能
  • 序数属性:若属性能提供对象之间的比较信息,就将其称为序数属性

    • 虽然序数属性能够进行比较,但未必能进行运算,例如我们不能说特大号衣服减去大号衣服等于小号衣服
  • 数值属性:如果一个序数属性在算术运算下具有意义,就可将其称为数值属性

    • 数值属性包括离散型(只能用整数单位表示)和连续型(需计量或测量获得)两种类型

相异性矩阵

相异性矩阵:一个下三角矩阵,第 \(i\) 行、第 \(j\) 列的元素表示第 \(i\) 个对象和第 \(j\) 个对象之间的相异性。主对角线上的元素为 0,表示对象与自身的相异性为 0。

\[ \begin{bmatrix} & 0 \\\\ & d(2,1) & 0 \\\\ & d(3,1) & d(3,2) & 0 \\ & \vdots & \vdots & \vdots\\ & d(n,1) & d(n,2) & d(n,3) & \cdots & 0 \\ \end{bmatrix} \]

这里的 \(d(i,j)\) 表示第 \(i\) 个对象和第 \(j\) 个对象之间的相异性(距离)。

对于类别属性,可以用失配比来表示它们之间的差异

  • 失配比:两个对象值不相等的属性的数量占所有属性的比例 $$ d(i,j) = \frac{p-m}{p} $$

Example

A B C D
data1 true true false false
data2 true false true false

这里的两个数据的失配比为 \(\dfrac{2}{4} = 0.5\)

有时候我们干脆就不希望考虑进两个对象中都不存在(都为假)的属性,那么此时我们可以使用 Jaccard 相似系数来表示它们之间的相异性

于是上面这个例子的 Jaccard 距离就为 \(\dfrac{2}{3} = 0.66\)

如果需要比较的属性是数据

  • 欧氏距离:即两点间的距离公式 $$ d_{Euc} = \sqrt{\sum_{i=1}^{d} |P_i - Q_i|^2} $$
  • 曼哈顿距离:各属性差值的绝对值之和 $$ d_{CB} = \sum_{i=1}^{d} |P_i - Q_i| $$
  • 闵可夫斯基距离:可以把上面的两种距离用统一的公式来表示 $$ d_{Mk} = \sqrt[P]{ \sum_{i=1}^{d} |P_i - Q_i|^p } $$ 其中 \(p\) 是一个正整数,\(p=2\) 时为欧氏距离,\(p=1\) 时为曼哈顿距离。

数据科学

获取数据时可能由于人工失误、机器故障等原因导致数据质量不佳。

  • 准确性:数据的值是否正确
  • 完整性
  • 一致性:数据单位等是否一致
  • 时效性
  • 真实性
  • 可解释性:数据是否存在语义上的解释

数据清洗:纠正数据中的错误和不一致,提高数据质量

  • 数据库的完整性约束有助于帮助我们发现数据质量问题
  • 但这些约束依赖于我们事先定义好的问题,对于潜在的、未知的问题,有时我们可以通过排序、分组、生成视图(例如节点链接图、矩阵视图)等可视化方法来发现数据质量问题

可视化

按信息复杂程度,可视化方法可分为原始数据可视化统计结果可视化多协同视图三类

  • 数据轨迹:单变量数据呈现方法,将自变量与因变量在图中用点呈现
    • 展示数据分布、走势和离群异常点
  • 柱状图、饼状图、直方图、
  • 等高线图:把相等数值所在位置用曲线连接起来
  • 走势图、散点图/散点图矩阵
  • 热力图:用于有三个维度的数据,把第三个维度的数值用颜色表示出来
    • 例如用热力图表示西湖周边出行人数
  • 箱线图:

多协同视图就是把多个视图组合在一起,每个视图展示数据某个维度的属性,形成一个多维数据的可视化界面

数据挖掘:从大型数据库、网络等发现和提取、模式特征、知识

  • 挖掘非常规的或以前未知的信息
  • 描述型任务
    • 概念描述
    • 关联描述
    • 聚类
    • 异常分析
  • 预测型任务
    • 分类:寻找一个模型或算法来实现对数据的分类
    • 演化分析:建立模型来表示数据在时间和空间中的变化规律,用于预测未知对象的时空行为

Comments