数据质量分析

数据清洗-处理脏数据

  • 缺失值
    • 统计分析
    • 解决方法
      • 删除
      • 插补
      • 不做处理
  • 异常值
    • 统计分析、正态分布、箱型图
    • 解决方法
      • 不处理
      • 均值/中值 替换

数据特征分析

  • 数据分布
  • 相关性分析
  • 贡献度分析

数据预处理

特征变化

  • 函数变化:将不具有正态分布特性的数据转化成具有正态分布特征的数据
  • 最大-最小规范化
  • 零-均值规范化
  • 连续数据离散化
    • 等宽
    • 等频
    • 聚类
  • 离散数据连续化
    • 独热编码
    • 序数编码

特征降维

  • 主成分分析
  • 线性判别分析
  • 奇异值分解
  • t-SNE
  • 自编码器

特征融合

  • 特征组合
  • 嵌入:高维->低维