数据质量分析
数据清洗-处理脏数据
- 缺失值
- 统计分析
- 解决方法
- 删除
- 插补
- 不做处理
- 异常值
- 统计分析、正态分布、箱型图
- 解决方法
- 不处理
- 均值/中值 替换
数据特征分析
- 数据分布
- 相关性分析
- 贡献度分析
数据预处理
特征变化
- 函数变化:将不具有正态分布特性的数据转化成具有正态分布特征的数据
- 最大-最小规范化
- 零-均值规范化
- 连续数据离散化
- 等宽
- 等频
- 聚类
- 离散数据连续化
- 独热编码
- 序数编码
特征降维
- 主成分分析
- 线性判别分析
- 奇异值分解
- t-SNE
- 自编码器
特征融合
- 特征组合
- 嵌入:高维->低维