目录

机器学习-数据清理数据变换

JAY.LIN 收录于未分类

2025-09-12 约 618 字预计阅读 2 分钟

https://bing.ee123.net/img/rand?artid=151625431

目录

机器学习-数据清理、数据变换

数据清理

数据处理流程

是否有足够的数据
改善数据还是模型
若要提升数据质量，数据是否noisy–若是，则要进行数据清理
若数据比较干净，数据格式是否是模型想要的格式–若不是，则要进行数据变换
若数据格式正确，模型训练是否困难–若是，则要对数据进行特征提取

数据错误类型：

outliers：数据偏离了正常的数据分布区间
rule violations：超出了数值的限制，如“不能为空”或“必须是独有的”
pattern violations：违反了语法语义上的一些限制

基于规则的检测

functional dependencies（功能性依赖）：x->y，若y依赖于x，则两者之间的关系要正确
denial constraints：更灵活的一阶逻辑表达式，基于制定规则的检测

基于模式的检测

基于语法的：eng->English
基于语义的：通过知识图谱添加规则

数据变换

真实数据的四种normalization手段：

将最小、最大值限制在某一区间：
把所有元素的均值变为0，方差变成1（标准正态分布化）：
小数化（将所有数限制在-1和+1之间）：
对数化：

图片变换

一般采用降维的方法减少图片像素（剪裁、下采样）

视频变换

通常使用短视频片段作为一个单独的event

文本变换

词根化、语法化
am,is,are->be
car,cars,car’s,cars’->car
词元化（tokenization）
text.split(’ ‘)：把每个单词做一个词元
text.split(’’)：把每个字母做一个词元