特征工程
当数据预处理完成后,我们就要开始进行特征工程了。主要包含以下几个方面:
- 特征提取
- 特征创造
- 特征选择
特征提取和特征选择的区别
特征提取与特征选择都是为了从原始特征中找出最有效的特征。
它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;
而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。
两者都能帮助减少特征的维度、数据冗余,特征提取有时能发现更有意义的特征属性,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。
特征分类
下图就是将我们所能遇到的特征数据进行一个分类:
首先是基本特征,而后统计和复杂特征层层递进。其中针对图像语音等抽提特征有专用的知识方法
掌握了这套特征设计的思路,在复杂数据上几乎可以设计出无穷无尽的特征。而怎么在最短的时间内,把数据中最有价值的特征提炼出来,就要考验数据挖掘工程师的功底。
特征提取
特征抽取或者特征提取大概可以分为;
- 字典特征抽取,应用DiceVectorizer实现对类别特征进行数值化、离散化
- 文本特征抽取,应用CounterVertorize/TfIdfVectorize实现对文本特征数值化
- 图像特征抽取(深度学习)
对于以上不同类别数据的特征提取,这里不一一介绍,等以后遇到了对应问题,再详细的举例用哪些相应的算法来处理。
特征提取也可以说是将任意数据(文本或者图像)转化成适用于机器学习的数字特征
应用 sklearn.feature_extraction可以轻松完成上述任务