6分钟使用算法对数据进行预处理
来源:中国数据分析学习网 / 时间:2020-02-04
种方法数据标准化
大家都知道在数据分析时我们使用算法对数据进行拟合之前都要对数据进行预处理,以便我们能得到更准确的分析模型,比如数据标准化,标准化可以用来消除不同变量的量 纲造成的影响,在KNN中我们需要计算待分类点与所有实例点的距离,假设每个实例点都有N个特征构成,如果我们选择的距离为欧式距离,如果数据没有事先进行归一化,那么之大的特征就在欧式距离计算的时候起到了决定性的作用,为了避免这种情况我们就要对数据进行预处理。
第二种方法标签编码
一些数据变量不能直接进行计算,我们这时候就可以采用标签编码和独热编码的方法把字符型变量转变成数值型变量的方法进入模型计算。
标签编码的概念:标签编码就是要把单词标记转换成数值型式,以便这些数据参与模型计算
第三种数据预处理方法:独热编码
独热编码的概念:独热编码既ONE-HOT编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候,其中只有一位有效。