数据预处理

数据预处理

原文:https://medium.com/hackernoon/data-preprocessing-85175b7a3f17

每当我们在处理机器学习算法的时候。我们必须牢记的最重要的部分是在将数据输入到机器学习之前对数据进行预处理。

今天,我们将讨论两种数据预处理方法。

归一化:归一化是数据预处理中非常常用的技术。在这种方法中,我们假设我们的数据不是正态分布的。为了缩放数据,我们计算每列的最小值和最大值。归一化一列的每个值,我们从每个值中减去最小值,然后除以最大-最小值。

标准化=最小值/最大值-最小值

标准化:如果我们选择做数据的标准化。那么我们假设我们的输入数据是正态分布的。我们正在计算每一列的平均值和标准差。

SD = sqrt[(值-平均值)**2/计数(值-1)] 数据标准化=值-平均值/SD。

我们有大量的数据预处理方法。在 Python 中,您可以使用预处理包轻松完成上述任务,但我建议您首先理解数据,然后决定选择哪种方法来预处理数据。


本站为非盈利网站,作品由网友提供上传,如无意中有侵犯您的版权,请联系删除