探索性分析第一部分

探索性分析第一部分

原文:https://medium.com/hackernoon/data-visualisation-using-matplotlib-6383381eac2

我一直觉得讲述数据故事是数据科学家生活中非常重要的一部分。无论何时,我们都必须讲述数据故事,我们需要数据可视化工具来探索数据。在市场中,我们有大量的工具来可视化数据。今天我们要去探索 python 的熊猫和 Matplotlib 库。

数据集=加州住房数据集

使用熊猫加载数据集

在加载数据之前,我们需要导入所有的库。我们将在数据探索中使用。

在熊猫库(housing.csv)中加载住房数据集之后。我们可以使用 data.head()看到前五条记录

如果我们使用 function (data.shape ),那么我们将计算出数据集中有多少行和列。在我们的数据集中,我们有 20640 行和 10 列,在加载数据集后,我们可以研究熊猫数量函数来找出列中缺少的值。这是官方熊猫各种活动的链接(http://pandas.pydata.org/pandas-docs/stable/)

为了查看数据的偏斜度,我们使用直方图来查看数据的分布。

在绘制了每一列的直方图之后,我们将会知道数据的异常值和总体分布。在上图中,住户向右倾斜。

散点图:

我们将在经度和纬度之间绘制散点图,以查看加州地图。阿尔法参数用于找出地图中更密集的部分。

在第 2 部分中,我们将使用更多的 matplotlib 函数,并更多地探索数据以找出见解,并将在提供给机器学习算法之前创建新的功能。

请继续收听第 2 部分

参考:

书:用 scikitlearn 和张量流实践机器学习


本站为非盈利网站,作品由网友提供上传,如无意中有侵犯您的版权,请联系删除