01-k均值聚类
第6章 k均值聚类
人类从来没有像今天这样拥有如此多的社会数据,其数量和种类都是空前的。计算机非常善于存储数据集,但在被人分析之前,这些数据集对社会没有什么价值。计算技术可以指导人们从数据集中获取一些有意义的信息。
聚类(clustering)是一种可以将数据集里的点划分成组的计算技术。成功的聚类将会产生多个组,每个组中的点都相互关联,这些关联是否有意义通常需要人工验证。
在进行聚类时,数据点所属的组,又名聚类簇(cluster),并非预先确定的,而是在聚类算法的运行过程中确定的。实际上,聚类算法不会根据预先假定的信息将任何特定数据点放入任何特定的聚类簇中。因此,聚类被认为是机器学习领域内的无监督(unsupervised)方法。无监督可被视为不受预知指引的意思。
若要了解数据集的结构但事先又不知道其组成部分,那么聚类就是一种有用的技术。例如,你拥有一家超市,你需要收集关于客户及其交易的数据。你希望在一周中的某些时间投放特价商品的移动端广告,以吸引客户进店。不妨按星期几和人数统计信息对数据进行聚类。或许你会发现有一个聚类簇表明年轻的购物者更喜欢在星期二购物,利用这一信息即可在这一天专门针对这些购物者投放广告。