07-现实世界的应用
6.6 现实世界的应用
聚类通常是数据科学家和统计分析师的职责范围。它被广泛用作一种对各个领域的数据进行解释的方法。特别是对数据集的结构知之甚少时,k均值聚类算法就是一种有用的技术。
在数据分析领域,聚类是一种必不可少的技术。例如,警察部门主管想要知道该把警力投到哪里去巡逻;快餐店店主想要找出最佳顾客在哪里,以便发送促销信息;船员想要分析事故发生时间和导致事故的人员,以便减少事故的发生。请思考一下他们该如何利用聚类来解决问题。
聚类还对模式识别有帮助。聚类算法可以检测到未被人眼识别出来的模式。例如,在生物学中有时用聚类来识别反常细胞群。
在图像识别领域,聚类有助于识别出不太明显的特征。可以将像素视为数据点,它们之间的关系由距离和色差进行定义。
在政治学领域,有时会用聚类来找出目标选民。某个政党能发现被夺权选民都聚集在某一个地区吗?这样他们的竞选资金就应该集中投向这个地区。类似的选民可能会关注哪些议题?