机器学习K-means算法在Python中的实现

作者: 佚名 2017-09-12 16:57:43

K-means算法简介

K-means是机器学习中一个比较常用的算法,属于无监督学习算法,其常被用于数据的聚类,只需为它指定簇的数量即可自动将数据聚合到多类中,相同簇中的数据相似度较高,不同簇中数据相似度较低。

K-menas的优缺点:

优点:

  • 原理简单
  • 速度快
  • 对大数据集有比较好的伸缩性

缺点:

  • 需要指定聚类 数量K
  • 对异常值敏感
  • 对初始值敏感

K-means的聚类过程

其聚类过程类似于梯度下降算法,建立代价函数并通过迭代使得代价函数值越来越小

  • 适当选择c个类的初始中心;
  • 在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;
  • 利用均值等方法更新该类的中心值;
  • 对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。

该算法的***优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。

K-means 实例展示

python中km的一些参数:

  1. sklearn.cluster.KMeans( 
  2.  
  3.     n_clusters=8, 
  4.  
  5.     init='k-means++'
  6.  
  7.     n_init=10, 
  8.  
  9.     max_iter=300, 
  10.  
  11.     tol=0.0001, 
  12.  
  13.     precompute_distances='auto'
  14.  
  15.     verbose=0, 
  16.  
  17.     random_state=None, 
  18.  
  19.     copy_x=True
  20.  
  21.     n_jobs=1, 
  22.  
  23.     algorithm='auto' 
  24.  
  25.     )  
  • n_clusters: 簇的个数,即你想聚成几类
  • init: 初始簇中心的获取方法
  • n_init: 获取初始簇中心的更迭次数,为了弥补初始质心的影响,算法默认会初始10个质心,实现算法,然后返回***的结果。
  • max_iter: ***迭代次数(因为kmeans算法的实现需要迭代)
  • tol: 容忍度,即kmeans运行准则收敛的条件
  • precompute_distances:是否需要提前计算距离,这个参数会在空间和时间之间做权衡,如果是True 会把整个距离矩阵都放到内存中,auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的
  • verbose: 冗长模式(不太懂是啥意思,反正一般不去改默认值)
  • random_state: 随机生成簇中心的状态条件。
  • copy_x: 对是否修改数据的一个标记,如果True,即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的,就是是否对输入数据继续copy 操作,以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚。
  • n_jobs: 并行设置
  • algorithm: kmeans的实现算法,有:’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式实现

虽然有很多参数,但是都已经给出了默认值。所以我们一般不需要去传入这些参数,参数的。可以根据实际需要来调用。

下面展示一个代码例子

  1. from sklearn.cluster import KMeans 
  2.  
  3. from sklearn.externals import joblib 
  4.  
  5. from sklearn import cluster 
  6.  
  7. import numpy as np  
  8.   
  9.  
  10. # 生成10*3的矩阵 
  11.  
  12. data = np.random.rand(10,3) 
  13.  
  14. print data 
  15.  
  16. # 聚类为4类 
  17.  
  18. estimator=KMeans(n_clusters=4) 
  19.  
  20. # fit_predict表示拟合+预测,也可以分开写 
  21.  
  22. res=estimator.fit_predict(data) 
  23.  
  24. # 预测类别标签结果 
  25.  
  26. lable_pred=estimator.labels_ 
  27.  
  28. # 各个类别的聚类中心值 
  29.  
  30. centroids=estimator.cluster_centers_ 
  31.  
  32. # 聚类中心均值向量的总和 
  33.  
  34. inertia=estimator.inertia_  
  35.   
  36.  
  37. print lable_pred 
  38.  
  39. print centroids 
  40.  
  41. print inertia  
  42.   
  43.  
  44. 代码执行结果 
  45.  
  46. [0 2 1 0 2 2 0 3 2 0]  
  47.   
  48.  
  49. [[ 0.3028348   0.25183096  0.62493622] 
  50.  
  51. [ 0.88481287  0.70891813  0.79463764] 
  52.  
  53. [ 0.66821961  0.54817207  0.30197415] 
  54.  
  55. [ 0.11629904  0.85684903  0.7088385 ]] 
  56.  
  57. 0.570794546829  

为了更直观的描述,这次在图上做一个展示,由于图像上绘制二维比较直观,所以数据调整到了二维,选取100个点绘制,聚类类别为3类

  1. from sklearn.cluster import KMeans 
  2.  
  3. from sklearn.externals import joblib 
  4.  
  5. from sklearn import cluster 
  6.  
  7. import numpy as np 
  8.  
  9. import matplotlib.pyplot as plt  
  10.   
  11.  
  12. data = np.random.rand(100,2) 
  13.  
  14. estimator=KMeans(n_clusters=3) 
  15.  
  16. res=estimator.fit_predict(data) 
  17.  
  18. lable_pred=estimator.labels_ 
  19.  
  20. centroids=estimator.cluster_centers_ 
  21.  
  22. inertia=estimator.inertia_ 
  23.  
  24. #print res 
  25.  
  26. print lable_pred 
  27.  
  28. print centroids 
  29.  
  30. print inertia  
  31.   
  32.  
  33. for i in range(len(data)): 
  34.  
  35.     if int(lable_pred[i])==0: 
  36.  
  37.         plt.scatter(data[i][0],data[i][1],color='red'
  38.  
  39.     if int(lable_pred[i])==1: 
  40.  
  41.         plt.scatter(data[i][0],data[i][1],color='black'
  42.  
  43.     if int(lable_pred[i])==2: 
  44.  
  45.         plt.scatter(data[i][0],data[i][1],color='blue'
  46.  
  47. plt.show() 

可以看到聚类效果还是不错的,对k-means的聚类效率进行了一个测试,将维度扩宽到50维

对于***的数据,拟合时间还是能够接受的,可见效率还是不错,对模型的保存与其它的机器学习算法模型保存类似

  1. from sklearn.externals import joblib  
  2. joblib.dump(km,"model/km_model.m")   
机器学习 K-means算法 Python
上一篇:人工智能,将开启一场史无前例的职业大革命 下一篇:卷积神经网络如何进行图像识别
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
打破“维度的诅咒”,机器学习降维方法好

机器学习算法因为能够从具有许多特征的数据集中找出相关信息而大火,这些数据集往往包括了几十行的表格或者数百万像素的图像。

水木番 ·  2021-05-31 09:41:17
工业界中的机器学习是什么样子的

本文结合作者十余年的工业界经历,从工业界的视角来尝试给些思考和总结,欢迎大家批评讨论。

龙星镖局 ·  2021-05-31 09:26:01
最喜欢随机森林?TensorFlow开源决策森林库TF-DF

近日,TensorFlow 开源了 TensorFlow 决策森林 (TF-DF)。TF-DF 是用于训练、服务和解释决策森林模型(包括随机森林和梯度增强树)生产方面的 SOTA 算法集合。

机器之心 ·  2021-05-28 17:18:44
人工智能、机器学习和物联网等技术改善健康的7种方式

尽管老生常谈,但我们还是要说:让我们不健康的不是技术,而是我们的生活习惯,事实上,技术可以让我们变得更健康。

佚名 ·  2021-05-28 11:42:58
利用AI识别城市建筑物特征,预测其面对地震等灾难时的风险

本文介绍了美国国家科学基金会开发的可自动识别城市建筑的特征、检测城市建筑在地震、飓风或海啸中可能面临风险的大规模人工智能建筑识别工具。

佚名 ·  2021-05-28 10:52:09
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载