机器学习之KNN算法知其然,知其所以然。

KNN(K-NearestNeighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k近邻算法中k的出处,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。

举例:以电影分类作为例子,电影题材可分为爱情片,动作片等,那么爱情片有哪些特征?动作片有哪些特征呢?也就是说给定一部电影,怎么进行分类?这里假定将电影分为爱情片和动作片两类,如果一部电影中接吻镜头很多,打斗镜头较少,显然是属于爱情片,反之为动作片。有人曾根据电影中打斗动作和接吻动作数量进行评估,数据如下:

电影名称

打斗镜头

接吻镜头

电影类别

CaliforiaMan

3

104

爱情片

BeautigulWoman

1

81

KevinLongblade

101

10

动作片

AmpedII

98

2

给定一部电影数据(18,90)打斗镜头18个,接吻镜头90个,如何知道它是什么类型的呢?KNN是这样做的,首先计算未知电影与样本集中其他电影的距离(这里使用曼哈顿距离),数据如下:

与未知分类电影的距离

20.5

19.2

115.3

118.9

现在我们按照距离的递增顺序排序,可以找到k个距离最近的电影,加入k=3,那么来看排序的前3个电影的类别,爱情片,爱情片,动作片,下面来进行投票,这部未知的电影爱情片2票,动作片1票,那么我们就认为这部电影属于爱情片。

1.2KNN算法优缺点

优点:精度高,对异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

1.3KNN算法python代码实现

实现步骤:

(1)计算距离

(2)选择距离最小的k个点

(3)排序

Python3代码:

2KNN算法实例

2.1KNN实现电影分类

2.2改进约会网站匹配

下面

首先读取数据,获取数据集和标签

1deffile2matrix(filename):2fr=open(filename)3arraylines=fr.readlines()4#获取行数5numberoflines=len(arraylines)6#返回numpy的数据矩阵,目前矩阵数据为07returnMat=np.zeros([numberoflines,3])8#返回的分类标签9classLabelVector=[]10#行的索引11index=012forlineinarraylines:13#str.strip(rm)删除str头和尾指定的字符rm为空时,默认删除空白符(包括'\n','\r','\t','')14line=line.strip()15#每行数据是\t划分的,将每行数据按照\t进行切片划分16listFromLine=line.split('\t')17#取出前三列数据存放到returnMat18returnMat[index,:]=listFromLine[0:3]19#根据文本中标记的喜欢程度进行分类20iflistFromLine[-1]=="didntLike":21classLabelVector.append(1)22eliflistFromLine[-1]=="smallDoses":23classLabelVector.append(2)24else:25classLabelVector.append(3)26index+=127returnreturnMat,classLabelVectorViewCode数据和标签我们可以打印一下:

下面用Matplotlib作图看一下数据信息:

样本数据中的到底喜欢什么样子的人?自己去分析一下吧。下面要对数据进行归一化,归一化的原因就不多说了,

1fromprepareData_1importfile2matrix2importnumpyasnp3'''4函数说明:数据归一化5Parameters:6dataSet-特征矩阵7Returns:8normDataSet-归一化后的特征矩阵9ranges-数据范围10minVals-数据最小值11'''1213defautoNorm(dataSet):14#获得数据的最大最小值15print(dataSet)16print("**********************")17minVals=dataSet.min(0)18maxVals=dataSet.max(0)19print("minValues:",minVals)20print("maxValuse:",maxVals)21#计算最大最小值的差22ranges=maxVals-minVals23print()24#shape(dataSet)返回dataSet的矩阵行列数25normDataSet=np.zeros(np.shape(dataSet))26#返回dataSet的行数27m=dataSet.shape[0]28#原始值减去最小值29normDataSet=dataSet-np.tile(minVals,(m,1))30#除以最大值和最小值的差,得到的归一化的数据31normDataSet=normDataSet/np.tile(ranges,(m,1))32returnnormDataSet,ranges,minValsViewCode归一化后的数据如下:

2.3手写数字识别

数据可以样例可以打开文本文件进行查看,其中txt文件名的第一个数字为本txt中的数字,目录trainingDigits中包含了大约2000个例子,每个数字大约有200个样本,testDigits中包含900个测试数据,我们使用trainingDigits中的数据训练分类器,testDigits中的数据作为测试,两组数据没有重合。

首先我们要将图像数据处理为一个向量,将32*32的二进制图像信息转化为1*1024的向量,再使用前面的分类器,代码如下:

THE END
1.2024日本婚恋网站推荐(附优缺点+收费)不如试试网上配对,日本有不少各种各样的相亲交友App,而网上约会也已经成为日本现时的新婚夫妇们最普遍的结识方式,所以想要认识新朋友的话,还是建议善用日本交友网站、日本交友app、甚至婚友社等等途径。或许有些人可能会担心交友App不安全,但其实在日本很多交友App都会要求先完成身份或年龄确认,才可开始利用。想更加https://www.extrabux.cn/chs/guide/6617671
2.KNN:最近邻算法原理python实现以及sklearn实现51CTO博客优缺点及参数 优点: 理论成熟,思想简单,既可以用来做分类也可以用来做回归 可用于非线性分类 训练时间复杂度比支持向量机之类的算法低,仅为O(n) 和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感 由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域https://blog.51cto.com/u_15127566/4376386
3.我是社恐想要脱单,来看看这些常见的交友约会软件优缺点大全那么重点来了,社恐使用哪些交友约会软件能快速脱单呢?这就必须知道一些常见交友软件的优势和缺点。 分几个指标来排名,就会比较一目了然。 1、用户量。陌陌是老大,全球有5亿用户,月活也过亿了。soul也不错,3000万月活,其中8成是Z世代。探探被陌陌收购了,爱聊在世界杯期间火了一把,世纪佳缘,珍爱,百合等传统婚站https://www.jianshu.com/p/e1928e5c2175
4.如何选择适合自己的成品网站大全app下载广告?详解广告投放效果与这些广告往往会利用吸引眼球的标题和图像,刺激用户的点击欲望,进而引导他们下载相关的应用程序或访问指定的网站。值得注意的是,一些广告可能采用了定向投放的方式,根据用户的兴趣和浏览记录来精准推送,从而提升广告的转化率。 成品网站大全app下载广告的优缺点 成品网站大全app下载广告有着明显的优点。它能够帮助用户在海量http://www.zy-ss.vip/yxzxjss/0631317.html
5.杰士邦黄金持久能延时多久(黄金持久安全有效,助你尽情挥洒约会使用杰士邦黄金持久安全套有哪些优缺点呢?首先,它可以帮助男性延迟射精时间,增强性生活快感,从而提高生活质量。其次,使用安全套对于避免性疾病传播也非常重要。但是,它也存在一些缺点,比如可能会降低男性的敏感度,带来不适的感觉。 结论 综合来看,杰士邦黄金持久安全套是一款值得信赖的性生活助手,它可以帮助男性延迟射精时https://www.uslshop.com/jiankangzhishi/75305.html
6.机器学习实战K近邻算法(KNN算法)本文深入介绍了K-近邻(KNN)算法,包括其工作原理、距离度量方法,并通过电影分类的例子详细解释了算法流程。同时,展示了如何使用Python实现KNN算法,并探讨了算法的优缺点。此外,还应用KNN算法于约会网站的配对效果判定,讨论了数据预处理、训练集与测试集的划分以及模型的评估。 https://blog.csdn.net/forever_bryant/article/details/124126246
7.空气能热水器的优缺点空气能热水器好吗在现在的生活中,人们越来约会利用空气能热水器来帮助我们的运用,它可以让我们更安全、省电、环保和舒适的用水。那么空气能热水器的优缺点是什么呢?我们在生活中的时候要因为注意,不要盲目的进行选购,下面我们一起来看看吧。 一、空气能热水器的优点 1、安全 https://www.qizuang.com/gonglue/rsq/61899.html
8.找对象的11种途径接亲网总的来说,相亲姻缘会,从几十到上千人的,虽各有优缺点,但至少是有求偶意愿的单身集中的地方,去试试机会多。 优:公益性的报名费不高。有官方审核证件。 弊:活动时间不固定。商业性的会有销售电话追过来。 推荐:★★★ 10、个人广告征婚 借一切可用之媒体平台,自荐,广而告之。 A、https://www.jieqinwang.com/baike/111251
9.网络问卷调查系统12篇(全文)所谓个性化教育 (personalized education) , 就是以学生的个人特点为基础, 尊重其个性发展, 明确其优缺点, 并量身定制符合其个人的教育教学活动。个性化教育需要充分的物力和人力保障。在过去, 更多的是理论探讨, 实施起来有些困难, 但网络信息技术的发展使个性化教育成为可能。在网络时代, 实行个性化教育的重要途径就https://www.99xueshu.com/w/ikeyovrwf3nd.html
10.去约会简介去约会APP软件深圳市去约会信息技术有限公司的法定代表人是陈思 深圳市去约会信息技术有限公司的企业所在地在哪? 深圳市去约会信息技术有限公司的企业所在地位于广东省 深圳市 前海深港合作区南山街道兴海大道3040号前海世茂金融中心二期3408 查看更多 热点聚焦 阅读软件的优缺点_功能特点_开发成本_盈利模式知识软件协会有哪些 中国软件https://www.cnpp.cn/pinpai/67968.html
11.《巫师之昆特牌》双店店控制北方卡组教学卡组优缺点 首先是控制卡组的普遍特性——长局吃力,短局优势。其次,北方的铜卡很强,单卡能打出6点+的收益,如果加上卡牌之间的配合,收益更高;北方的金卡点数扎实,且自身点数就很大,一般不容易亏点数。这套卡组比较吃调度,只有[皇家御令]一张过牌。 https://www.gamersky.com/handbook/202005/1291092.shtml
12.杂志媒体有哪些优缺点如何选购合适的杂志→MAIGOO知识杂志媒体有哪些优缺点 如何选购合适的杂志 摘要:杂志媒体不像报纸、广播、电视那样具有很强的新闻性,出版周期比较长,版面也比较狭小,这些缺点导致杂志的传播效果受到制约。但是,杂志媒体的思想性强,知识性强,内容比较专业,反复阅读率高。在日常生活中,我们可以通过看种类、看喜好灯方法来选购杂志,接下来就和小编一https://m.maigoo.com/goomai/222086.html
13.什么是情侣影院,情侣影院的优缺点关于什么是情侣影院,其实以前66分享网(66fxw.com)小编有分享过相关的文章,当时还是因为私人情侣影院上了热搜,不过没有写的太过详细,今天正好注意到大家对情侣影院还挺关注,所以就为大家详细的说一下什么是情侣影院,以及情侣影院的优缺点,还有情侣影院应该如何选吧。 https://66fxw.com/zsdq/14115.html
14.教师节不同场所邂逅男神的优缺点不同场所邂逅男神的优缺点 本文支持点词翻译Powered by 沪江小D Platz 1 :Club, Kneipe, Disco, Bar 俱乐部,小酒馆,舞厅,酒吧 Welche Typen treffen Sie hier:Kommt eben ganz drauf an, welche Bar oder welchen Club Sie ansteuern. 男神类型:完全取决于你去的是哪种酒吧和俱乐部。http://m.hujiang.com/en_jiaoshijie/p758926/