机器学习之KNN算法知其然，知其所以然。|约会网站的优缺点_婚恋

KNN（K-NearestNeighbor）工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k近邻算法中k的出处，通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。

举例：以电影分类作为例子，电影题材可分为爱情片，动作片等，那么爱情片有哪些特征？动作片有哪些特征呢？也就是说给定一部电影，怎么进行分类？这里假定将电影分为爱情片和动作片两类，如果一部电影中接吻镜头很多，打斗镜头较少，显然是属于爱情片，反之为动作片。有人曾根据电影中打斗动作和接吻动作数量进行评估，数据如下：

电影名称

打斗镜头

接吻镜头

电影类别

CaliforiaMan

104

爱情片

BeautigulWoman

KevinLongblade

101

动作片

AmpedII

给定一部电影数据（18，90）打斗镜头18个，接吻镜头90个，如何知道它是什么类型的呢？KNN是这样做的，首先计算未知电影与样本集中其他电影的距离（这里使用曼哈顿距离），数据如下：

与未知分类电影的距离

20.5

19.2

115.3

118.9

现在我们按照距离的递增顺序排序，可以找到k个距离最近的电影，加入k=3,那么来看排序的前3个电影的类别，爱情片，爱情片，动作片，下面来进行投票，这部未知的电影爱情片2票，动作片1票，那么我们就认为这部电影属于爱情片。

1.2KNN算法优缺点

优点：精度高，对异常值不敏感、无数据输入假定

缺点：计算复杂度高、空间复杂度高

1.3KNN算法python代码实现

实现步骤：

（1）计算距离

（2）选择距离最小的k个点

（3）排序

Python3代码：

2KNN算法实例

2.1KNN实现电影分类

2.2改进约会网站匹配

下面

首先读取数据，获取数据集和标签

1deffile2matrix(filename):2fr=open(filename)3arraylines=fr.readlines()4#获取行数5numberoflines=len(arraylines)6#返回numpy的数据矩阵,目前矩阵数据为07returnMat=np.zeros([numberoflines,3])8#返回的分类标签9classLabelVector=[]10#行的索引11index=012forlineinarraylines:13#str.strip(rm)删除str头和尾指定的字符rm为空时，默认删除空白符(包括'\n','\r','\t','')14line=line.strip()15#每行数据是\t划分的，将每行数据按照\t进行切片划分16listFromLine=line.split('\t')17#取出前三列数据存放到returnMat18returnMat[index,:]=listFromLine[0:3]19#根据文本中标记的喜欢程度进行分类20iflistFromLine[-1]=="didntLike":21classLabelVector.append(1)22eliflistFromLine[-1]=="smallDoses":23classLabelVector.append(2)24else:25classLabelVector.append(3)26index+=127returnreturnMat,classLabelVectorViewCode数据和标签我们可以打印一下：

下面用Matplotlib作图看一下数据信息：

样本数据中的到底喜欢什么样子的人？自己去分析一下吧。下面要对数据进行归一化，归一化的原因就不多说了，

1fromprepareData_1importfile2matrix2importnumpyasnp3'''4函数说明：数据归一化5Parameters:6dataSet-特征矩阵7Returns:8normDataSet-归一化后的特征矩阵9ranges-数据范围10minVals-数据最小值11'''1213defautoNorm(dataSet):14#获得数据的最大最小值15print(dataSet)16print("**********************")17minVals=dataSet.min(0)18maxVals=dataSet.max(0)19print("minValues:",minVals)20print("maxValuse:",maxVals)21#计算最大最小值的差22ranges=maxVals-minVals23print()24#shape(dataSet)返回dataSet的矩阵行列数25normDataSet=np.zeros(np.shape(dataSet))26#返回dataSet的行数27m=dataSet.shape[0]28#原始值减去最小值29normDataSet=dataSet-np.tile(minVals,(m,1))30#除以最大值和最小值的差，得到的归一化的数据31normDataSet=normDataSet/np.tile(ranges,(m,1))32returnnormDataSet,ranges,minValsViewCode归一化后的数据如下：

2.3手写数字识别

数据可以样例可以打开文本文件进行查看，其中txt文件名的第一个数字为本txt中的数字，目录trainingDigits中包含了大约2000个例子，每个数字大约有200个样本，testDigits中包含900个测试数据，我们使用trainingDigits中的数据训练分类器，testDigits中的数据作为测试，两组数据没有重合。

首先我们要将图像数据处理为一个向量，将32*32的二进制图像信息转化为1*1024的向量，再使用前面的分类器，代码如下：

THE END

机器学习之KNN算法知其然，知其所以然。

珍爱网：引领平台创新发展致力于为用户提供沉浸式社交体验婚恋约会

网络约会：有哪些优缺点及注意事项？进行交流

Python实现K近邻算法的示例代码python

python机器学习1——k近邻算法个人文章

机器学习之KNN算法知其然，知其所以然。

最新产品调查报告范文(15篇)

kNN之改进约会网站配对效果(附源码)腾讯云开发者社区

婚恋交友网站运营模式

2023年网站推广策划方案网站的推广方案(14篇)

2345天气预报和米胖天气哪个好？有什么区别和优缺点？

2021年50个酷炫的Web和移动项目创意

优缺点分析个人优缺点分析(16篇）.docx

评价个人的优缺点（精选32篇）

自我评价优缺点（通用20篇）

思想上的优缺点范文(通用20篇)

办公室恋情的优缺点你都了解吗？