二分类Remixi

分类问题是机器学习中非常重要的一个课题。现实生活中有很多实际的二分类场景,如对于借贷问题,我们会根据某个人的收入、存款、职业、年龄等因素进行分析,判断是否进行借贷;对于一封邮件,根据邮件内容判断该邮件是否属于垃圾邮件。

图1-1分类示意图

图1-2二分类示例图

在进行回归时,需要有一个样本的标签。那么,如果我们假设class1的标签为1,class2的标签为2,class3的标签为3,那这就意味你做了一个潜在假设:class1和class2比较接近,class1跟class3比较远。但如果实际数据并不符合这个假设,使用回归就会得到一个很差的结果。

可以从概率的角度进行分类,分别计算出某个样本属于各个类别的概率,最后选择最大的概率作为样本的类别;假设Box1和Box2分别是两个类别,其中数据的分布如图1-3所示,当给定一个蓝色圆圈,能否求解蓝色圆圈Blue是从Box1还是Box2取出

图1-3盒子分类样例

分别计算P(B1|Blue)、P(B2|Blue)

所以,蓝色圆圈从Box1中取出的概率更大。

在计算(1)的时候,P(Blue|B1)是比较好计算的,但是在一些更复杂的情况下,我们就很难直接统计出P(Blue|B1);例如,我们已知数据集{(2,1),(3,1),...(4,7)}是属于class1,那么当给定数据x=(5,1),如何计算P(x|class1)?

通常我们假设数据是由正态分布生成而来:

采用极大似然估计,求解出参数;极大似然估计是在已知数据集和模型,但不知道模型的具体参数时,对参数进行求解的方法。极大似然估计做出这样一个假设:如果某组参数使已知数据集生成的概率达到最大,这组参数就是我们所要求解。以(2)为例:

解(5)得:

将求解出的(6)带入(2)中就求解出高斯分布。对于未知数据,带入(2)便可获得P(x|class1)。

将(8)带入(7)中有

对(8)进行处理

将(13)带入(9)有

Logistics回归常用于二分类,如判断一封邮件是否是垃圾邮件;在已知Logistics回归的表达形式(14),如何来确定目标函数,并且最优化目标函数?

以二分类为例,假设数据集如图1-4

图1-4二分类数据集

则目标函数为(15),我们的目标是找到w,b,使L(w,b)最大化。但通常可以采用最小化某个值来进行参数更新,因此对(15)进行转换

对(15)先取ln,在添加负号有:

为了对(17)能有一个统一的描述公式,对数据集的标签进行转换

图1-5二分类标签转换

因此,可以将(17)转换为

图1-6crossentropy(交叉熵)示意图

将(15)作为目标函数,其假设Logistics生成整个数据集最大概率的参数作为模型的最佳参数。不同于极大似然估计,将极大似然的表达式取负号,采用梯度下降进行整个式子最小化,最终更新参数。

假设使用均方误差作为Logistics的损失函数,损失函数表示如下:

THE END
1.python中数据二分类数据集mob64ca12f028ff的技术博客在机器学习领域,数据二分类问题是最常见的任务之一。数据二分类涉及将输入数据分为两个类别,例如,判断电子邮件是“垃圾邮件”还是“正常邮件”。在 Python 中,我们可以使用一些流行的库来处理这样的二分类数据集。本文将介绍如何构建和处理二分类数据集,并提供代码示例。 https://blog.51cto.com/u_16213430/12160653
2.机器学习实战二分类(MNIST数据集)二分类数据集机器学习实战--二分类(MNIST数据集) importmatplotlib.pyplotasplt%matplotlib inlinefromsklearn.datasetsimportfetch_mldata mnist=fetch_mldata('MNIST original') 1 2 3 4 Scikit-Learn加载数据集通常具有类似于字典的结构,包括: DESCR:描述数据集 data:包含一个数组,每个实例为一行,每个特征为一列https://blog.csdn.net/qq_45603718/article/details/117235656
3.数据集UCI 机器学习数据集合中的经典二分类数据集,包括 Iris、Hert Dieses、German Credit 等经典二分类问题测试数据集。 数据集详情 原始数据名称:UCI经典二分类数据集 数据介绍:UCI 机器学习数据集合中的经典二分类数据集,包括 Iris、Hert Dieses、German Credit 等经典二分类问题测试数据集。 http://dataju.cn/Dataju/web/datasetInstanceDetail/438
4.什么是数据集的分类?简介:【7月更文挑战第10天】什么是数据集的分类? 什么是数据集的分类? 数据集的分类主要指根据数据的性质、来源或用途将数据集进行不同类别的划分。 在机器学习和数据分析中,数据集通常被分为训练集、验证集和测试集三个部分,以评估模型对新数据的泛化能力并避免模型过拟合[^1^][^2^]。这些划分方法有各自的https://developer.aliyun.com/article/1564190
5.关于机器学习的一些记录(二)1、二分类(Binary Classification)是什么? 二分类是机器学习中最基本的分类问题之一,它将数据集中的样本(数据点)划分为两个互斥的类别(通常是“正类”和“负类”)。 二分类任务的目标是预测一个样本属于两个类别中的哪一个。 2、二分类应用场景有哪些? https://www.jianshu.com/p/4b2ece849b4a
6.二分类数据集该数据是一个平衡的图片二分类数据集,正负类图片各250张,一个50 0 张图,是个不错的做图片分类的数据集。 上传者:qq_44630529时间:2020-08-23 医学数据集-乳腺癌数据集-二分类数据集-med开源数据集提取2.zip 依据开源数据集整理和标注的数据,可以直接使用,希望对你有帮助。 https://www.iteye.com/resource/qq_37879432-10203809