丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
最真实的开发者用云体验
让每位学生受益于普惠算力
让创作激发创新
资深技术专家手把手带教
遇见技术追梦人
技术交流,直击现场
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
为开发者定制的Chrome浏览器插件
互联网发展的数十年来,技术在飞速前进,伴随着海量结构化表格数据的存储,结构化数据上的商业智能分析挖掘发展,也有海量的非结构化数据散布于各个互联网平台:
因为非结构化数据没有标准的行列结构,因此与结构化数据的存储和分析挖掘及查询都是截然不同的,我们没办法将非结构化数据的内容存储在关系数据库中,针对它们的应用有以下挑战:
为了让计算机理解、处理和表征非结构化数据,我们通常将它们转换为密集向量,通常称为嵌入。如上图所示。
近代的算法技术有很多神经网络的方法可以把非结构化数据表征为嵌入向量,例如卷积神经网络(CNN)可以对图像进行特征抽取与向量表示,而LSTM和Transformer等模型可以很方便地对文本数据进行向量化表征。
完成非结构化数据的表征仅仅是第1步,我们仅仅有这些嵌入向量是不够的,还需要能够查询和找出相似的向量。
刚才我们说到了,因为计算机只能理解和计算数值,我们要将图像和文本等非结构化数据表示为浮点数向量,它们表示相应的数据(图像、文本等)。
有了这些强大的向量表征方法,我们就可以利用它们来解决现实世界的问题,例如以图搜图,我们上传图片就可以检索返回视觉上相似图像检索结果。Google的『以图搜图』是非常流行的应用,如下图所示。
你可以把每张图片想象成一个具有D维数的向量,我们可以使用『欧氏距离』或者其他距离度量(如『汉明距离』或『余弦距离』)来找出两个数据点(图片)之间的远近距离,可以量化地衡量2个样本的接近程度。例如,二维平面中两点之间的『欧氏距离』如下图所示。
矢量相似度搜索,也称为最近邻(NN)搜索,基本上是计算检索样本和现有(数据库中)样本集合中的样本距离,并返回前『k』个最近邻,也即前『k』个最相似的样本。计算这种相似度的关键部分是相似度度量,有不同的形式,包括欧氏距离、内积、余弦距离、汉明距离等。距离越小,我们认为2个向量越相似。
精确最近邻(NN)搜索是非常耗时的,每次都需要计算N个距离(假设有N个需要比对的数据库样本)才可以排序得到结果。
为了加快计算速度,我们通常利用近似最近邻搜索(ANN搜索),它会以近似的方式来匹配和完成检索任务。典型的ANN索引方法包括:
所有这些提到的方法,都指向我们即将介绍的向量数据库,它是具备以上ANN的数据库实现,功能强大!
向量数据库是可扩展的数据平台,用于存储、索引和查询使用深度学习模型从非结构化数据(图像、文本等)生成的嵌入向量。最好和最先进的向量数据库,可以做到在数百万或数十亿个目标向量中插入、索引和搜索,并且可以选择和灵活配置索引算法和相似性度量方式。
如果是面向企业的健壮高效数据库系统,要同时具备以下关键要求:
向量数据库除了存储向量数据,还需要完成高效的数据索引构建,以便快速检索,还需要支持CRUD(创建、读取、更新和删除)操作,以及支持属性过滤(即基于元数据字段/标量字段进行过滤)。
一个简单的例子是淘宝场景下,根据指定品牌的图像向量检索相似的鞋子,这里的品牌就是过滤的属性。
我们即将给大家介绍到Milvus向量数据库,上图展示了Milvus属性过滤的过程,Milvus在过滤机制中引入了位掩码的概念,在满足特定属性过滤器的基础上,保留位掩码为1的相似向量。
Milvus具有广泛的应用,包括药物发现、计算机视觉、推荐系统、聊天机器人等等。Milvus包含以下特性和功能:
构建基于向量相似性搜索的AI系统,常见的工具库实现也都是基于近似最近邻搜索(ANNS)的,例如:
这些也都是一些可选用的向量数据检索库,但这些工具库相比于Milvus这样成熟的向量数据管理系统,有一些弱点和局限性。
Milvus的向量执行引擎Knowhere是一个操作接口,用于访问系统上层的服务和系统下层的Faiss、Hnswlib、Annoy等向量相似度搜索库。此外,Knowhere还负责异构计算。Knowhere控制在哪些硬件(例如CPU或GPU)上执行索引构建和搜索请求。这就是Knowhere得名的原因——知道在哪里执行操作。未来版本将支持更多类型的硬件,包括DPU和TPU。
Milvus中的计算主要涉及向量和标量运算。上图展示了Milvus中的Knowhere架构:
Knowhere不仅进一步扩展了Faiss的功能,还优化了性能,支持BitsetView、支持更多相似指标、支持AVX512指令集、自动SIMD指令选择。
一个典型的应用是基于Milvus构建图像检索系统。开发者可以使用预训练的AI模型将自有图像数据集转换为向量,然后利用Milvus实现以图搜图功能,匹配和返回相似图片结果。如下为基于Milvus的『以图搜图』架构图。