毫秒级!千万人脸库快速比对,上亿商品图片检索,背后的极速检索用了什么神器??

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

互联网发展的数十年来,技术在飞速前进,伴随着海量结构化表格数据的存储,结构化数据上的商业智能分析挖掘发展,也有海量的非结构化数据散布于各个互联网平台:

因为非结构化数据没有标准的行列结构,因此与结构化数据的存储和分析挖掘及查询都是截然不同的,我们没办法将非结构化数据的内容存储在关系数据库中,针对它们的应用有以下挑战:

为了让计算机理解、处理和表征非结构化数据,我们通常将它们转换为密集向量,通常称为嵌入。如上图所示。

近代的算法技术有很多神经网络的方法可以把非结构化数据表征为嵌入向量,例如卷积神经网络(CNN)可以对图像进行特征抽取与向量表示,而LSTM和Transformer等模型可以很方便地对文本数据进行向量化表征。

完成非结构化数据的表征仅仅是第1步,我们仅仅有这些嵌入向量是不够的,还需要能够查询和找出相似的向量。

刚才我们说到了,因为计算机只能理解和计算数值,我们要将图像和文本等非结构化数据表示为浮点数向量,它们表示相应的数据(图像、文本等)。

有了这些强大的向量表征方法,我们就可以利用它们来解决现实世界的问题,例如以图搜图,我们上传图片就可以检索返回视觉上相似图像检索结果。Google的『以图搜图』是非常流行的应用,如下图所示。

你可以把每张图片想象成一个具有D维数的向量,我们可以使用『欧氏距离』或者其他距离度量(如『汉明距离』或『余弦距离』)来找出两个数据点(图片)之间的远近距离,可以量化地衡量2个样本的接近程度。例如,二维平面中两点之间的『欧氏距离』如下图所示。

矢量相似度搜索,也称为最近邻(NN)搜索,基本上是计算检索样本和现有(数据库中)样本集合中的样本距离,并返回前『k』个最近邻,也即前『k』个最相似的样本。计算这种相似度的关键部分是相似度度量,有不同的形式,包括欧氏距离、内积、余弦距离、汉明距离等。距离越小,我们认为2个向量越相似。

精确最近邻(NN)搜索是非常耗时的,每次都需要计算N个距离(假设有N个需要比对的数据库样本)才可以排序得到结果。

为了加快计算速度,我们通常利用近似最近邻搜索(ANN搜索),它会以近似的方式来匹配和完成检索任务。典型的ANN索引方法包括:

所有这些提到的方法,都指向我们即将介绍的向量数据库,它是具备以上ANN的数据库实现,功能强大!

向量数据库是可扩展的数据平台,用于存储、索引和查询使用深度学习模型从非结构化数据(图像、文本等)生成的嵌入向量。最好和最先进的向量数据库,可以做到在数百万或数十亿个目标向量中插入、索引和搜索,并且可以选择和灵活配置索引算法和相似性度量方式。

如果是面向企业的健壮高效数据库系统,要同时具备以下关键要求:

向量数据库除了存储向量数据,还需要完成高效的数据索引构建,以便快速检索,还需要支持CRUD(创建、读取、更新和删除)操作,以及支持属性过滤(即基于元数据字段/标量字段进行过滤)。

一个简单的例子是淘宝场景下,根据指定品牌的图像向量检索相似的鞋子,这里的品牌就是过滤的属性。

我们即将给大家介绍到Milvus向量数据库,上图展示了Milvus属性过滤的过程,Milvus在过滤机制中引入了位掩码的概念,在满足特定属性过滤器的基础上,保留位掩码为1的相似向量。

Milvus具有广泛的应用,包括药物发现、计算机视觉、推荐系统、聊天机器人等等。Milvus包含以下特性和功能:

构建基于向量相似性搜索的AI系统,常见的工具库实现也都是基于近似最近邻搜索(ANNS)的,例如:

这些也都是一些可选用的向量数据检索库,但这些工具库相比于Milvus这样成熟的向量数据管理系统,有一些弱点和局限性。

Milvus的向量执行引擎Knowhere是一个操作接口,用于访问系统上层的服务和系统下层的Faiss、Hnswlib、Annoy等向量相似度搜索库。此外,Knowhere还负责异构计算。Knowhere控制在哪些硬件(例如CPU或GPU)上执行索引构建和搜索请求。这就是Knowhere得名的原因——知道在哪里执行操作。未来版本将支持更多类型的硬件,包括DPU和TPU。

Milvus中的计算主要涉及向量和标量运算。上图展示了Milvus中的Knowhere架构:

Knowhere不仅进一步扩展了Faiss的功能,还优化了性能,支持BitsetView、支持更多相似指标、支持AVX512指令集、自动SIMD指令选择。

一个典型的应用是基于Milvus构建图像检索系统。开发者可以使用预训练的AI模型将自有图像数据集转换为向量,然后利用Milvus实现以图搜图功能,匹配和返回相似图片结果。如下为基于Milvus的『以图搜图』架构图。

THE END
1.大学生拍照搜题软件排行榜前十名偏玩手游盒子分享十大大学生拍照搜题软件排行榜前十名手机应用,编辑为您推荐手机大学生拍照搜题软件排行榜第一名到前5名到前十名的应用。找大学生拍照搜题软件有哪些、大学生拍照搜题软件哪个好用,上偏玩手游盒子https://m.pianwan.com/s/zj-2067291
2.解题神器下载解题神器APP解题神器大全搜题神器app是一款拍照搜题类手机软件,九大科目全面覆盖,作业遇到难题简单一点拍照上传,即刻有人为你解答,从此让你轻松做作业,快乐学习,成绩蹭蹭蹭网上提升,喜爱的朋友赶快下载体验吧!官方介绍作业有难题,拍 点击下载 作业拍搜题神器 132.29M / 2024-09-05 / v6.1.3 安卓版 作业拍搜题神器是一款方便实用的手机http://www.downcc.com/k/jietishenqi/
3.搜题神器哪个好?搜题软件排行榜搜题app下载在学习过程中经常会遇到一些不会的题目,通过拍照一键搜题就能为你解决困难。今天小编就为大家带来了帮你搜作业v1.0.0安卓版下载,可以带给你优质的学习体验。帮你搜作业app是一款非常专业的拍照搜题软件,涵盖中小学所有科目所有习题答案,拍照即搜答案,是家长课后辅导、学生课前预期的好帮手! 立即下载 帮搜作业答案https://www.greenxf.com/tag/szyi01j.html
4.国家开放大学搜题软件哪个好(国家开放大学搜题软件推荐)文章大纲: 1.引言:国家开放大学搜题软件的重要性和普及性 2.解题猪:强大的搜索引擎和丰富的题库资源 3.大鱼搜题:专精于大学数学领域的高效工具 4.一键抠图:多功能图片编辑与学习辅助 5.未来教育:全面的计算机等级考试模拟软件 6.学习互助吧:大数据技术支撑的广泛题库https://www.zx08.cn/article/58456.html
5.搜题神器小程序搜题神器APP免费下载搜题神器APP哪个好搜题神器app有哪些,2021最火搜题神器排行榜,搜题神器免费下载就来追风下载站,本站为大家整理了搜题神器类app免费下载,更多搜题神器app无捆绑安全绿色软件欢迎大家来下载体验https://m.18zf.net/tag/soutishenqi/
6.秒懂百科,C++如此简单丨第五天:刷题软件的推荐及使用教程秒懂百科,C++如此简单 专栏收录该内容 22 篇文章 39 订阅 订阅专栏 本文介绍了四款推荐的刷题软件:洛谷因其清晰界面适合新手;OpenJudge无广告,纯题目;LeetCode题目全面;POJ可练英文。同时详细讲解了如何使用洛谷网站,包括登录、搜索题目、提交代码和查看评测结果。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/m0_73787047/article/details/132631358
7.GitHub热榜:文字识别神器,超轻量级中文OCR!GitHub 热榜:文字识别神器,超轻量级中文 OCR! 整理| AI 科技大本营 光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题。 近期,这个叫做 chineseocr_lite 的 OCR 项目开源了,这是一个超轻量级中文 ocr,支持竖排文字识别,支持 ncnn 推理,psenet (8.5M) + chttps://cloud.tencent.com/developer/article/1601641
8.九江做网站哪家好/如何进行搜索引擎优化?这道题让我们求两数相除,而且规定我们不能用乘法,除法和取余操作,那么我们还可以用另一神器位操作Bit Operation,思路是,如果被除数大于或等于除数,则进行如下循环,定义变量t等于除数,定义计数p,当t的两倍小于等于被除数时,进行如下循环,t扩大一倍,p扩大一倍,然后更新res和m。这道题的OJ给的一些test case非常的讨http://www.flsr.cn/news/739171.html
9.Vscode笔记24款插件前端神器,不解释。 Jslint JSLint,JavaScript lint 工具,前端党必备。 jupyter vscode 中支持 jupyter,和 Python 插件对 jupyter 的支持类似。 leetcode 上班摸鱼、实验室摸鱼神器,再也不用担心刷题被老板看到了。 live server 前端神器,可以在 vscode 中预览编写的网页。 https://www.leyeah.com/article/vscode-notes-24-plugins-702038
10.STL源码剖析第一级空间配置器 直接使用malloc分配内存,如果分配成功则返回地址;如果失败的话,首先在抛出内存不足异常前,进行类似c++的new_handle例程处理,该例程由程序员给出,查看是否还有可以释放整理,然后分配的内存,如果没有再抛出异常。 第二级空间配置器 处理小的内存分配,维护一个free_list 空闲待分配内存链表 ,链表连接的https://www.jianshu.com/p/837e8f3d00d3
11.c++贪心搜索习题及答案.docxc++贪心搜索习题及答案.docx 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 奶牛式乘法题目描述做厌了乘法计算题的贝茜自创了一种新的乘法运算法则在这套法则里等于一个取自一个取自的所有数字对的乘积的和比方说等于对于个给定的数长整型最大数你的任务是用新的乘法法则计算的值输入个用空格https://max.book118.com/html/2020/1114/5002341222003023.shtm
12.c++贪心搜索习题及答案(奶牛的乘法。牛市).doc1446:奶牛式乘法(mul)题目描述做厌了乘法计算题的贝茜,自创了一种新的乘法运算法则。在这套法则里,A*B等于一个取自A、一个取自B的所有数字对的乘积的和。比方说,123*45等于1*4+1*5+2*4+2*5+3*4+3*5=54。对于2个给定的数A、B(1<=A,B<=长整型最大数),你的任务是,用新的乘法法则计算A*Bhttps://www.taodocs.com/p-322134868-2.html
13.多个线程同时从C++关联容器(unordered在C++中,关联容器(如unordered_map)不是线程安全的,这意味着多个线程同时对其进行读写操作可能会导致竞态条件和数据不一致的问题。为了解决这个问题,你可以使用互斥锁(mutex)来保护关联容器的读写操作。 下面是一个示例代码,展示了如何使用互斥锁来实现多线程安全地从unordered_map中查找并插入相同的键: https://www.volcengine.com/theme/9005789-D-7-1
14.04737C++程序设计考试资料大全自考教材真题答案本栏目提供自学考试04737C++程序设计各类考试资料,包括C++程序设计自考教材及购买方式、C++程序设计复习资料、历年真题及答案、模拟试题、自考题库、搜题答案、考试大纲、备考方法、视频网课等自考04737C++程序设计考试资料,以供考生们复习使用。https://www.zikaosw.cn/zkkm/1193.html
15.MicrosoftVisualC++2012下载2024最新pc版Microsoft Visual C++ 2012官方版是一款专为Windows操作系统打造的基础类型库组件。Microsoft Visual C++ 2012最新版集合了多种编程语言的运行工具,是运行某些软件和游戏必备组库。Microsoft Visual C++ 2012支持静默参数,自动安装所有库,兼容于多个版本的计算机。 Microsoft Visual C++ 2012软件介绍 vc2012运行库visual https://m.onlinedown.net/soft/10069834.htm
16.insight破解版sourceinsight破解版是winwin7小编给大家分享介绍的面向项目开发的程序编辑器和代码浏览器,很多用户都说它是世界上最好用的编辑器,可实现多文件代码的变量、函数的快速定位和搜索。与众多其它编辑器产品不同。Source Insight是如今最好用的语言编辑器,支持几乎所有的语言, 如C、C++、ASM、PAS、ASP、HTML等常见的,还http://m.winwin7.com/soft/7838.html