今日资讯网
主页 > 今日资讯网 > 资讯 >  > 正文

火山引擎ByteHouse高性能向量检索发布“以图搜图”应用场景

2024年07月31日 15:54:37  未知

0

在现实生活中,“以图搜图”已经得到广泛应用。例如,当我们看到喜欢的服饰,但不知道品牌或具体名称时,可以使用电商平台以图搜图功能,只要上传该衣服的图片,就能立即找到相似款式,并获得价格和购买链接。

从技术角度来看,以图搜图得以实现,与向量检索紧密相关。向量检索是将数据对象(如图像、文本等),转换为向量形式存储和检索,并对图像进行特征提取,将图像的特征表示为向量,利用算法快速计算、查询向量与数据库中向量的相似度,最终完成搜索。可以说,向量检索为以图搜图提供了一种快速、有效的实现方式,使得在大规模图像数据的相似性搜索成为可能。

2023年底,火山引擎ByteHouse上线向量检索能力,而近期,该能力也在以图搜图场景中得到应用。

据介绍,ByteHouse向量检索通过支持多种向量检索算法以及高效的执行链路,可以支撑大规模向量检索场景,并达到毫秒级的查询延迟。基于业界最新的 VectorDBBench 工具进行测试,ByteHouse也已达到与专用向量数据库相近的性能。

图片1.png

ByteHouse向量检索功能整体架构

某社交媒体整合营销平台,则通过引入ByteHouse向量检索能力,满足了舆情监测场景中的以图搜图需求。举个例子,有一家食品公司是该整合营销平台的客户之一,食品公司上市了一款零食,而某位消费者在零食中发现异物,并发布在社交媒体中,引发网络讨论,舆论不断发酵。基于以图搜图的舆情监测能力,整合营销平台帮助食品公司快速发现舆情异常,并采取补救措施。

但由于数据体量不断膨胀,该整合营销平台虽然匹配了更多资源,依然面临查询性能下降的问题。据介绍,该平台的整体数据规模已达到12亿,但公司管理层期望在尽可能低的成本下,达到秒级搜索速度。

经过一系列测试和对比,该平台的研发人员发现,行业相关产品的查询效率在几秒到十多秒之间,而ByteHouse只需700-800 毫秒。在进一步优化之后,ByteHouse查询效率进一步降低到150-200 毫秒内,只需秒级以下时间,就能从大规模数据中查找出近似的 1000 张图片,并完成相似度评分。

ByteHouse技术专家介绍道:“为了在有限资源下,最大化向量检索性能,我们主要在这四个方面进行优化,分别是向量检索计算下推、过滤操作优化、冷读优化、索引限制。”

具体来说,ByteHouse通过将算子拆分,进行 Vector Search 再处理,提升延迟速度,实现计算下推优化,而在过滤操作中,主要针对标量、向量混合查询场景优化。针对造成性能瓶颈的冷读问题,ByteHouse将不同资源用index结构载入内存的方式,实现高性能计算。

除此之外,由于使用向量检索会消耗较多 CPU 和内存资源,为了进一步降低成本,ByteHouse用索引限制并发,并通过压缩存储空间、支持增量训练等手段实现内存优化。

除了支持向量检索能力的Vector引擎,ByteHouse还具有全文检索、GIS等引擎,实现全场景引擎覆盖。作为一款具备高性能、极致分析能力的云原生数据仓库,早在2022年2月,ByteHouse在字节跳动的部署规模已超1万8000台,单集群超2400台。未来,它还将持续为企业提供极致的数据分析能力,助推数智化转型升级。

作者:李云

文章关键词: 责编:
0
凤凰网友:烟祭 smoke
评论:长大成人这件事最恐怖的地方之一,在于,你或许会变成自己曾经最看不起的那种人。

其它网友:-旧流年 seven ||
评论:一个女人的品位,在于她身边站着一个怎样品位的男人。

天涯网友:楓獨洎薸蓅
评论:女生丰胸四种结果;不大一样。大不一样。一样不大。不一样大。

网易网友:memory’青春
评论:白天睡觉觉,晚上打闹闹,有事死翘翘。

本网网友:╰红唇印记°
评论:> 我说:要有上班以外的生活!于是,老婆告诉我这个可以有、于是:我有了加班!

百度网友:基情无处不在
评论:在如今这个物价飞涨的时代,只有工资以不变应万变

猫扑网友:- 无欲无求/ 
评论:长寿秘诀——保持呼吸,不要断气。

腾讯网友:离岛║Bombastic Love
评论:女人最恨的男人是陈世美;男人最喜欢的女人是潘金莲。

搜狐网友:WinNer丶哭声
评论:别忘了孔雀开屏光鲜亮丽的背后却是P眼儿

天猫网友:红衣a young woman
评论:你若使用美人儿计,我就将计就计

相关阅读

图片推荐

阿迪达斯Techfit RECOVERY系列新品上市 阿迪达斯Techfit RECOVERY系列新品上市

最新文章

热门排行