当前位置: 首页 > news >正文

【案例】Doris4.x 向量搜索在电商领域的应用

1.电商场景设定与目标

  • 业务背景:公司经营着一家跨境电商平台,商品库里有上百万件商品,包含品类、描述、用户评论等文本信息。
  • 传统方案的痛点:
  1. 关键词搜索:机械地匹配词汇(如用户搜“保暖”漏掉“御寒”),且容易被SEO关键词误导,丢失大量语义相关的商品。
  2. 系统架构:过去做推荐或搜索,常需要“向量数据库 + 搜索引擎 + OLAP数据库”组合,数据在系统间来回搬运,链路长、维护难、延迟高。
  • 应用目标:搭建一个 “千人千面”的混合智能搜索系统。

用户输入像 “适合冬天在办公室穿的高领毛衣,要纯色的” 这样的自然语言查询,或上传一张喜欢的衣服图片,系统能:

  1. 基于语义相似度,召回最符合描述意图的商品。
  2. 同时允许通过 WHERE 条件(如价格区间、尺码、品牌)进行精确过滤。
  3. 甚至结合用户画像,对结果进行个性化重排。
  • 最终效果:一条SQL完成“语义理解 + 关键词匹配 + 结构化过滤”的混合召回,实现毫秒级的响应

2.向量数据的准备

我们需要将非结构化的文本(商品的标题、描述等)转换为计算机能理解的、固定长度的数值列表,也就是向量(Embeddings)。

这里以一个简单例子说明,对于商品“商品A”,我们通过调用嵌入模型服务(如OpenAI的text-embedding-3-small或开源的bge-m3)来向量化:

  • 商品ID (ID): 1001
  • 商品标题 (title): “冬季新款宽松高领毛衣”
  • 品类 (category): "服装"
  • 价格 (price): 299
  • 人工生成的向量 (embedding): 这里用简化的3维数组作为示例:[0.12, 0.85, 0.34]

3.Doris建商品表

-- 创建商品向量表
CREATE TABLE product_vectors (
    product_id BIGINT NOT NULL COMMENT "商品ID",
    title VARCHAR(255) COMMENT "商品标题",
    category VARCHAR(64) COMMENT "商品类目",
    price DECIMAL(10,2) COMMENT "商品价格",
    tags ARRAY<VARCHAR(50)> COMMENT "商品标签,用于结构化过滤",
    embedding ARRAY<FLOAT> NOT NULL COMMENT "商品的文本语义向量",
    INDEX idx_tit

http://www.gsyq.cn/news/1395635.html

相关文章:

  • Python期末实战:从基础语法到项目开发的通关指南
  • 2026年五款AI PPT工具横评:输入主题生成哪家强?
  • 上海入境就医服务公司哪个好
  • 年增3.1%!雷达系统行业韧性十足,智能化升级提速
  • 2026年5月内蒙古地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • 2026年5月南宁地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • 2026年5月铁岭地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • Windows 安装 MySQL 8 和 DBeaver
  • 告别低效制作!解锁 okbiye AI PPT 新玩法,高效完成毕业论文答辩演示文稿
  • 为开源agent工具hermes配置taotoken作为自定义模型供应商
  • 2026理解AI的20个核心概念:从原理到应用
  • 2026年5月晋中地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • 2026年5月通化地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • 告别重复点击:用AI视觉语言模型重新定义桌面自动化控制
  • 通过 curl 命令快速测试 Taotoken API 连通性与模型响应效果
  • 11-实时监控与链路拓扑:平台如何把运行中的请求“看见”
  • 2026年上半年沈阳微信小程序开发公司口碑榜单
  • 2026年5月荆州地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • 从被退稿到录用:用ChatGPT完成SCI论文语言润色与降重的完整工作流(含版本控制模板)
  • 17:Allure Report 自动化测试报告
  • 基于Arduino Uno与WS2812B的3D圣诞树灯光系统设计与实现
  • H5P交互式视频实战宝典:从零到一打造沉浸式学习体验
  • 如何高效使用Angry IP Scanner:免费网络扫描工具完整部署与配置方案
  • 2026实测:即梦导出不带水印原图方法,即梦去水印设置全攻略
  • 基于PIC单片机的低成本有线防盗报警器DIY:双回路动态检测与抗干扰设计
  • 2026年5月铜陵地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收
  • 2026年烟台口碑好的装修公司哪家专业?答案就在这里! - 资讯纵览
  • 基于复杂网络神经动力学的缺陷报告自动分派框架设计与实现
  • 项目上线之后,我为什么还在继续用 AI 写文档、教程和运营内容
  • 2026年5月铜仁地区黄金回收白银铂金回收甄选门店推荐TOP1 地址及联系方式 - 五金回收