汪图南
  • RAG

    • RAG
  • 快速入门
  • 高级技巧
前端面试之道
  • 打包工具

    • Webpack
    • Rollup
  • TypeScript

    • TypeScript基础
    • TypeScript类型挑战
  • CSS预编译器

    • SASS
  • 自动化测试

    • Vue应用测试
  • Vue2.0源码分析
  • Vue3.0源码分析
  • 数据结构和算法(基础)
  • LeetCode(刷题)
  • JavaScript书籍

    • 你不知道的JavaScript(上)
    • 你不知道的JavaScript(中下)
    • JavaScript数据结构和算法
    • JavaScript设计模式与开发实践
    • 深入理解ES6
  • Git书籍

    • 精通Git
Github
  • RAG

    • RAG
  • 快速入门
  • 高级技巧
前端面试之道
  • 打包工具

    • Webpack
    • Rollup
  • TypeScript

    • TypeScript基础
    • TypeScript类型挑战
  • CSS预编译器

    • SASS
  • 自动化测试

    • Vue应用测试
  • Vue2.0源码分析
  • Vue3.0源码分析
  • 数据结构和算法(基础)
  • LeetCode(刷题)
  • JavaScript书籍

    • 你不知道的JavaScript(上)
    • 你不知道的JavaScript(中下)
    • JavaScript数据结构和算法
    • JavaScript设计模式与开发实践
    • 深入理解ES6
  • Git书籍

    • 精通Git
Github
  • RAG基础

    • 介绍
  • 简易RAG

    • 前置准备
    • LangChain实现RAG
    • LangGraph实现RAG
    • LangChain vs LangGraph
  • 数据导入(Loader)

    • 介绍
    • Document类型
    • 简单文本导入
    • JSON
    • HTML网页数据
    • Markdown
    • CSV
    • OCR
    • PDF
    • DataBase
  • 文本切块(Chunking)

    • 介绍
    • 分块方法
  • 数据嵌入(Embedding)

    • 介绍
    • 向量相似度计算
    • 稀疏嵌入
    • 密集嵌入
    • 混合嵌入
  • 向量存储(VectorStore)

    • 介绍
    • Chroma
    • Milvus

混合嵌入

混合嵌入(Hybrid Embedding):是现代信息检索和推荐系统中一种结合了稀疏嵌入(Sparse Embedding) 和 密集嵌入(Dense Embedding) 的方法,旨在发挥两者的优势,弥补各自的缺陷,提升模型的表达能力、泛化能力和可解释性。它在推荐系统、搜索引擎、自然语言处理(NLP)、计算机视觉(CV)等领域有广泛应用

为什么需要混合嵌入

类型优点缺点
稀疏嵌入(如 BM25, TF-IDF)精确匹配强、可解释性高不理解同义词、语义差
密集嵌入(如 BERT 向量)语义理解强、支持近似匹配忽略拼写/实体差异,泛化可能过强
混合嵌入精确匹配语义泛化

混合嵌入的典型结构

混合嵌入通常由两部分组成:

  • 稀疏嵌入层:处理离散特征(如类别型变量)。
  • 密集嵌入层:处理连续特征(如文本、图像)。
  • 融合策略:将两种嵌入结合(如拼接、加权、注意力机制)。

混合嵌入的实现方案

方法最佳场景计算开销特点
并行混合Wide & Deep推荐系统、广告CTR低稀疏部分记忆历史行为,密集部分泛化语义,适合特征明确的场景
交叉混合DeepFM电商特征交叉中结合FM的二阶特征交互和DNN的高阶非线性,适合需要显式特征交叉的任务
动态门控混合Gating Network多模态数据(文本+图像)高动态调整稀疏/密集特征权重,适合异构数据融合
特征拼接混合Concatenation结构化数据分类低简单直接拼接特征,适合快速原型开发或特征维度相近的场景
图混合嵌入Graph Hybrid社交网络/知识图谱高用GNN处理关系数据,DNN处理属性数据,适合图结构与非结构化数据混合的场景
最后更新时间: 2025/5/31 05:05
贡献者: wangtunan
Prev
密集嵌入