汪图南
LLM
LLM
RAG
RAG
Python技术栈
Python技术栈
快速入门
高级技巧
前端面试之道
前端技术栈
前端技术栈
打包工具
Webpack
Rollup
TypeScript
TypeScript基础
TypeScript类型挑战
CSS预编译器
SASS
自动化测试
Vue应用测试
Vue源码分析
Vue源码分析
Vue2.0源码分析
Vue3.0源码分析
算法
算法
数据结构和算法(基础)
LeetCode(刷题)
书籍
书籍
JavaScript书籍
你不知道的JavaScript(上)
你不知道的JavaScript(中下)
JavaScript数据结构和算法
JavaScript设计模式与开发实践
深入理解ES6
Git书籍
精通Git
Github
介绍
为什么要切块
将比较长的文本分解成适当大小的片段,有助于嵌入、索引和存储,并提高检索的精确度。
具体体现在:
大模型一次处理文本
Token
的数量是有限制的。
对嵌入模型而言,其向量一般都有维度限制,如果文本比较长,则必然在压缩向量维度时
丢失
一些相关信息。
对生成模型而言,如果上线文太长,则在检索信息时必然低效和不精确。
分块可视化工具
提示
ChunkViz
Next
分块方法