汪图南
  • RAG

    • RAG
  • 快速入门
  • 高级技巧
前端面试之道
  • 打包工具

    • Webpack
    • Rollup
  • TypeScript

    • TypeScript基础
    • TypeScript类型挑战
  • CSS预编译器

    • SASS
  • 自动化测试

    • Vue应用测试
  • Vue2.0源码分析
  • Vue3.0源码分析
  • 数据结构和算法(基础)
  • LeetCode(刷题)
  • JavaScript书籍

    • 你不知道的JavaScript(上)
    • 你不知道的JavaScript(中下)
    • JavaScript数据结构和算法
    • JavaScript设计模式与开发实践
    • 深入理解ES6
  • Git书籍

    • 精通Git
Github
  • RAG

    • RAG
  • 快速入门
  • 高级技巧
前端面试之道
  • 打包工具

    • Webpack
    • Rollup
  • TypeScript

    • TypeScript基础
    • TypeScript类型挑战
  • CSS预编译器

    • SASS
  • 自动化测试

    • Vue应用测试
  • Vue2.0源码分析
  • Vue3.0源码分析
  • 数据结构和算法(基础)
  • LeetCode(刷题)
  • JavaScript书籍

    • 你不知道的JavaScript(上)
    • 你不知道的JavaScript(中下)
    • JavaScript数据结构和算法
    • JavaScript设计模式与开发实践
    • 深入理解ES6
  • Git书籍

    • 精通Git
Github
  • RAG基础

    • 介绍
    • 概念名词
  • 简易RAG

    • 前置准备
    • LangChain实现RAG
    • LangGraph实现RAG
    • LangChain vs LangGraph
  • RAG数据导入

    • 介绍
    • Document类型
    • 简单文本导入
    • JSON
    • HTML网页数据
    • Markdown
    • CSV
    • OCR
    • PDF
    • DataBase
  • RAG文本切块

    • 介绍
  • RAG向量嵌入

    • 介绍

Document类型

LangChain中通过各种loader加载后的对象是Document类型,其包含page_content和metadata两个重要属性。

除了可以从loader加载,还可以手动构造Document对象数据,例如:

from langchain_core.documents import Document

documents = [
  Document(
    page_content="唐僧是师傅",
    metadata={"source": "师徒四人.txt"}
  ),
  Document(
    page_content="悟空是大师兄",
    metadata={"source": "师徒四人.txt"}
  ),
  Document(
    page_content="八戒是二师兄",
    metadata={"source": "师徒四人.txt"}
  ),
  Document(
    page_content="沙僧是三师兄",
    metadata={"source": "师徒四人.txt"}
  ),
  Document(
    page_content="白龙马是小师弟",
    metadata={"source": "师徒四人.txt"}
  )
]

print(documents)

输出结果:

[
  Document(metadata={'source': '师徒四人.txt'}, page_content='唐僧是师傅'),
  Document(metadata={'source': '师徒四人.txt'}, page_content='悟空是大师兄'),
  Document(metadata={'source': '师徒四人.txt'}, page_content='八戒是二师兄'),
  Document(metadata={'source': '师徒四人.txt'}, page_content='沙僧是三师兄'),
  Document(metadata={'source': '师徒四人.txt'}, page_content='白龙马是小师弟')
]
最后更新时间: 2025/5/6 15:36
贡献者: wangtunan
Prev
介绍
Next
简单文本导入