汪图南
  • RAG

    • RAG
  • 快速入门
  • 高级技巧
前端面试之道
  • 打包工具

    • Webpack
    • Rollup
  • TypeScript

    • TypeScript基础
    • TypeScript类型挑战
  • CSS预编译器

    • SASS
  • 自动化测试

    • Vue应用测试
  • Vue2.0源码分析
  • Vue3.0源码分析
  • 数据结构和算法(基础)
  • LeetCode(刷题)
  • JavaScript书籍

    • 你不知道的JavaScript(上)
    • 你不知道的JavaScript(中下)
    • JavaScript数据结构和算法
    • JavaScript设计模式与开发实践
    • 深入理解ES6
  • Git书籍

    • 精通Git
Github
  • RAG

    • RAG
  • 快速入门
  • 高级技巧
前端面试之道
  • 打包工具

    • Webpack
    • Rollup
  • TypeScript

    • TypeScript基础
    • TypeScript类型挑战
  • CSS预编译器

    • SASS
  • 自动化测试

    • Vue应用测试
  • Vue2.0源码分析
  • Vue3.0源码分析
  • 数据结构和算法(基础)
  • LeetCode(刷题)
  • JavaScript书籍

    • 你不知道的JavaScript(上)
    • 你不知道的JavaScript(中下)
    • JavaScript数据结构和算法
    • JavaScript设计模式与开发实践
    • 深入理解ES6
  • Git书籍

    • 精通Git
Github
  • RAG基础

    • 介绍
  • 简易RAG

    • 前置准备
    • LangChain实现RAG
    • LangGraph实现RAG
    • LangChain vs LangGraph
  • 数据导入(Loader)

    • 介绍
    • Document类型
    • 简单文本导入
    • JSON
    • HTML网页数据
    • Markdown
    • CSV
    • OCR
    • PDF
    • DataBase
  • 文本切块(Chunking)

    • 介绍
    • 分块方法
  • 数据嵌入(Embedding)

    • 介绍
    • 向量相似度计算
    • 稀疏嵌入
    • 密集嵌入
    • 混合嵌入
  • 向量存储(VectorStore)

    • 介绍
    • Chroma
    • Milvus

Markdown

提示

UnstructuredMarkdownLoader文档

from langchain_community.document_loaders import UnstructuredMarkdownLoader

data_loader = UnstructuredMarkdownLoader(
  file_path="./data/黑悟空/黑悟空版本介绍.md",
  mode="elements",
  strategy="fast"
)

documents = data_loader.load()

for doc in documents[:5]:
  print("========文档内容========")
  print(f"""element_id={doc.metadata.get('element_id')}, parent_id={doc.metadata.get('parent_id')}""")
  print(f"""{doc.page_content}""")

输出结果:

========文档内容========
element_id=b89add9386b58a1638e0b96d19f08d0d, parent_id=None
黑神话:悟空 🐵
========文档内容========
element_id=4d1fd58a257960aafb046fc47605c217, parent_id=b89add9386b58a1638e0b96d19f08d0d
黑神话:悟空 是由中国游戏开发团队制作的一款备受瞩目的动作冒险游戏,以《西游记》为背景,重新演绎了经典故事,带来了极 
具冲击力的视觉和游戏体验。
========文档内容========
element_id=2aecac605c643fd6e5877eb2943061d9, parent_id=b89add9386b58a1638e0b96d19f08d0d
游戏版本介绍
========文档内容========
element_id=066222dfa5c88f6daf909cc9f97ddc30, parent_id=2aecac605c643fd6e5877eb2943061d9
1. 数字标准版 💻
========文档内容========
element_id=871db441632d0e97daf97578eef69d48, parent_id=066222dfa5c88f6daf909cc9f97ddc30
包含基础游戏
最后更新时间: 2025/5/31 04:26
贡献者: wangtunan
Prev
HTML网页数据
Next
CSV