直接回答: Crawlbase 现在开发者可以将网页抓取为纯净的 Markdown 格式,而不是原始的 HTML 或 JSON 格式。只需在文件名中添加 format=md 即可。 Crawling API 首先请求接收 Markdown 格式的数据,然后添加 `md_readability=true` 参数,以便在转换前提取主要可读内容。这样得到的网页数据更清晰,可以直接用于 LLM 提示、嵌入、AI 代理和 RAG 流程,无需太多预处理。
Crawlbase 通过以下方式提供 LLM 就绪的 Markdown,用于创建干净的 Web AI 数据: Crawling API通过添加 format=md 通过添加参数,开发者可以请求以 Markdown 格式而非原始 HTML 格式输出网页。 md_readability=true 在转换之前进一步提取主要可读内容,减少菜单、脚本和页面冗余信息。最终得到更清晰的网页数据,可以直接导入 LLM 提示、RAG 流程、嵌入代码和 AI 代理,无需单独的 HTML 清理步骤。
为了帮助开发者快速进行测试, Crawlbase 同时,GitHub 上也提供了一个现成的演示项目:
ScraperHub/crawlbase-delivers-llm-ready-markdown-for-clean-web-ai-data
该演示使用了一个轻量级的 Python 脚本来读取您的数据。 Crawlbase 使用 API 令牌请求启用 Markdown 输出的页面,然后将响应保存为本地文件。 .md 文件中。
一个典型的页面包含浏览器需要但模型不需要的菜单、脚本、跟踪标签、侧边栏和布局标记。 Crawlbase 通过为现代 AI 管道构建的实用 Markdown 输出 API,返回更接近爬取本身的更清晰的内容,从而增强工作流程。
目录
- 为什么 Markdown 比 HTML 更适合 LLM 流程
- 创新中心 Crawlbase Markdown 输出正常
- 应该使用哪种模式?
- 这对 RAG 管道为何重要
- 创新中心 Crawlbase 简化您的 AI 数据抓取堆栈
- 简单的 Python 示例:运行 Crawlbase Markdown 输出时间(分钟)
- 演示脚本的输出结果
- LLM就绪型网络爬虫的实际应用案例
- 为什么人工智能代理获益最多
- 开始使用 LLM 就绪的网络爬虫 Crawlbase
- 常見問題解答
为什么 Markdown 比 HTML 更适合 LLM 流程
HTML 最初是为在浏览器中渲染页面而设计的。 降价 更接近人工智能系统真正需要的:结构清晰易读的文本。
当原始 HTML 进入 LLM 工作流程时,模型通常需要先处理标记、样板代码和重复的页面元素,才能获取实际内容。这意味着标记会被浪费,数据块会变得混乱,嵌入的精确度会降低,摘要通常需要额外的清理工作。此外,当 AI 代理的 Web 工具返回不一致或杂乱的输出时,其可靠性也会降低。
Markdown 消除了大部分这种摩擦,同时保留了重要的结构。标题保持条理清晰,段落易于阅读,列表得以保留,表格更易于理解,链接也依然有效,不会被隐藏在代码中。
这样一来,Markdown 就更容易进行分块、嵌入矢量数据库、汇总、手动检查,以及直接传递到提示或代理工作流程中。
对于那些这样做的团队 用于人工智能的网络爬虫输出格式并非小细节,它直接影响下游质量。
创新中心 Crawlbase Markdown 输出正常
Crawlbase 支持通过以下方式提供原生 Markdown 响应: Crawling API.
只需添加 格式参数 您的 API 请求:
1 | 格式=md |
这说明 Crawlbase 返回 Markdown 而不是 HTML。
为了突出主页内容,请添加:
1 | md_readability=true |
这样可以在转换之前提取可读性信息,帮助去除周围的杂乱元素,例如菜单、侧边栏和页脚信息。
基本的cURL请求格式:
1 | 卷曲 "https://api.crawlbase.com/?token=USER_TOKEN&url=https%3A%2F%2Fexample.com&format=md&md_readability=true" |
结果更干净。 适用于LLM的网络爬虫 一次请求即可输出结果。
format=md vs md_readability=true应该使用哪种模式?
两种方法都很有用,具体取决于你的工作流程。
| 请求模式 | 最佳用例 |
|---|---|
format=md | 保留更广泛的页面上下文,例如菜单、相关链接和导航。 |
format=md&md_readability=true | LLM、RAG、摘要的主要内容提取 |
如果你的目标是嵌入、搜索或提示,请先启用可读性。
如果你的目标是进行网站结构分析或更广泛的内容采集,那么纯 Markdown 可能更合适。
这对 RAG 管道为何重要
鲁尔检索增强生成(Retrieval-Augmented Generation,简称 Retrieval-Augmented Generation)是一种让语言模型在生成答案之前就能获取外部知识的方法。与仅仅依赖训练数据不同,该模型首先检索相关的文档或文本片段,然后利用这些上下文信息进行回答。
典型的 RAG 工作流程很简单:获取内容,将其分割成块,创建嵌入,将其存储在向量数据库中,稍后检索相关段落,然后将该上下文发送给模型。
然而,如果原始页面充斥着无用文本、重复的菜单、cookie 横幅广告或无关链接,这些无用信息就会被分块并与有用内容一起索引。这种情况发生时,检索质量会下降,搜索结果也会变得不那么可靠。
更简洁的 Markdown 能为你的工作流程奠定更好的基础。每个代码块更有可能包含有意义的文本,而不是杂乱的布局,这不仅能提高检索效率,还能让最终响应更加可靠。
这就是为什么 RAG管道网络数据 质量在你联系模特之前就非常重要了。
创新中心 Crawlbase 简化您的 AI 数据抓取堆栈
如果没有原生 Markdown 输出,许多团队会构建类似这样的代码:
1 | 获取 HTML |
在这种情况下,网站改版可能会导致选择器失效。新的 cookie 横幅可能会污染提取的文本。解析器在一个页面模板上可能运行良好,但在另一个页面模板上却会失效。突然之间,工程师们不得不花费时间来修复清理逻辑,而不是改进 AI 产品本身。
Crawlbase 通过将大部分格式化工作移至更靠近爬网的位置,减少了这种开销。
启用 Markdown 输出后,工作流程将变得更加简单:
1 | 获取 Markdown Crawlbase |
这意味着更少的故障点,更多的工程时间可以用于提高检索质量、提示、代理和产品功能。
简单的 Python 示例:运行 Crawlbase Markdown 输出时间(分钟)
Crawlbase 在 GitHub 上有一个现成的演示项目,展示了如何请求 Markdown 输出并将其保存到本地。
库:
ScraperHub/crawlbase-delivers-llm-ready-markdown-for-clean-web-ai-data
此演示版本特意保持设置简洁,以便开发人员可以快速进行测试。
第一步:克隆演示仓库
1 | 混帐 克隆 https://github.com/ScraperHub/crawlbase-delivers-llm-ready-markdown-for-clean-web-ai-data.git |
步骤 2:创建虚拟环境
Windows PowerShell中
1 | python -m venv .venv |
macOS / Linux
1 | python3 -m venv .venv |
第 3 步:安装要求
1 | pip install -r requirements.txt |
第五步:添加您的 Crawlbase API令牌
Windows PowerShell中
1 | $env:CRAWLBASE_TOKEN="YOUR_TOKEN" |
macOS / Linux
1 | 出口 CRAWLBASE_TOKEN="YOUR_TOKEN" |
步骤 5:运行演示
使用默认示例 URL:
1 | 蟒蛇crawlbase_markdown_demo.py |
或者抓取您自己的页面:
1 | python crawlbase_markdown_demo.py --url "https://example.com/" |
步骤 6:比较有可读性和无可读性两种情况
为了保持更广泛的页面内容:
1 | python crawlbase_markdown_demo.py --url "https://example.com/" --no-md-可读性 |
步骤 7:打开输出文件
脚本会将 Markdown 文件保存到本地,通常保存到:
1 | 输出/页面.md |
用任意编辑器打开该文件并查看结果。
演示脚本的输出结果
演示成功运行后,它会执行两项操作:将 Markdown 响应保存到本地文件,并在终端打印简短的爬虫摘要。
典型的输出结果如下所示:
1 | 原始状态:200 |
这样可以立即确认请求是否成功,目标网站返回了什么,以及 Markdown 文件保存在哪里。
如果页面重定向、超时或返回不完整的内容,您的数据管道应该在存储错误数据或索引弱内容之前就检测到这些问题。在数据摄取阶段进行一些小的检查可以防止后续检索和结果质量方面出现更大的问题。

生成的 Markdown 文件能够以易于阅读的格式捕获产品标题、链接、类别文本、导航标签和页面结构。与包含大量脚本和布局代码的原始 HTML 相比,您将获得更易于检查和处理的结构化文本。
这使得它更具实用性。 用于人工智能的网络爬虫内部搜索工具或清理器 RAG管道网络数据 摄入。
LLM就绪型网络爬虫的实际应用案例
Markdown 输出在任何需要将 Web 内容转换为可用于模型的上下文的地方都非常有用。
- 文档聊天机器人: 通过将文档页面转换为便于搜索和检索的简洁 Markdown 块,保持产品文档或帮助中心的时效性。
- 人工智能研究代理: 以模型可以快速阅读的格式获取文章、报告、文件或公共资源。
- 竞争对手监控:无需每次都解析原始 HTML,即可跟踪定价页面、功能页面、更新日志和公告。
- 内部搜索系统: 利用来自网络各处的更纯净的原始资料,构建可搜索的知识索引。
- 摘要生成流程: 将长篇页面转换为简洁的摘要,减少预处理工作量。
这些都是 LLM 就绪的网络爬虫的实际示例,其中输出质量直接影响结果。
为什么人工智能代理获益最多
当人工智能代理的工具能够返回可预测、可读的输出结果时,它们通常表现得更好。
如果代理获取的是原始 HTML,模型必须先处理标签、布局代码和各种冗余信息才能理解页面内容。这会浪费令牌并增加交互阻力。
如果同一工具返回的是经过可读性过滤的 Markdown,那么模型从一开始就能获得更接近可用文档的内容。
这使得页面摘要、字段提取、来源比较、后续操作决策和证据引用变得更加容易。对于构建自主工作流的团队而言,更清晰的工具输出通常意味着更清晰的代理循环。
开始使用 LLM 就绪的网络爬虫 Crawlbase
互联网上不乏有价值的信息。真正的挑战在于如何将这些信息转化为人工智能系统能够高效利用的内容。
原始 HTML 经常会造成不必要的清理工作,特别是对于构建检索系统、AI 代理和搜索工作流程的团队而言。 Crawlbase 它直接从爬取过程中返回干净的 Markdown,从而消除了大部分摩擦。
这样做 Crawlbase 一个实用的 Markdown 输出 API,面向专注于 LLM 就绪型和现代化项目的团队。 用于人工智能的网络爬虫 应用案例。与其花费工程时间剥离 HTML,不如加快分块、嵌入、检索质量和重要产品功能的开发。
对于构建搜索系统或检索工作流程的公司而言,更清晰的源内容也有助于提升搜索效率。 RAG管道网络数据 从头开始。
开始使用 Crawlbase Markdown 输出 立即使用您的 1,000 次免费请求,在您自己的 URL 上测试更干净、更适合 AI 的网络数据。
常见问题解答 (FAQs)
1. 什么是 LLM 就绪的网络爬虫?
支持语言模型 (LLM) 的网络爬虫意味着以语言模型可以直接使用的格式收集网络内容,只需进行极少的清理。输出结果不再是充满脚本、样式和导航元素的原始 HTML,而是更简洁、结构化的文本,例如 Markdown,这种格式更容易进行分段、嵌入、概括和传递给提示。
2. 为什么 Markdown 比 HTML 更适合 RAG 流水线?
对于 RAG(资源管理器)来说,Markdown 通常更胜一筹,因为它保留了标题、列表、链接和表格等有用的结构,而无需添加不必要的标记。与杂乱的原始 HTML 相比,这可以创建更清晰的代码块、更好的嵌入效果以及更相关的检索结果。
3. 如何从中获取 Markdown 输出 Crawlbase?
使用 Crawlbase Crawling API 并添加 format=md 添加到您的请求中。如果您还希望在转换前提取主要内容,请添加以下内容。 md_readability=true这样可以生成更简洁的 Markdown,可以直接用于 AI 工作流程、搜索系统或代理管道。










