更新日志
Crawlbase API、SDKs 和集成的近期发布。源代码仓库位于 github.com/crawlbase。
2026 年 6 月
2026-06-06 · 新增抓取器:Galaxus
- 为 Galaxus 新增三个抓取器 - Product、SERP 和 Product Reviews - 从 galaxus.ch 返回结构化的产品、搜索和评论数据。
2026-06-04 · Crawling API:PDF 输出
- Crawling API 新增
pdf=true参数,将完全渲染的页面以 PDF(Content-Type: application/pdf)形式返回,而不是 HTML。 - 可与渲染参数(
country、device、page_wait)组合使用;PDF 请求的计费与 JavaScript 渲染请求相同。
2026-06-02 · Crawler 管理 API
- 通过 REST 以编程方式创建、获取和更新 Crawler,而不仅仅通过仪表板。
- 新增端点:
POST /crawler/<TOKEN>用于创建,GET /crawler/<TOKEN>/<NAME>用于查看详情,PUT /crawler/<TOKEN>/<NAME>用于更新。
2026 年 5 月
2026-05-21 · 免密码注册
- 使用发送到您邮箱的一次性验证码登录。无需设置、记忆或重置密码;现有账号仍可照常使用。
- 为新账号重新设计了注册流程。我们会根据您填写的使用场景预选工作流(scraping、MCP 或 integrations),实时预览您的第一个 Crawling API 请求,并在完成后将您引导至对应的仪表盘版块。
2026-05-08 · 全新文档站点
- 全面重构了 /docs:重新设计导航、新增深色模式,并在所有章节中实现即时页内切换。
- 命令面板搜索(
⌘K/Ctrl K)可从任意位置直接跳转到页面、章节和 API 参数。 - 新增 Ask AI 按钮,可在页内打开一个经 Crawlbase 训练的助手,让您无需离开文档即可提问。
- 交互式 API Playground 可直接在浏览器中发起真实的 Crawling API 调用,并在 body 旁边展示响应头和渲染后的页面预览。
- 在任何文档 URL 后追加
.md(例如/docs/crawling-api.md),即可获取一份干净的 Markdown 副本,方便交给 LLM。 - 发布 /llms.txt 作为 AI 助手发现内容的索引。
- 全面更新了德语、法语、俄语和简体中文翻译,使每一页的文案更精准、更地道。
2026-05-03 · Go SDK v0.1.0
- 首个面向 Crawlbase API 的官方 Go SDK。单一
CrawlingAPI客户端、零依赖、地道的 Go 风格。 - 源代码:github.com/crawlbase/crawlbase-go。参考文档发布于 pkg.go.dev。
2026-05-02 · LangChain 集成 v0.1.0
- langchain-crawlbase 现已上线 PyPI:一个由 Crawling API 驱动的文档加载器、工具和检索器。
- 源代码:github.com/crawlbase/langchain-crawlbase。
2026 年 4 月
2026-04-24 · Crawling API:Markdown 输出
- Crawling API 上新增的
format=md参数会返回干净的 Markdown,而非 HTML。 - 搭配
md_readability=true使用,可在转换前去除导航、广告和页面外框,效果类似阅读模式。
2026-04-23 · 平板设备选项
- Crawling API 的
device参数现在除desktop和mobile外,也接受tablet。
2026-04-23 · MCP Server v1.3.0:存储工具
- Crawlbase MCP server 新增六个存储工具,让 agent 不仅能触发新的抓取,还能在抓取之间列出、读取和清理 Cloud Storage 中的内容。
- 已发布为
@crawlbase/[email protected]。
2026-04-23 · Codex 插件
- Crawlbase Codex 插件将 Crawlbase MCP 引入 OpenAI Codex。
- 目前需通过
git clone至~/.codex/plugins/手动安装;Codex Marketplace 上架审核中。 - 源代码:github.com/crawlbase/crawlbase-codex-plugin
2026 年 3 月
2026-03-25 · Enterprise Crawler:queue_timeout
- Enterprise Crawler 推送现在接受
queue_timeout,可限定请求在队列中的最长停留时间,超时后丢弃,而不是无限等待。
2026 年 2 月
2026-02-10 · Crawler 更名为 Enterprise Crawler
- 异步推送/拉取产品在控制面板和文档中统一更名为 Enterprise Crawler,以与同步的 Crawling API 加以区分。
- 端点、参数和 token 保持不变。
2025 年 11 月
2025-11-25 · MCP Server v1.2.0:认证和 HTTP 模式
- MCP server 现已支持基于 header 的身份认证,以及在 stdio 之外可选的 HTTP 传输模式,适用于共享/远程 MCP 部署场景。
- 已发布为
@crawlbase/[email protected]。
2025-11-04 · Crawlbase 品牌覆盖所有语言版本
- Crawlbase 更名现已体现在文档的每个翻译版本中(此前仅限英文版)。
2025 年 10 月
2025-10-20 · Storage API 更名为 Cloud Storage
- 检索与保留产品在文档、控制面板和 SDK 方法名中统一更名为 Cloud Storage。现有的
/storage端点继续可用。
2025 年 9 月
2025-09-26 · custom_success_code 参数
- Crawling API 新增
custom_success_code,让您在抓取那些合理返回如 404 或 451 的端点时,可以将非 2xx 响应标记为成功。
2025-09-16 · Smart Proxy → Smart AI Proxy
- Smart Proxy 现在更名为 Smart AI Proxy,体现底层新增的 AI 驱动路由与重试逻辑。客户端无需任何变更。
2025 年 7 月
2025-07-10 · Crawlbase MCP Server v1.0
- Crawlbase MCP server 的首次公开发布,以
@crawlbase/mcp形式登陆 npm:提供三个抓取工具(crawl、crawl_markdown、crawl_screenshot),可在 Claude Desktop & Claude Code、Cursor 以及 VS Code / Windsurf 中使用。
2025 年 6 月
2025-06-25 · Smart Proxy:header 与 cookie 转发
- Smart Proxy 现可将自定义请求 header 和 cookie 透传至目标站点,适用于需要身份认证的抓取和会话绑定的采集场景。
2025-06-18 · scroll_interval 计费说明
- Crawling API 文档现在明确说明了
scroll_interval在长滚动页面中如何计入计费,让您在发起无限滚动抓取之前就能预估其成本。