输入任意 Washington Post URL,输出 HTML 或 JSON。
Crawling API,实时呈现。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停可暂停以细读。
一个 API,应对 Washington Post 抛出的一切。
Washington Post 将文章置于计量付费墙之后,用 JavaScript 渲染报道,并在文章页和栏目页监测机器人。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并交付干净的 HTML 或 JSON。
完整 JavaScript 渲染
真实浏览器执行页面,因此通过 JavaScript 加载的标题、署名、时间戳和正文都会被捕获,而不仅仅是初始 HTML。
140M 住宅 IP
每个请求都会在 30 个地区轮换住宅 IP,让你像真实的本地读者一样访问 Washington Post。
拦截由我们处理
机器人检测、计量付费墙和速率限制都会被自动清除。无需破解,也无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor,以结构化 JSON 返回标题、内容、图片和链接。
截图与异步
同一次调用即可捕获整页截图,或借助 webhook 与云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会得到渲染后的 HTML。添加 generic-extractor,同一页面便会以类型化的 JSON 返回。
页面
title · string canonical · string favicon · string
元信息
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 Washington Post 请求都走同一条路径。你发送 URL,中间的一切由我们负责。
发送 URL
带上你的令牌传入任意公开的 Washington Post URL:首页、栏目、文章或搜索。
轮换代理
一个能干净访问 Washington Post 的住宅 IP 与地区,取自 30 个地区的 140M IP。
渲染页面
真实浏览器加载页面,让标题、署名、时间戳和完整正文在捕获前完成渲染。
清除反爬
文章页和栏目页上的计量付费墙、机器人检测和速率限制都会被自动处理。无需破解,也无需维护。
返回 HTML 或 JSON
拿回完整渲染的 HTML,或在你添加 generic extractor 时获得类型化的 JSON。
团队用 Washington Post 数据构建什么。
新闻监测
追踪首页、栏目页和文章页,在突发报道和更新发布时及时捕获。
媒体与叙事分析
追踪话题、人物和政策在政治、商业与评论报道中的呈现方式。
情感与语气分析
提取标题和正文,随时间对各栏目的情感与语气进行评分。
研究与归档
为研究数据集和长期归档捕获干净的文章文本与元数据。
训练数据与 RAG
通过一个 API 将干净的文章文本输入模型、RAG 管线和智能体。
任意 URL,一个 API
爬取首页、栏目、文章和搜索,以及你需要的任何其他站点。
抓取 The Washington Post 时值得了解的要点。
像真实浏览器一样渲染
Washington Post 用 JavaScript 渲染文章;Crawling API 运行真实浏览器,让标题、署名、时间戳和正文在捕获前加载完成。
默认 HTML,按需 JSON
你会得到完整渲染的 HTML。添加 scraper=generic-extractor 可获得解析后的标题、内容、图片和链接,或者你也可以自行解析 HTML。
计量付费墙,公开视图
文章位于计量付费墙之后;Crawling API 无需登录即可读取公开可见的页面,因此你得到的是未登录读者所看到的内容。
随处访问 Washington Post
跨 30 个地区的地理定向和 140M 住宅 IP,意味着无需管理代理即可获得稳定的访问。
为大规模爬取 The Washington Post 而打造。
Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络之上。无需购买代理,无需运行浏览器,Washington Post 变更时也无需打补丁。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。