输入任意 Reddit URL,输出 HTML 或 JSON。
Crawling API,实时呈现。获取渲染后的 HTML,或切换到通用提取器返回 JSON。悬停可暂停并细读。
一个 API,应对 Reddit 抛给你的一切。
Reddit 高度依赖 JavaScript 且极易封锁。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。
完整 JavaScript 渲染
真实浏览器会执行页面,因此动态加载的帖子、评论、无限滚动和媒体都会被完整捕获,而不仅仅是初始 HTML。
1.4 亿住宅 IP
每个请求都会在 30 个地区之间轮换住宅 IP,让你像真实本地访客一样访问 Reddit。
封锁由我们代为处理
CAPTCHA、机器人拦截墙和速率限制都会被自动清除。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor 以将标题、内容、图片和链接作为结构化 JSON 返回。
截图与异步
同一个调用可以捕获整页截图,或通过 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor 后同一页面便会作为类型化 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 Reddit 请求都经过同一条路径。你发送一个 URL,其间的一切由我们处理。
发送 URL
携带你的令牌传入任意公开 Reddit URL:子版块、帖子、用户页面或搜索页。
轮换代理
从 30 个地区的 1.4 亿 IP 中选取一个能干净访问 Reddit 的住宅 IP 和地区。
渲染页面
真实浏览器加载页面,使帖子、评论和无限滚动内容在捕获前完成渲染。
清除反爬
Reddit 的机器人检测和速率限制都会被自动处理。无需破解,无需维护。
返回 HTML 或 JSON
返回完整渲染的 HTML,或在添加通用提取器时返回类型化 JSON。
各团队用 Reddit 数据构建什么。
社区与情感研究
跨子版块提取帖子和评论,以追踪情感、提及和新兴讨论。
趋势与话题监控
关注子版块和搜索页面,尽早发现上升的话题、产品和舆论走向。
训练数据与 RAG
通过一个 API 将干净的 Reddit 文本输入模型、RAG 流水线和智能体。
品牌与产品监控
监控社区对你的品牌、竞争对手和品类的评价。
市场与用户体验研究
挖掘真实的用户语言、问题和抱怨,为产品和内容提供参考。
任意 URL,一个 API
爬取帖子、评论、用户页面和搜索,以及你需要的任何其他站点。
抓取 Reddit 时的实用要点。
像真实浏览器一样渲染
Reddit 高度依赖 JavaScript;Crawling API 运行真实浏览器,使帖子、评论和无限滚动内容在捕获前加载完成。
默认返回 HTML,按需返回 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 可获得解析后的标题、内容、图片和链接,或者你也可以自行解析 HTML。
仅限公开页面
Crawling API 读取公开可见的页面,无需登录,因此你获得的是未登录访客所看到的内容。
从任何地方访问 Reddit
横跨 30 个地区的地理定位和 1.4 亿住宅 IP,意味着无需管理代理即可稳定访问。
为大规模爬取 Reddit 而生。
Crawling API 运行在同一张网络上,该网络为 46,000+ 付费客户和 70,000+ 开发者提供服务。无需购买代理,无需运行浏览器,Reddit 变动时也无需打补丁。
一个令牌,为 Python、Node 和 Ruby 提供官方 SDK,底层是 99.99% 正常运行时间的网络。