Crawling API / Reddit

Reddit 抓取器。
任意页面,完整渲染。

发送任意 Reddit URL,即可取回完整渲染的 HTML,通过住宅代理返回并内置反爬处理。
使用通用提取器将其转换为 JSON。

99% 成功率1.4 亿住宅 IP30 个地区
Reddit URLHTML or JSONreddit.com/r/programmingCrawlbase路由渲染提取渲染后的 HTML结构化 JSONcrawling-apigeneric-extractorreddit.com · 限流已重新路由 · 200
实时抓取动态 · Reddit1.24M req/min流式传输中
200reddit.com/user/spezBR147ms
200reddit.com/r/gadgetsGB193ms
200reddit.com/r/marketingSG191ms
200reddit.com/r/technologyGB86ms
200reddit.com/r/gadgetsAU189ms
200reddit.com/r/SEOCA81ms
200reddit.com/r/SEOJP63ms
200reddit.com/r/PythonAU211ms
200reddit.com/r/SEOES74ms
200reddit.com/r/devopsDE95ms
200reddit.com/r/marketingDE127ms
200reddit.com/search/?q=web+scrapingDE98ms
200reddit.com/r/PythonSG110ms
301reddit.com/r/wallstreetbetsFR100ms
200reddit.com/user/spezES113ms
200reddit.com/r/technologyFR124ms
200reddit.com/r/devopsSG213ms
200reddit.com/r/gadgetsIN217ms
200reddit.com/r/SEOES95ms
200reddit.com/r/SEOBR152ms
200reddit.com/user/spezIN113ms
301reddit.com/r/devopsCA214ms
200reddit.com/user/spezUS119ms
200reddit.com/r/technologyAU180ms
200reddit.com/r/MachineLearningAU55ms
200reddit.com/r/SEOBR59ms
200reddit.com/user/spezBR147ms
200reddit.com/r/gadgetsGB193ms
200reddit.com/r/marketingSG191ms
200reddit.com/r/technologyGB86ms
200reddit.com/r/gadgetsAU189ms
200reddit.com/r/SEOCA81ms
200reddit.com/r/SEOJP63ms
200reddit.com/r/PythonAU211ms
200reddit.com/r/SEOES74ms
200reddit.com/r/devopsDE95ms
200reddit.com/r/marketingDE127ms
200reddit.com/search/?q=web+scrapingDE98ms
200reddit.com/r/PythonSG110ms
301reddit.com/r/wallstreetbetsFR100ms
200reddit.com/user/spezES113ms
200reddit.com/r/technologyFR124ms
200reddit.com/r/devopsSG213ms
200reddit.com/r/gadgetsIN217ms
200reddit.com/r/SEOES95ms
200reddit.com/r/SEOBR152ms
200reddit.com/user/spezIN113ms
301reddit.com/r/devopsCA214ms
200reddit.com/user/spezUS119ms
200reddit.com/r/technologyAU180ms
200reddit.com/r/MachineLearningAU55ms
200reddit.com/r/SEOBR59ms
01 实时演示

输入任意 Reddit URL,输出 HTML 或 JSON。

Crawling API,实时呈现。获取渲染后的 HTML,或切换到通用提取器返回 JSON。悬停可暂停并细读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内运行你的第一个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

一个 API,应对 Reddit 抛给你的一切。

Reddit 高度依赖 JavaScript 且极易封锁。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。

render

完整 JavaScript 渲染

真实浏览器会执行页面,因此动态加载的帖子、评论、无限滚动和媒体都会被完整捕获,而不仅仅是初始 HTML。

proxies

1.4 亿住宅 IP

每个请求都会在 30 个地区之间轮换住宅 IP,让你像真实本地访客一样访问 Reddit。

anti-bot

封锁由我们代为处理

CAPTCHA、机器人拦截墙和速率限制都会被自动清除。无需破解,无需维护。

format

HTML 或 JSON

获取完整渲染的 HTML,或添加 scraper=generic-extractor 以将标题、内容、图片和链接作为结构化 JSON 返回。

extras

截图与异步

同一个调用可以捕获整页截图,或通过 webhook 和云存储异步运行。

one token

一个 API 适用于所有站点

Crawling API 适用于任意 URL,因此同一个令牌可以覆盖 Reddit 以及你爬取的其他一切。 查看实时演示.

03 输出

渲染后的 HTML,或干净的 JSON。

默认情况下你会获得渲染后的 HTML。添加 generic-extractor 后同一页面便会作为类型化 JSON 返回。

{ "title": "r/programming", "favicon": "https://www.redditstatic.com/favicon.ico", "meta": { "description": "Computer programming", "keywords": "..." }, "content": "The latest news and discussion in the world of programming...", "canonical": "https://www.reddit.com/r/programming/", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

内容

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

一次调用,从 URL 到数据。

每个 Reddit 请求都经过同一条路径。你发送一个 URL,其间的一切由我们处理。

01

发送 URL

携带你的令牌传入任意公开 Reddit URL:子版块、帖子、用户页面或搜索页。

02

轮换代理

从 30 个地区的 1.4 亿 IP 中选取一个能干净访问 Reddit 的住宅 IP 和地区。

03

渲染页面

真实浏览器加载页面,使帖子、评论和无限滚动内容在捕获前完成渲染。

04

清除反爬

Reddit 的机器人检测和速率限制都会被自动处理。无需破解,无需维护。

05

返回 HTML 或 JSON

返回完整渲染的 HTML,或在添加通用提取器时返回类型化 JSON。

05 应用场景

各团队用 Reddit 数据构建什么。

USE / 01社区

社区与情感研究

跨子版块提取帖子和评论,以追踪情感、提及和新兴讨论。

USE / 02趋势

趋势与话题监控

关注子版块和搜索页面,尽早发现上升的话题、产品和舆论走向。

USE / 03训练

训练数据与 RAG

通过一个 API 将干净的 Reddit 文本输入模型、RAG 流水线和智能体。

USE / 04品牌

品牌与产品监控

监控社区对你的品牌、竞争对手和品类的评价。

USE / 05研究

市场与用户体验研究

挖掘真实的用户语言、问题和抱怨,为产品和内容提供参考。

USE / 06覆盖

任意 URL,一个 API

爬取帖子、评论、用户页面和搜索,以及你需要的任何其他站点。

06 须知

抓取 Reddit 时的实用要点。

像真实浏览器一样渲染

Reddit 高度依赖 JavaScript;Crawling API 运行真实浏览器,使帖子、评论和无限滚动内容在捕获前加载完成。

默认返回 HTML,按需返回 JSON

你会获得完整渲染的 HTML。添加 scraper=generic-extractor 可获得解析后的标题、内容、图片和链接,或者你也可以自行解析 HTML。

仅限公开页面

Crawling API 读取公开可见的页面,无需登录,因此你获得的是未登录访客所看到的内容。

从任何地方访问 Reddit

横跨 30 个地区的地理定位和 1.4 亿住宅 IP,意味着无需管理代理即可稳定访问。

07 为什么选择 Crawlbase

为大规模爬取 Reddit 而生。

Crawling API 运行在同一张网络上,该网络为 46,000+ 付费客户和 70,000+ 开发者提供服务。无需购买代理,无需运行浏览器,Reddit 变动时也无需打补丁。

99%
平均请求成功率
140M
住宅 IP,另有 9,800 万数据中心 IP
30
个地区,带来准确的本地化结果
20/s
默认每秒请求数,可按需提升

一个令牌,为 Python、Node 和 Ruby 提供官方 SDK,底层是 99.99% 正常运行时间的网络。

08 常见问题

Reddit 抓取问题。

携带你的令牌将 Reddit URL 发送到 Crawlbase Crawling API。Crawlbase 会轮换住宅代理,在真实浏览器中渲染页面,清除机器人检测,并返回完整渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。默认情况下 Crawling API 返回渲染后的 HTML;添加通用提取器(scraper=generic-extractor)即可接收标题、元数据、内容、图片和链接的 JSON,或者你也可以自行解析 HTML。
会。真实浏览器会执行页面,因此动态加载的帖子、评论和无限滚动内容都会被捕获,而不仅仅是初始 HTML。
Crawlbase 将每个请求通过横跨 30 个地区的轮换住宅 IP 路由,并自动清除机器人检测。你无需管理代理或破解 CAPTCHA,Reddit 更改其设置时也无需维护。
不需要。Crawling API 仅读取公开可见的页面,无需登录,因此你收到的是未登录访客所看到的内容。
任意公开 URL:子版块、帖子及其评论、用户页面和搜索结果页。同一个 API 也适用于任何其他站点。
免费开始,赠送最多 10,000 次请求,无需信用卡。付费套餐随用量扩展,且同一个令牌可在 Crawling API 和每个 Crawlbase 抓取器之间通用。

开始抓取 Reddit。
跳过代理和封锁。

免费开始,赠送最多 10,000 次请求。一个令牌通用于 Crawling API 和每个抓取器。