Crawling API / Product Hunt

Product Hunt 抓取工具。
任意页面,完整渲染。

发送任意 Product Hunt URL,即可通过内置反爬处理的住宅代理,取回完整渲染的 HTML。
用 generic extractor 将其转换为 JSON。

99% 成功率1.4 亿住宅 IP30 个地区
Product Hunt URLHTML or JSONproducthunt.com/posts/notionCrawlbase路由渲染提取已渲染 HTML结构化 JSONcrawling-apigeneric-extractorproducthunt.com · 机器人检测已通过 · 200
实时抓取信息流 · Product Hunt1.24M req/min正在传输
200producthunt.com/products/figmaSG45ms
200producthunt.com/@rrhooverBR134ms
200producthunt.com/topics/productivitySG126ms
200producthunt.com/posts/notionFR190ms
200producthunt.com/leaderboard/weekly/2024/3GB189ms
200producthunt.com/products/figmaAU69ms
200producthunt.com/@rrhooverES54ms
200producthunt.com/topics/productivityJP75ms
200producthunt.com/posts/linearUS163ms
200producthunt.com/AU177ms
200producthunt.com/topics/artificial-intelligenceUS175ms
200producthunt.com/posts/notionDE177ms
200producthunt.com/@kevinwhIN97ms
200producthunt.com/products/notionAU216ms
200producthunt.com/@rrhooverUS202ms
200producthunt.com/topics/developer-toolsUS163ms
200producthunt.com/topics/artificial-intelligenceUS199ms
200producthunt.com/leaderboard/weekly/2024/3ES140ms
200producthunt.com/topics/developer-toolsCA187ms
200producthunt.com/leaderboard/weekly/2024/3IN63ms
200producthunt.com/products/notionES125ms
200producthunt.com/products/figmaIN99ms
200producthunt.com/products/superhumanIN84ms
200producthunt.com/DE88ms
200producthunt.com/topics/productivityBR67ms
200producthunt.com/products/superhumanSG176ms
200producthunt.com/products/figmaSG45ms
200producthunt.com/@rrhooverBR134ms
200producthunt.com/topics/productivitySG126ms
200producthunt.com/posts/notionFR190ms
200producthunt.com/leaderboard/weekly/2024/3GB189ms
200producthunt.com/products/figmaAU69ms
200producthunt.com/@rrhooverES54ms
200producthunt.com/topics/productivityJP75ms
200producthunt.com/posts/linearUS163ms
200producthunt.com/AU177ms
200producthunt.com/topics/artificial-intelligenceUS175ms
200producthunt.com/posts/notionDE177ms
200producthunt.com/@kevinwhIN97ms
200producthunt.com/products/notionAU216ms
200producthunt.com/@rrhooverUS202ms
200producthunt.com/topics/developer-toolsUS163ms
200producthunt.com/topics/artificial-intelligenceUS199ms
200producthunt.com/leaderboard/weekly/2024/3ES140ms
200producthunt.com/topics/developer-toolsCA187ms
200producthunt.com/leaderboard/weekly/2024/3IN63ms
200producthunt.com/products/notionES125ms
200producthunt.com/products/figmaIN99ms
200producthunt.com/products/superhumanIN84ms
200producthunt.com/DE88ms
200producthunt.com/topics/productivityBR67ms
200producthunt.com/products/superhumanSG176ms
01 实时演示

输入任意 Product Hunt URL,输出 HTML 或 JSON。

实时演示 Crawling API 的输入过程。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停阅读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内运行你的第一个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

一个 API,应对 Product Hunt 的一切。

Product Hunt 在页面绘制完成后才从 GraphQL 加载其发布信息流、点赞和评论,并对首页和产品页面进行严密防护。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。

render

完整 JavaScript 渲染

由真实浏览器执行页面,因此从 GraphQL 加载的发布内容、点赞数、评论和媒体都会被捕获,而不仅仅是初始 HTML。

proxies

1.4 亿住宅 IP

每次请求都会在 30 个地区之间轮换住宅 IP,让你像真实本地访客一样访问 Product Hunt。

anti-bot

拦截由我们处理

CAPTCHA、机器人拦截和速率限制都会被自动清除。无需破解,无需维护。

format

HTML 或 JSON

获取完整渲染的 HTML,或添加 scraper=generic-extractor,将标题、内容、图片和链接以结构化 JSON 返回。

extras

截图与异步

同一次调用即可捕获整页截图,或配合 webhook 和云存储异步运行。

one token

一个 API 适配所有网站

Crawling API 适用于任意 URL,因此同一个令牌既覆盖 Product Hunt,也覆盖你抓取的其他一切。 查看实时演示.

03 输出

渲染后的 HTML,或干净的 JSON。

默认情况下你会得到渲染后的 HTML。添加 generic-extractor,同一个页面就会以类型化 JSON 返回。

{ "title": "Product Hunt: The best new products in tech", "favicon": "https://www.producthunt.com/favicon.ico", "meta": { "description": "The best new products, every day.", "keywords": "..." }, "content": "Today's top product launches, makers, upvotes and discussion...", "canonical": "https://www.producthunt.com/posts/notion", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

内容

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

一次调用,从 URL 到数据。

每一次 Product Hunt 请求都经过相同的路径。你发送一个 URL,中间的一切由我们运行。

01

发送 URL

用你的令牌传入任意公开的 Product Hunt URL:首页信息流、产品、话题或创作者主页。

02

轮换代理

从 30 个地区的 1.4 亿个 IP 中,抽取一个能够顺畅访问 Product Hunt 的住宅 IP 与地区。

03

渲染页面

真实浏览器加载页面,让 GraphQL 发布信息流、点赞数和评论在捕获前完成渲染。

04

清除反爬

Product Hunt 在首页和产品页面上激进的机器人检测会被自动处理。无需破解,无需维护。

05

返回 HTML 或 JSON

取回完整渲染的 HTML,或在添加 generic extractor 时取回类型化 JSON。

05 使用场景

团队用 Product Hunt 数据构建什么。

USE / 01产品发布

发布追踪

拉取每日发布内容以及点赞、创作者和评论,追踪有哪些产品在上线以及反响如何。

USE / 02趋势

趋势与话题监控

关注话题页和排行榜页,及早发现正在崛起的产品、类别和话题。

USE / 03线索

创作者与产品线索

收集创作者、产品和主页,构建潜在客户名单和竞争地图。

USE / 04品牌

品牌与竞品监控

监控你的产品和竞品在信息流中如何发布、排名和被讨论。

USE / 05研究

市场与产品研究

挖掘发布文案、标语和评论帖,为定位和路线图提供依据。

USE / 06覆盖

任意 URL,一个 API

抓取首页信息流、帖子、话题、排行榜和创作者主页,以及你需要的任何其他网站。

06 注意事项

抓取 Product Hunt 时需要了解的要点。

像真实浏览器一样渲染

Product Hunt 在绘制后才从 GraphQL 加载发布内容、点赞和评论;Crawling API 运行真实浏览器,让它们全部在捕获前渲染完成。

默认 HTML,按需 JSON

你会得到完整渲染的 HTML。添加 scraper=generic-extractor 即可获得解析后的标题、内容、图片和链接,或者自行解析 HTML。

仅限公开页面

Crawling API 读取公开可见的页面,无需登录,因此你得到的正是未登录访客所看到的内容。

从任何地方访问 Product Hunt

横跨 30 个地区和 1.4 亿住宅 IP 的地理定位意味着稳定的访问,无需管理代理。

07 为何选择 Crawlbase

为大规模抓取 Product Hunt 而打造。

Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一套网络之上。无需购买代理,无需运行浏览器,Product Hunt 变更时也无需打补丁。

99%
平均请求成功率
140M
住宅 IP,另有 9800 万数据中心 IP
30
实现准确本地结果的地区数
20/s
默认每秒请求数,可按需提升

一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。

08 FAQ

Product Hunt 抓取常见问题。

用你的令牌将 Product Hunt URL 发送到 Crawlbase Crawling API。Crawlbase 会轮换住宅代理,在真实浏览器中渲染页面,清除机器人检测,并返回完整渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。Crawling API 默认返回渲染后的 HTML;添加 generic extractor(scraper=generic-extractor)即可以 JSON 形式接收标题、元数据、内容、图片和链接,或者自行解析 HTML。
会。真实浏览器执行页面,因此由 JavaScript 渲染的发布信息流、点赞数和评论都会被捕获,而不仅仅是初始 HTML。
Crawlbase 会将每次请求通过横跨 30 个地区的轮换住宅 IP 发送,并自动清除机器人检测。你无需管理代理或破解 CAPTCHA,Product Hunt 变更其配置时也无需维护。
不需要。Crawling API 仅读取公开可见的页面,无需登录,因此你收到的正是未登录访客会看到的内容。
任意公开 URL:首页信息流、产品页和帖子页、话题页和排行榜页,以及创作者主页。同一个 API 也适用于任何其他网站。
免费开始,赠送最多 10,000 次请求,无需信用卡。付费套餐随用量扩展,同一个令牌可在 Crawling API 和每个 Crawlbase 抓取工具之间通用。

开始抓取 Product Hunt。
跳过代理与拦截。

免费开始,赠送最多 10,000 次请求。一个令牌通用于 Crawling API 和每个抓取工具。