输入任意 Product Hunt URL,输出 HTML 或 JSON。
实时演示 Crawling API 的输入过程。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停阅读。
一个 API,应对 Product Hunt 的一切。
Product Hunt 在页面绘制完成后才从 GraphQL 加载其发布信息流、点赞和评论,并对首页和产品页面进行严密防护。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。
完整 JavaScript 渲染
由真实浏览器执行页面,因此从 GraphQL 加载的发布内容、点赞数、评论和媒体都会被捕获,而不仅仅是初始 HTML。
1.4 亿住宅 IP
每次请求都会在 30 个地区之间轮换住宅 IP,让你像真实本地访客一样访问 Product Hunt。
拦截由我们处理
CAPTCHA、机器人拦截和速率限制都会被自动清除。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor,将标题、内容、图片和链接以结构化 JSON 返回。
截图与异步
同一次调用即可捕获整页截图,或配合 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会得到渲染后的 HTML。添加 generic-extractor,同一个页面就会以类型化 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每一次 Product Hunt 请求都经过相同的路径。你发送一个 URL,中间的一切由我们运行。
发送 URL
用你的令牌传入任意公开的 Product Hunt URL:首页信息流、产品、话题或创作者主页。
轮换代理
从 30 个地区的 1.4 亿个 IP 中,抽取一个能够顺畅访问 Product Hunt 的住宅 IP 与地区。
渲染页面
真实浏览器加载页面,让 GraphQL 发布信息流、点赞数和评论在捕获前完成渲染。
清除反爬
Product Hunt 在首页和产品页面上激进的机器人检测会被自动处理。无需破解,无需维护。
返回 HTML 或 JSON
取回完整渲染的 HTML,或在添加 generic extractor 时取回类型化 JSON。
团队用 Product Hunt 数据构建什么。
发布追踪
拉取每日发布内容以及点赞、创作者和评论,追踪有哪些产品在上线以及反响如何。
趋势与话题监控
关注话题页和排行榜页,及早发现正在崛起的产品、类别和话题。
创作者与产品线索
收集创作者、产品和主页,构建潜在客户名单和竞争地图。
品牌与竞品监控
监控你的产品和竞品在信息流中如何发布、排名和被讨论。
市场与产品研究
挖掘发布文案、标语和评论帖,为定位和路线图提供依据。
任意 URL,一个 API
抓取首页信息流、帖子、话题、排行榜和创作者主页,以及你需要的任何其他网站。
抓取 Product Hunt 时需要了解的要点。
像真实浏览器一样渲染
Product Hunt 在绘制后才从 GraphQL 加载发布内容、点赞和评论;Crawling API 运行真实浏览器,让它们全部在捕获前渲染完成。
默认 HTML,按需 JSON
你会得到完整渲染的 HTML。添加 scraper=generic-extractor 即可获得解析后的标题、内容、图片和链接,或者自行解析 HTML。
仅限公开页面
Crawling API 读取公开可见的页面,无需登录,因此你得到的正是未登录访客所看到的内容。
从任何地方访问 Product Hunt
横跨 30 个地区和 1.4 亿住宅 IP 的地理定位意味着稳定的访问,无需管理代理。
为大规模抓取 Product Hunt 而打造。
Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一套网络之上。无需购买代理,无需运行浏览器,Product Hunt 变更时也无需打补丁。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。