输入任意 Quora URL。输出结构化 JSON。
两个 Quora 抓取器,实时输入。切换标签页,或悬停以暂停并阅读。
问题与搜索,已解析。
两个托管的 Quora 抓取器共用一套 API、一个令牌和同一个住宅代理网络。将任一抓取器指向公开 URL,即可接收类型化的 JSON,而非原始 HTML。
问题
将一个问题解析为 text、answerCount 和 answerCountScraped,即 answers 数组,包含 author、body 和 upvotes,另有 topicList、questionAds 和 relatedQuestions。
搜索结果
将任意 Quora 搜索查询转化为一个 问题数组 ,包含 question、questionLink、questionPosition 和 resultSnippet,另有 resultCount。
干净的字段,而非原始 HTML。
一次对 quora-question 的调用返回类型化的 JSON。以下是单个 Quora 问题的结构。
问题
question.text · string question.link · string
覆盖范围
question.answerCount · number question.answerCountScraped · number
回答
question.answers · array answers[].author · string answers[].upvotes · number
话题图谱
question.topicList · array question.relatedQuestions · array
页面附加内容
question.questionAds · array
一次调用,从 URL 到 JSON。
每个 Quora 请求都经过相同的路径。你发送一个 URL,中间的一切由我们处理。
发送 URL
使用你的令牌和一个抓取器传入任意公开的 Quora 问题或搜索 URL。
轮换代理
一个能够干净地访问 Quora 的住宅 IP 和地理位置,从遍布 30 个地区的 1.4 亿个 IP 中抽取。
渲染页面
真实浏览器加载页面,使 Quora 动态流式载入的问题、回答和相关讨论串被完整捕获。
通过反机器人验证
Quora 的登录弹窗和内容门禁会被自动处理,使你能读取公开的问题和回答。无需破解,Quora 变化时也无需维护。
返回 JSON
页面被解析为类型化字段并以 JSON 返回,如果你更愿意自行解析,也可返回原始 HTML。
团队基于 Quora 数据构建什么。
客户心声与市场调研
阅读真实用户就某个品类提出和回答的内容,以发掘痛点、异议以及用于定位的表达方式。
内容与 SEO 调研
挖掘人们实际提出的问题,连同回答数量和摘要,以规划契合真实需求的内容。
用于 QA 与 LLM 的训练数据
收集带点赞数的问答对,作为经排序、带出处的训练数据,用于 QA 模型和 RAG 管道。
品牌与话题监控
追踪某个品牌或话题的搜索结果,及早捕捉新问题、情感变化和新兴讨论串。
话题与趋势映射
利用 topicList 和 relatedQuestions 映射某个主题如何在 Quora 上与相邻主题相连接。
竞争情报
关注竞争对手周边的问题和回答,了解买家如何比较、抱怨和选择。
抓取 Quora 时值得了解的事项。
你能看到自己的覆盖范围
quora-question 返回 answerCount 表示页面上的总数,以及 answerCountScraped 表示实际返回的数量,因此你始终清楚一次拉取的完整程度。
完整的回答集,带出处
answers 数组携带每条回答的 author、body 和 upvotes,因此你可以按 upvotes 排序并保留出处,而不只是一团扁平的文本。
它映射话题图谱
topicList 显示一个问题所归属的话题,relatedQuestions 列出相邻的讨论串,因此一次调用就勾勒出周边的主题领域。
搜索变为经排序的问题
quora-serp 将任意搜索查询转化为一个 questions 数组,包含 questionPosition 和 resultSnippet,另有 resultCount。仅限公开数据,无需登录。
为大规模抓取 Quora 而打造。
Quora 抓取器运行在同一个网络之上,该网络服务着 46,000+ 付费客户和 70,000+ 开发者。无需购买代理,无需运行浏览器,Quora 变化时也无需修补任何东西。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层网络具备 99.99% 的正常运行时间。