输入任意 Yahoo URL,输出 HTML 或 JSON。
实时演示 Crawling API。获取渲染后的 HTML,或切换到通用提取器返回 JSON。悬停即可暂停并阅读。
一个 API,应对 Yahoo 抛出的一切。
Yahoo 是一个重度依赖 JavaScript 的门户网站:财经报价和新闻信息流动态加载,搜索在大流量下会被限速。Crawling API 在真实浏览器中渲染它,通过住宅 IP 访问它,并向你返回干净的 HTML 或 JSON。
完整 JavaScript 渲染
真实浏览器执行页面,因此动态加载的新闻信息流、财经报价和搜索结果都会被捕获,而不仅仅是初始 HTML。
1.4 亿住宅 IP
每个请求都会在 30 个地区轮换住宅 IP,让你像真实的本地访客一样访问 Yahoo。
为你处理封锁
CAPTCHA、机器人墙和限速都会自动清除。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor以将标题、正文、图片和链接作为结构化 JSON 返回。
截图与异步
同一个调用即可捕获整页截图,或借助 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor,同一个页面即会以类型化 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
正文
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 Yahoo 请求都走同一条路径。你发送一个 URL,中间的一切由我们运行。
发送 URL
用你的令牌传入任意公开的 Yahoo URL:一篇新闻文章、一条财经报价、一次搜索或一个体育页面。
轮换代理
从 30 个地区的 1.4 亿 IP 中抽取一个可干净访问 Yahoo 的住宅 IP 和地区。
渲染页面
真实浏览器加载页面,使新闻信息流、财经报价和搜索结果在捕获前完成渲染。
清除反爬
Yahoo 的机器人检测和搜索限速会被自动处理。无需破解,无需维护。
返回 HTML 或 JSON
返回完整渲染的 HTML,或在你添加通用提取器时返回类型化 JSON。
团队用 Yahoo 数据构建什么。
新闻监测
跨主题追踪 Yahoo News 的头条和文章,紧跟突发新闻和报道。
财经与报价数据
从 Yahoo Finance 拉取报价、股票代码和财经新闻,为仪表板和模型提供数据。
SERP 与排名研究
爬取 Yahoo Search 的搜索结果页,研究排名、可见度和查询覆盖。
情感分析
从新闻和财经文本中挖掘针对公司、市场和主题的情感信号。
训练数据与 RAG
通过一个 API 将干净的 Yahoo 文本输入模型、RAG 流水线和智能体。
任意 URL,一个 API
跨 Yahoo 爬取新闻、财经、搜索和体育,以及你需要的任何其他网站。
抓取 Yahoo 时需要了解的要点。
像真实浏览器一样渲染
Yahoo 是一个重度依赖 JavaScript 的门户网站;Crawling API 运行真实浏览器,使新闻信息流、财经报价和搜索结果在捕获前完成加载。
默认 HTML,按需 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 以获取解析后的标题、正文、图片和链接,或自行解析 HTML。
大流量搜索
Yahoo Search 在大流量下会被限速和机器人检测;轮换的住宅 IP 和自动机器人处理让结果页持续干净地返回。
从任何地方访问 Yahoo
跨 30 个地区的地理定位和 1.4 亿住宅 IP,意味着无需管理代理即可稳定访问本地化的新闻和财经。
为大规模爬取 Yahoo 而生。
Crawling API 运行在同一个网络上,该网络服务着 46,000 多家付费客户和 70,000 多名开发者。无需购买代理,无需运行浏览器,Yahoo 变化时也无需打补丁。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。