Crawling API / Yahoo

Yahoo 抓取器。
任意页面,完整渲染。

发送任意 Yahoo URL,即可获得完整渲染的 HTML,通过住宅代理返回并内置反爬处理。
借助通用提取器将其转换为 JSON。

99% 成功率1.4 亿住宅 IP30 个地区
Yahoo 网址HTML 或 JSONwww.yahoo.com/news/sample-top-storyCrawlbase路由渲染提取渲染后的 HTML结构化 JSONcrawling-apigeneric-extractoryahoo.com · 速率限制已重新路由 · 200
实时爬取信息流 · Yahoo1.24M req/min正在流式传输
200search.yahoo.com/search?p=web+scrapingFR80ms
200finance.yahoo.com/quote/TSLAJP180ms
200finance.yahoo.com/quote/AAPLUS215ms
200www.yahoo.com/news/election-results-live-093000456.htmlDE117ms
200www.yahoo.com/lifestyle/sample-feature-073000789.htmlDE151ms
200finance.yahoo.com/news/fed-holds-rates-steady-110000321.htmlES106ms
301news.yahoo.com/world/FR104ms
200www.yahoo.com/news/election-results-live-093000456.htmlGB207ms
200www.yahoo.com/news/sample-top-story-120000123.htmlCA41ms
200www.yahoo.com/news/sample-top-story-120000123.htmlIN110ms
200finance.yahoo.com/news/fed-holds-rates-steady-110000321.htmlES69ms
200news.yahoo.com/markets-rally-as-tech-leads-140500987.htmlJP151ms
200www.yahoo.com/news/sample-top-story-120000123.htmlUS201ms
200search.yahoo.com/search?p=web+scrapingGB62ms
200sports.yahoo.com/nba/NL203ms
200sports.yahoo.com/nba/ES146ms
200finance.yahoo.com/quote/AAPLCA74ms
200news.yahoo.com/world/AU102ms
200search.yahoo.com/search?p=yahoo+finance+apiES210ms
200finance.yahoo.com/quote/MSFTBR165ms
200www.yahoo.com/news/election-results-live-093000456.htmlNL111ms
200finance.yahoo.com/quote/AAPLCA201ms
200www.yahoo.com/news/election-results-live-093000456.htmlIN143ms
200finance.yahoo.com/quote/NVDAIN146ms
200www.yahoo.com/news/election-results-live-093000456.htmlSG105ms
200search.yahoo.com/search?p=yahoo+finance+apiES138ms
200search.yahoo.com/search?p=web+scrapingFR80ms
200finance.yahoo.com/quote/TSLAJP180ms
200finance.yahoo.com/quote/AAPLUS215ms
200www.yahoo.com/news/election-results-live-093000456.htmlDE117ms
200www.yahoo.com/lifestyle/sample-feature-073000789.htmlDE151ms
200finance.yahoo.com/news/fed-holds-rates-steady-110000321.htmlES106ms
301news.yahoo.com/world/FR104ms
200www.yahoo.com/news/election-results-live-093000456.htmlGB207ms
200www.yahoo.com/news/sample-top-story-120000123.htmlCA41ms
200www.yahoo.com/news/sample-top-story-120000123.htmlIN110ms
200finance.yahoo.com/news/fed-holds-rates-steady-110000321.htmlES69ms
200news.yahoo.com/markets-rally-as-tech-leads-140500987.htmlJP151ms
200www.yahoo.com/news/sample-top-story-120000123.htmlUS201ms
200search.yahoo.com/search?p=web+scrapingGB62ms
200sports.yahoo.com/nba/NL203ms
200sports.yahoo.com/nba/ES146ms
200finance.yahoo.com/quote/AAPLCA74ms
200news.yahoo.com/world/AU102ms
200search.yahoo.com/search?p=yahoo+finance+apiES210ms
200finance.yahoo.com/quote/MSFTBR165ms
200www.yahoo.com/news/election-results-live-093000456.htmlNL111ms
200finance.yahoo.com/quote/AAPLCA201ms
200www.yahoo.com/news/election-results-live-093000456.htmlIN143ms
200finance.yahoo.com/quote/NVDAIN146ms
200www.yahoo.com/news/election-results-live-093000456.htmlSG105ms
200search.yahoo.com/search?p=yahoo+finance+apiES138ms
01 在线演示

输入任意 Yahoo URL,输出 HTML 或 JSON。

实时演示 Crawling API。获取渲染后的 HTML,或切换到通用提取器返回 JSON。悬停即可暂停并阅读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内即可运行首个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

一个 API,应对 Yahoo 抛出的一切。

Yahoo 是一个重度依赖 JavaScript 的门户网站:财经报价和新闻信息流动态加载,搜索在大流量下会被限速。Crawling API 在真实浏览器中渲染它,通过住宅 IP 访问它,并向你返回干净的 HTML 或 JSON。

render

完整 JavaScript 渲染

真实浏览器执行页面,因此动态加载的新闻信息流、财经报价和搜索结果都会被捕获,而不仅仅是初始 HTML。

proxies

1.4 亿住宅 IP

每个请求都会在 30 个地区轮换住宅 IP,让你像真实的本地访客一样访问 Yahoo。

anti-bot

为你处理封锁

CAPTCHA、机器人墙和限速都会自动清除。无需破解,无需维护。

format

HTML 或 JSON

获取完整渲染的 HTML,或添加 scraper=generic-extractor以将标题、正文、图片和链接作为结构化 JSON 返回。

extras

截图与异步

同一个调用即可捕获整页截图,或借助 webhook 和云存储异步运行。

one token

一个 API 适用于每个网站

Crawling API 适用于任意 URL,因此同一个令牌可覆盖 Yahoo 以及你爬取的其他一切。 查看在线演示.

03 输出

渲染后的 HTML,或干净的 JSON。

默认情况下你会获得渲染后的 HTML。添加 generic-extractor,同一个页面即会以类型化 JSON 返回。

{ "title": "Yahoo News, Finance and Search", "favicon": "https://s.yimg.com/rz/l/favicon.ico", "meta": { "description": "Latest news, finance and search from Yahoo.", "keywords": "..." }, "content": "News headlines, finance quotes, search results and links...", "canonical": "https://www.yahoo.com/news/sample-top-story-120000123.html", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

正文

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

一次调用,从 URL 到数据。

每个 Yahoo 请求都走同一条路径。你发送一个 URL,中间的一切由我们运行。

01

发送 URL

用你的令牌传入任意公开的 Yahoo URL:一篇新闻文章、一条财经报价、一次搜索或一个体育页面。

02

轮换代理

从 30 个地区的 1.4 亿 IP 中抽取一个可干净访问 Yahoo 的住宅 IP 和地区。

03

渲染页面

真实浏览器加载页面,使新闻信息流、财经报价和搜索结果在捕获前完成渲染。

04

清除反爬

Yahoo 的机器人检测和搜索限速会被自动处理。无需破解,无需维护。

05

返回 HTML 或 JSON

返回完整渲染的 HTML,或在你添加通用提取器时返回类型化 JSON。

05 应用场景

团队用 Yahoo 数据构建什么。

USE / 01新闻

新闻监测

跨主题追踪 Yahoo News 的头条和文章,紧跟突发新闻和报道。

USE / 02财经

财经与报价数据

从 Yahoo Finance 拉取报价、股票代码和财经新闻,为仪表板和模型提供数据。

USE / 03SERP

SERP 与排名研究

爬取 Yahoo Search 的搜索结果页,研究排名、可见度和查询覆盖。

USE / 04情感

情感分析

从新闻和财经文本中挖掘针对公司、市场和主题的情感信号。

USE / 05训练

训练数据与 RAG

通过一个 API 将干净的 Yahoo 文本输入模型、RAG 流水线和智能体。

USE / 06覆盖

任意 URL,一个 API

跨 Yahoo 爬取新闻、财经、搜索和体育,以及你需要的任何其他网站。

06 须知

抓取 Yahoo 时需要了解的要点。

像真实浏览器一样渲染

Yahoo 是一个重度依赖 JavaScript 的门户网站;Crawling API 运行真实浏览器,使新闻信息流、财经报价和搜索结果在捕获前完成加载。

默认 HTML,按需 JSON

你会获得完整渲染的 HTML。添加 scraper=generic-extractor 以获取解析后的标题、正文、图片和链接,或自行解析 HTML。

大流量搜索

Yahoo Search 在大流量下会被限速和机器人检测;轮换的住宅 IP 和自动机器人处理让结果页持续干净地返回。

从任何地方访问 Yahoo

跨 30 个地区的地理定位和 1.4 亿住宅 IP,意味着无需管理代理即可稳定访问本地化的新闻和财经。

07 为什么选择 Crawlbase

为大规模爬取 Yahoo 而生。

Crawling API 运行在同一个网络上,该网络服务着 46,000 多家付费客户和 70,000 多名开发者。无需购买代理,无需运行浏览器,Yahoo 变化时也无需打补丁。

99%
平均请求成功率
140M
住宅 IP,另有 9800 万数据中心 IP
30
用于精准本地结果的地区数
20/s
默认每秒请求数,可按需提升

一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。

08 常见问题

关于抓取 Yahoo 的问题。

用你的令牌将 Yahoo URL 发送到 Crawlbase Crawling API。Crawlbase 轮换住宅代理,在真实浏览器中渲染页面,清除机器人检测,并返回完整渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。Crawling API 默认返回渲染后的 HTML;添加通用提取器(scraper=generic-extractor)即可以 JSON 形式接收标题、元数据、正文、图片和链接,或自行解析 HTML。
会。真实浏览器执行页面,因此动态加载的新闻信息流、财经报价和搜索结果都会被捕获,而不仅仅是初始 HTML。
Crawlbase 将每个请求通过 30 个地区的轮换住宅 IP 发送,并自动清除机器人检测。你无需管理代理或破解 CAPTCHA,Yahoo 更改其设置时也无需维护。
可以。财经报价和新闻页面动态加载其数字;真实浏览器在捕获前渲染它们,因此报价表和新闻信息流会以 HTML 或 JSON 形式返回。
Yahoo 各产品下的任意公开 URL:新闻文章、财经报价和新闻、搜索结果页以及体育。同一个 API 也适用于任何其他网站。
免费开始,赠送最多 10,000 次请求,无需信用卡。付费套餐随用量扩展,同一个令牌可在 Crawling API 和每个 Crawlbase 抓取器之间通用。

开始抓取 Yahoo。
新闻、财经和搜索,尽在一个 API。

免费开始,赠送最多 10,000 次请求。一个令牌通用于 Crawling API 和每个抓取器。