输入任意 Bloomberg URL,输出 HTML 或 JSON。
Crawling API,实时逐字输出。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停并阅读。
一个 API,应对 Bloomberg 抛给你的一切。
Bloomberg 设有严格的付费墙,用 JavaScript 渲染文章,并以验证挑战应对爬虫。Crawling API 在真实浏览器中渲染它,通过住宅 IP 访问它,并向你交付干净的 HTML 或 JSON。
完整的 JavaScript 渲染
真实浏览器会执行页面,因此由 JavaScript 渲染的文章正文、行情和市场组件都会被捕获,而不仅仅是初始 HTML。
140M 住宅 IP
每个请求都会在 30 个地区之间轮换一个住宅 IP,因此你能像真实的本地访客一样访问 Bloomberg。
拦截由我们为你处理
CAPTCHA、爬虫墙和人机验证挑战都会被自动清除。无需解决任何东西,也无需维护任何东西。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor 以将标题、内容、图片和链接作为结构化 JSON 返回。
截图与异步
同一次调用即可捕获整页截图,或配合 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor 后,同一页面便会以带类型的 JSON 返回。
页面
title · string canonical · string favicon · string
元信息
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 Bloomberg 请求都会经过同一条路径。你发送一个 URL,其间的一切由我们运行。
发送 URL
带上你的 token 传入任意公开的 Bloomberg URL:一篇新闻文章、一个行情页面、一个市场板块或一份新闻通讯。
轮换代理
一个能顺畅访问 Bloomberg 的住宅 IP 和地区,来自遍布 30 个区域的 140M IP。
渲染页面
真实浏览器会加载页面,因此由 JavaScript 渲染的文章正文、行情和市场组件会在捕获前完成渲染。
清除反爬虫
Bloomberg 的爬虫墙和人机验证挑战会被自动处理。无需解决任何东西,也无需维护任何东西。
返回 HTML 或 JSON
完整渲染的 HTML 会返回,或在你添加 generic extractor 时返回带类型的 JSON。
各团队基于 Bloomberg 数据构建的东西。
市场新闻监控
追踪 Bloomberg 的新闻和评论文章,随着发布跟进市场、交易和宏观报道。
行情与市场数据
读取行情和市场页面上的股票代码、指数和利率,为仪表盘和关注列表提供数据。
情绪分析
提取标题、导语和文章正文,为公司、行业和资产打出情绪评分。
研究与分析师信息流
通过一个 API,将干净的 Bloomberg 报道输入研究工作流、模型和 RAG 管道。
归档与合规
随时间捕获文章快照和元数据,用于归档、审计追踪和参考。
任意 URL,一个 API
爬取文章、行情、板块和新闻通讯,以及你需要的任何其他站点。
抓取 Bloomberg 时需要知道的要点。
像真实浏览器一样渲染
Bloomberg 用 JavaScript 渲染文章正文和市场组件;Crawling API 运行真实浏览器,因此内容会在捕获前加载完成。
默认 HTML,按需 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 即可获取解析后的标题、内容、图片和链接,或自行解析 HTML。
公开页面,感知付费墙
Crawling API 读取公开可见的页面,无需登录,因此你会获得标题、导语、元数据以及未登录访客所能看到的那部分正文。
从任何地方访问 Bloomberg
跨 30 个区域的地理定向和 140M 住宅 IP 意味着能一致地穿过爬虫墙和验证挑战进行访问,无需管理代理。
为大规模爬取 Bloomberg 而生。
Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络之上。无需购买代理,无需运行浏览器,Bloomberg 变更时也无需打补丁。
一个 token,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。