抓取 Bloomberg 来发现这家颇具影响力的全球金融信息和媒体巨头的最新新闻亮点,该公司成立于 1981 年。在全球拥有广泛的用户群, 彭博 提供实时金融数据、市场洞察和突发新闻。投资者、分析师和企业依赖其对不同市场的全面报道,使彭博成为在动态金融世界中做出明智决策的重要工具。

在这篇博文中,我们探讨了网络抓取以从彭博社收集当前新闻。我们正在利用先进的技术,例如 Crawlbase Crawling APIJavaScript 为了这个努力。我们的重点将是提取关键信息,例如主要新闻报道、财务数据、市场趋势和其他相关详细信息。加入我们,我们概述了从彭博社提取数据所涉及的步骤,强调其对于获取及时更新和有价值的财务见解的重要性。

目录:

彭博社的网站结构

彭博网站结构

彭博社的网站经过精心设计,体现了其致力于在获取财经新闻和市场见解方面提供无缝用户体验的承诺。主页通常设有专门介绍各种金融工具、市场指数和头条新闻的部分。导航元素经过战略性放置,使用户可以轻松访问不同的部分,例如股票、商品和货币。

布局通常是动态的,具有实时更新和用户友好的界面,可以满足新手和经验丰富的投资者的需求。市场摘要、热门新闻和分析等部分通常会显示在显着位置,确保用户在登陆网站后能够快速访问关键信息。

要抓取的数据:

为了成功地从彭博社提取数据,必须查明网站结构中包含所需信息的特定元素。这涉及了解页面的 HTML 结构并识别与每个数据点关联的唯一标识符。

从彭博社提取数据
  1. 头条新闻:
  • 从 Bloomberg 抓取头条新闻时,开发人员必须识别包含文章标题、时间戳和相关元数据等重要信息的特定 HTML 标签。这需要仔细检查网站的源代码,以查明代表突发新闻的确切元素。
  • 抓取过程的重点是检索实时更新并捕获最新和最相关的新闻文章。通过不断监控并从已识别的 HTML 标签中提取数据,用户可以及时了解金融界的突发新闻动态。
  1. 财务见解:
  • 提取财务洞察涉及定位和隔离彭博网站内专门用于综合财务数据的部分。这可能包括提供深入分析、股票价格和其他关键财务指标的领域。
  • 网络抓取脚本针对专门用于财务洞察的领域,允许提取有关市场趋势、牲畜价格和全面财务分析的详细信息。这些数据对于做出明智的投资决策非常宝贵。
  1. 市场走向:
  • 在抓取市场趋势时,开发人员需要精确定位封装与各种金融工具性能相关的数据的 HTML 标签。这涉及识别显示趋势、图表和市场变动的其他视觉表示的元素。
  • 抓取过程旨在提取对不同金融工具表现的详细见解。这可能包括股票走势、商品价格和其他市场指标的数据,为用户提供当前市场趋势的全面视图。
  1. 其他相关数据集:
  • 除了头条新闻和金融见解之外,网络抓取还可以扩展到探索和识别包含有价值数据集的其他 HTML 元素。这可能包括有关商品价格、货币汇率、经济指标等的信息。
  • 抓取脚本可以配置为收集广泛的数据,范围从商品价格到货币汇率以及任何其他相关信息。这增强了用户从彭博平台收集的见解的广度。

硬件需求

学习基本的 JavaScript:

要从 Bloomberg 抓取数据,首先要了解基本的 JavaScript 概念。熟悉 DOM 操作,它允许您与网页的不同部分进行交互。了解如何发出 HTTP 请求来获取数据并处理异步操作以实现更顺畅的编码。了解这些基础知识对于我们的项目至关重要。

积极 Crawlbase API 令牌:

要启用彭博抓取功能,请从 Crawlbase.

  1. 登录到您的 Crawlbase 帐户。
  2. 转到“账户文件“ 页面 Crawlbase 仪表板。
  3. 在该页面上查找“JavaScript 令牌”代码。复制此代码;它就像与彭博社通信的私钥。
Crawlbase 文档

设置编码环境:

为 JavaScript 代码准备工具。按着这些次序:

  1. 创建项目文件夹:
    打开终端并输入“mkdirbloomberg_scraper”以创建一个新的项目文件夹。

mkdir bloomberg_scraper

  1. 导航到项目文件夹:
    输入“cdbloomberg_scraper”进入新文件夹,可以更轻松地管理项目文件。

cd bloomberg_scraper

  1. 创建 JavaScript 文件:
    输入“touch scraper.js”以创建一个名为 scraper.js 的新文件(您可以选择不同的名称)。

touch scraper.js

  1. 安装 Crawlbase 包装:
    输入“npm install crawlbase”来添加 Crawlbase 工具到你的项目中。这个工具很重要,因为它可以帮助你与 Crawlbase Crawling API,让从网站获取信息变得更加容易。

npm install crawlbase

通过执行以下步骤,您将为彭博数据抓取项目奠定基础。您将拥有一个专用文件夹、一个用于代码的 JavaScript 文件以及必要的 Crawlbase 用于有组织、高效的抓取的工具。

使用以下方式抓取彭博数据 Crawlbase

一旦您安装了 API 凭据和用于网页抓取的 Node.js 库,就可以开始处理“scraper.js”文件了。选择您要抓取的 Bloomberg 页面。在此示例中,我们将重点关注从 彭博技术页面。在“scraper.js”文件中,使用 Node.js 和 fs 库从选定的 Bloomberg 页面中提取信息。请务必将代码中的占位符 URL 替换为您要抓取的页面的实际 URL。

彭博技术页面

要使用 Crawlbase Crawling API, 按着这些次序:

  1. 确保您已按照前面的说明准备好“scraper.js”文件。
  2. 将提供的脚本复制并粘贴到该文件中。
  3. 通过输入“node scraper.js”在终端中运行脚本。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
常量 { 抓取API } = 要求('crawlbase'),
FS = 要求('fs'),
抓取基础令牌 = 'YOUR_CRAWLBASE_JS_TOKEN',
接口= 抓取API({ 象征:crawlbaseToken }),
彭博社页面URL = 'https://www.bloomberg.com/technology';

蜜蜂。得到(彭博社页面网址)。然后(处理CrawlResponse)。捕捉(处理抓取错误);

function 处理抓取响应(响应){
if (回复。状态码 === 200){
fs。写文件同步('响应.html', 回复。身体);
领事.日志('HTML 已保存到response.html');
}
}

function 处理抓取错误(错误){
领事.错误(错误);
}

HTML 响应:

彭博技术页面的 HTML 响应

抓取彭博新闻文章数据

本节将向您展示如何从彭博新闻文章页面收集信息。我们旨在收集的数据包括文章的标题、摘要、imageURL、作者、出版日期等。为了实现这一点,我们首先获取 彭博新闻文章页面。然后,我们将使用两个库创建一个自定义 JavaScript 抓取器:Cheerio(通常用于网页抓取)和 fs(有助于文件操作)。提供的脚本会遍历 Bloomberg 新闻文章页面的 HTML 代码,挑选出必要的数据,并将其存储在 JSON 数组中。

彭博新闻文章页面
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
常量 { 抓取API } = 要求('crawlbase'),
FS = 要求('fs'),
抓取基础令牌 = 'YOUR_CRAWLBASE_JS_TOKEN',
接口= 抓取API({ 象征:crawlbaseToken }),
彭博社页面URL =
'https://www.bloomberg.com/news/articles/2024-01-18/tsmc-s-second-fab-in-arizona-delayed-as-us-grants-remain-in-flux?srnd=technology -副总裁';

蜜蜂。得到(彭博社页面网址)。然后(处理CrawlResponse)。捕捉(处理抓取错误);

function 处理抓取响应(响应){
if (回复。状态码 === 200){
fs。写文件同步('响应.html', 回复。身体);
领事.日志('HTML 已保存到response.html');
}
}

function 处理抓取错误(错误){
领事.错误(错误);
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
常量 FS = 要求('fs'),
欢呼= 要求('cheerio');

尝试 {
// 从response.html文件中读取HTML内容
常量 html内容 = fs.读取文件同步('响应.html', 'utf-8');

常量 $ = 快乐。加载(html内容);

// 提取文章类别、标题和摘要
常量 类别 = $('.Eyebrow_sectionTitle-Wew2fboZsjA-a').文本()。修剪();
常量 标题 = $('.HedAndDek_headline-D19MOidHYLI-').文本()。更换(/\n\s+/g, '').修剪();
常量 抽象项目 = [];
$('.HedAndDek_abstract-XX636-2bHQw-li').((索引、元素) => {
抽象项目。($(元素).文本()。修剪()。更换(/\n\s+/g, ''));
});

常量 图片网址 = $('div.ledeImage_ledeImage__nrpgq img.ui-图像').属性('源代码');

常量 作者 = $('.Byline_bylineAuthors-Ts-ifi4q-HY-a')
.地图((索引、元素) => $(元素)。文本()。修剪())
.得到();

// 提取发布日期
常量 发布日期 = $('时间').属性('约会时间').分裂('T')[0];

// 创建一个带有摘要的 JSON 对象作为数组
常量 json数据 = {
类别: 类别,
标题: 标题,
抽象:抽象项目,
图片网址: 图片网址,
作者: 作者,
发布日期:发布日期,
};

// 以JSON格式显示抓取到的数据
领事.日志(JSON.串化(json数据, , 2));
} 捕捉 (错误) {
领事.错误(“读取或解析 HTML 文件时出错:”, 错误);
}

在第一个代码块中,JavaScript 代码使用 Crawlbase Crawling API 获取彭博新闻文章页面的 HTML 内容。如果 HTTP 状态代码为 200,则将响应保存到名为“response.html”的本地文件中。第二段代码利用“cheerio”库解析保存的 HTML 文件,提取相关信息,例如文章的类别、标题、摘要、图片 URL、作者信息和发布日期。然后将提​​取的数据组织成 JSON 对象并以结构化格式显示,如下所示:

JSON 响应:

1
2
3
4
5
6
7
8
9
10
{
“类别”: “技术”,
“标题”: “由于美国拨款仍在不断变化,台积电在亚利桑那州的第二家工厂被推迟”,
“抽象”: [
“该公司在亚利桑那州的第一座晶圆厂已推迟到 2025 年”,
“拜登白宫尚未发放承诺的芯片补贴”
],
“作者”: [“简·兰熙·李”, “吴黛比”],
“发布日期”: “ 2024-01-18”
}

结语

总而言之,本教程将帮助您使用 JavaScript 和 Crawlbase Crawling API。它使从彭博网页抓取原始 HTML 变得容易。它允许您从新闻文章中抓取不同的数据集,包括类别、标题、摘要、图片 URL、作者和出版日期。探索我们的其他指南,了解类似的程序 Yandex的, , 卡丁车产品亨特。这些指南是宝贵的资源,可以增强您跨各种平台的数据抓取技能。

探索更多抓取指南 Crawlbase:

使用 JavaScript 进行网页抓取 Expedia
使用 JavaScript 抓取 Booking.com 网页
如何刮玻璃门
使用 Quora Scraper 抓取问题和答案

常见问题

可以使用以下方式从彭博社抓取哪些类型的数据 Crawlbase?

Crawlbase 简化了彭博数据抓取,为提取各种金融和市场数据提供了强大的解决方案。彭博数据抓取工具允许用户访问股票、投资和金融市场的实时信息,确保准确性和及时性。该工具适用于彭博的各个板块,包括市场、科技、政治、追求、商业周刊、绿色和城市实验室。通过先进的功能和人工智能集成, Crawlbase 实现高效的抓取,涵盖经济、交易、固定收益、ETF、外汇等领域。

API 请求可以 Crawlbase 地理定位到特定国家?

Crawlbase 可以灵活地将 API 请求定位到特定国家/地区。通过传递 &国家 通过在请求中添加参数,用户可以定制 API,提取与目标地理位置相关的数据。此功能增强了数据检索的定制化和精准度,确保用户从彭博获取特定区域的信息。无论您是想关注美洲、欧洲还是亚太市场,都能轻松实现。 Crawlbase 使用户能够改进他们的抓取工作并轻松获取特定位置的数据。

我可以自定义彭博抓取数据吗 Crawlbase 针对特定新闻类别?

In Crawlbase彭博新闻的抓取流程可定制,让您能够定位特定的新闻类别,例如金融或科技。这种灵活性确保您只提取与需求相关的数据,从而提升抓取体验的效率和精准度。凭借这种灵活度,用户可以专注于从彭博收集符合其特定兴趣领域或分析需求的最新新闻文章。

如何 Crawlbase 抓取数据时是否遵守彭博社的条款和法律规定?

Crawlbase 在数据抓取方面,平台非常谨慎地遵守彭博社的规则和相关法律法规。平台采取了强有力的措施来严格遵守彭博社的准则,例如时刻关注事态发展并根据需要进行调整。 Crawlbase 致力于遵守严格的法律标准,避免出现问题,并为用户提供合乎道德的抓取解决方案。遵守规则, Crawlbase 减少了法律问题的可能性,使其成为彭博社抓取数据的可靠且值得信赖的工具,同时保持了网络抓取领域的诚实和合法性。

速度有多快 Crawlbase API 响应请求?

这个 Crawlbase API 响应速度快,用户请求抓取彭博数据时,平均响应时间为 4 到 10 秒。用户可以利用并行请求进一步优化结果,因为该 API 默认每秒最多可处理 20 个请求。此外, Crawlbase 如果需要提高速率限制以满足特定的生产要求,用户可以灵活地联系支持人员,从而确保获得响应迅速且高效的抓取体验。