因此,您有一家企业,并且想要爬取 LinkedIn 为您的营销团队收集数据。 您想抓取数百个公司页面,甚至是用户个人资料来实现您的目标。 您会手动完成并花费宝贵的时间、时间和资源吗? 好吧,在 Crawlbase(以前的 ProxyCrawl)中,我们说您不必这样做。 我们的 抓取 API 使用内置的 LinkedIn 数据抓取器可以帮助您更快地实现目标并获得出色的结果。

在本指南中,我们将一起使用 Ruby 构建一个简单的爬虫,它将抓取 Amazon 的 LinkedIn 公司资料,然后可以将其应用于您选择的任何公司。

设置刮刀

要真正开始用 Ruby 编写代码,我们需要准备以下内容:

  • API 网址 https://api.crawlbase.com
  • Scraper 参数 ( scraper = linkedin-company )
  • 您的 Crawlbase(以前的 ProxyCrawl)令牌
  • 领英公司网址

使用 Crawlbase(以前的 ProxyCrawl)抓取 LinkedIn

现在,让我们创建一个文件并将其命名为linkedin.rb,其中将包含我们的 ruby​​ 代码。

要开始编码,请打开您创建的文件,然后我们将首先初始化库并创建一个模块来处理我们的 API、令牌和 URL。 不要忘记也插入刮板linkedin-company。

您可以将您的普通令牌用于 LinkedIn,并确保将其替换为实际的令牌 您可以在您的帐户中找到.

1
2
3
4
5
6
7
要求 '网络/http'

乌里= 的URI('https://api.crawlbase.com')
uri.query = 的URI.encode_www_form({
令牌: '你的令牌',
刮刀: 'linkedin-公司',
网址: 'https://www.linkedin.com/company/amazon'})

现在我们已经完成了第一部分,让我们编写其余的代码。 对于这一部分,我们将获取 URI 模块的响应,HTTP 状态代码,并使用函数 JSON.pretty_generate 以便我们的代码将返回一个更具可读性的 JSON 正文。

完整的代码现在应该如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
要求 '网络/http'
要求 'json'

乌里= 的URI('https://api.crawlbase.com')
uri.query = 的URI.encode_www_form({
令牌: '你的令牌',
刮刀: 'linkedin-公司',
网址: 'https://www.linkedin.com/company/amazon'})

资源 = ::HTTP协议.get_response(uri)
看跌期权 “响应 HTTP 状态码: #{res.code}"
看跌期权 JSON.pretty_generate(JSON.parse(res.body))

现在我们只需要保存我们的工作并运行代码。 结果将返回以下解析数据:

(示例输出)

Ruby 爬取示例

我们都准备好了! 现在轮到您随意使用此代码了。 请务必替换您要抓取的 LinkedIn URL。 或者,您可以自由使用我们的 爬行红宝石库. 另外,请记住,我们有两个用于 LinkedIn 的爬虫,即 linkedin资料领英公司 这是不言自明的。

您将如何以及在何处使用您提取的信息? 全取决于你。
我们希望你喜欢这个教程,我们希望很快见到你 Crawlbase(以前的 ProxyCrawl). 快乐爬行!