因此,您有一家企业,并且想要爬取 LinkedIn 为您的营销团队收集数据。 您想抓取数百个公司页面,甚至是用户个人资料来实现您的目标。 您会手动完成并花费宝贵的时间、时间和资源吗? 好吧,在 Crawlbase(以前的 ProxyCrawl)中,我们说您不必这样做。 我们的 抓取 API 使用内置的 LinkedIn 数据抓取器可以帮助您更快地实现目标并获得出色的结果。
在本指南中,我们将一起使用 Ruby 构建一个简单的爬虫,它将抓取 Amazon 的 LinkedIn 公司资料,然后可以将其应用于您选择的任何公司。
设置刮刀
要真正开始用 Ruby 编写代码,我们需要准备以下内容:
- API 网址
https://api.crawlbase.com
- Scraper 参数 ( scraper = linkedin-company )
- 您的 Crawlbase(以前的 ProxyCrawl)令牌
- 领英公司网址
使用 Crawlbase(以前的 ProxyCrawl)抓取 LinkedIn
现在,让我们创建一个文件并将其命名为linkedin.rb,其中将包含我们的 ruby 代码。
要开始编码,请打开您创建的文件,然后我们将首先初始化库并创建一个模块来处理我们的 API、令牌和 URL。 不要忘记也插入刮板linkedin-company。
您可以将您的普通令牌用于 LinkedIn,并确保将其替换为实际的令牌 您可以在您的帐户中找到.
1 | 要求 '网络/http' |
现在我们已经完成了第一部分,让我们编写其余的代码。 对于这一部分,我们将获取 URI 模块的响应,HTTP 状态代码,并使用函数 JSON.pretty_generate 以便我们的代码将返回一个更具可读性的 JSON 正文。
完整的代码现在应该如下所示:
1 | 要求 '网络/http' |
现在我们只需要保存我们的工作并运行代码。 结果将返回以下解析数据:
(示例输出)

我们都准备好了! 现在轮到您随意使用此代码了。 请务必替换您要抓取的 LinkedIn URL。 或者,您可以自由使用我们的 爬行红宝石库. 另外,请记住,我们有两个用于 LinkedIn 的爬虫,即 linkedin资料 和 领英公司 这是不言自明的。
您将如何以及在何处使用您提取的信息? 全取决于你。
我们希望你喜欢这个教程,我们希望很快见到你 Crawlbase(以前的 ProxyCrawl). 快乐爬行!