每月活跃用户超过 2.7 亿 截至 2020 年第二季度,Facebook 是全球最大的社交网络。 在撰写本文时,根据谷歌的数据,还有高达 620 亿个群组。 想象一下您可以收集的所有这些组的数据,然后您可以将其用于您的项目或业务。
在这里 Crawlbase(以前的 ProxyCrawl),我们关心数据,我们所有的团队都喜欢互联网提供的自由,我们相信,如果它对公众可用,那么每个人都有权看到它。 然而,我们也尊重隐私,因此在本文中,我们将专注于使用 PyCharm 和 Python2 解释器创建一个简单的爬虫,然后您可以使用它来爬取您的目标公共群体。
考前准备
在我们开始实际编码之前,我们需要设置的东西很少。
首先,在 PyCharm 并将其命名为 crawlbase.py,完成后,右键单击该项目并创建一个名为 facebookscraper 的新 Python 文件,如下图所示:

其次,让我们确保我们使用的是 Python 2 解释器。 按 Ctrl + Alt + S (在 Windows 上)选择解释器:

抓取 Facebook 群组
现在我们已经成功地设置了我们的文件,是时候编写代码了。 我们现在只做最基本的,所以这会很短。
首先,我们需要导入我们的模块:
1 | 止 网址库2 进口 打开网址 |
接下来,我们将传递用于抓取的 URL。 重要的是要知道,在抓取 Facebook 时,我们需要使用我们的 私人代币 连同启用的 JavaScript 参数:
&javascript=true
这允许我们获取所请求页面的动态数据。
1 | 网址 = 报价加号('https://www.facebook.com/PUBLIC_FACEBOOK_GROUP') |
对于我们代码的最后一部分,我们只需要以可读的格式打印响应。 完整的代码现在应该如下所示:
1 | 止 网址库2 进口 打开网址 |
要运行代码,只需按 Shift + F10 (在 Windows 上)你应该得到类似的东西:

你有它; 代码已准备就绪,您可以将其应用于您的任何项目。 请记住,您可以免费使用我们的 Python库 以及。
众所周知,Facebook 是最难抓取的网站之一,所以如果您遇到任何问题,请给我们发消息和我们的 Crawlbase(以前的 ProxyCrawl)支持团队 将很乐意提供帮助。
享受刮痧!