本指南将教您如何抓取 Craigslist.com。Craig Newmark 于 1995 年创建了该网站,作为分享旧金山湾区活动的电子邮件列表。到 1996 年,该网站发展成为一个网站,并不断发展成为美国最大的分类广告平台。现在,它为来自 70 个国家/地区的人们提供服务,每月访问量超过 20 亿次。
每个月,Craigslist 都会收到超过 80 万条分类广告,涉及各种类别,包括就业、住房、待售物品、服务和社区活动。尽管 Craigslist 始于美国和加拿大,但很快就走向了全球。如今,这里已成为搜索各种信息的热门场所,从工作、住房到服务和当地活动。
本文将向您展示如何使用 JavaScript 和 Crawlbase 爬取 API 从 Craigslist 中抓取产品列表。您将学习如何抓取重要数据,例如 产品价格、标题、位置和 URL 不会遇到任何阻碍或限制。
目录
- 安装必要的库
- 设置项目
- 从搜索列表中提取 Craigslist.com HTML 数据
- 以 JSON 格式抓取 Craigslist.com 产品标题
- 抓取 Craigslist.com 产品价格
- 抓取 Craigslist.com 产品位置
- 抓取 Craigslist.com 产品 URL
- 最后,完成代码
- 将 Craigslist 数据保存到 CSV 文件
1.安装必要的库
确保您的计算机上安装了 Node.js 以运行 JavaScript 进行网页抓取。学习 JavaScript 的基础知识,例如变量、函数、循环和简单的网页操作,因为它们对于我们的抓取脚本至关重要。初学者可以在 Mozilla Developer Network (MDN) 或 W3Schools 等网站上查看初学者教程来开始使用。
为了有效地从 Craigslist.com 抓取数据,您需要一个来自 Crawlbase 的 API 令牌。通过以下方式创建免费帐户 报名 在他们的网站上,转到您的帐户设置,然后找到您的 API 令牌。这些令牌的作用类似于密钥,授予对 Crawling API 功能的访问权限,从而使数据抓取变得顺畅而高效。
2. 设置项目
第 1 步:创建一个新的项目文件夹:
打开您的终端并输入 mkdir craigslist-scraper
为您的项目创建一个新文件夹。
1 | mkdir craigslist-scraper |
第 2 步:导航到项目文件夹:
输入 cd craigslist-scraper
移至新创建的文件夹,以便更轻松地管理项目文件。
1 | cd craigslist-scraper |
第 3 步:生成 JavaScript 文件:
类型 touch index.js
在项目文件夹中创建一个名为index.js 的新文件。如果您愿意,可以选择不同的名称。
1 | 触摸索引.js |
第四步:添加Crawlbase包:
通过在终端中运行 npm installcrawlbase 为您的项目安装 Crawlbase Node 库。该库简化了与 Crawlbase Crawling API 的连接,方便了 Craigslist 数据的抓取。
1 | npm 安装爬虫库 |
第5步:安装Fs、JSdom、Json2Csv:
安装 fs 用于文件系统交互,安装 jsdom 用于 HTML 解析,安装 json2csv 用于 JSON 到 CSV 转换。这些模块支持 Craigslist 数据抓取项目中的基本功能,促进文件操作、DOM 操作和数据格式转换。
1 | npm 安装 fs jsdom json2csv |
完成这些步骤后,您就可以开始构建 Craigslist 数据抓取工具了!
3. 从搜索列表中提取 Craigslist.com HTML 数据
获得 API 凭据并安装用于网页抓取的 Crawlbase Node.js 库后,就可以开始处理“touch.js”文件了。选择您想要从中抓取数据的 Craigslist 搜索列表页面。在“touch.js”文件中,利用 Crawlbase Crawling API 和 fs 库从您选择的 Craigslist 页面中抓取信息。确保将代码中的占位符 URL 替换为您要抓取的页面的实际 URL。
1 | 常量 { 抓取API } = 要求('crawlbase'), |
代码说明:
此 JavaScript 代码演示了如何使用 fs 库通过 HTTP GET 请求从特定 URL 获取数据。它的独特之处在于它与 Crawlbase Crawling API 的集成,增强并支持大规模网络抓取。现在,让我们进一步剖析代码。
所需的库:
该脚本需要以下库:
- 抓取基础: 该库使用 Crawlbase Crawling API 促进网络抓取。
- FS: 这是用于文件操作的 Node.js 文件系统模块。
1 | 常量 { 抓取API } = 要求('crawlbase'), |
初始化:
- CrawlingAPI 和 fs 是从各自的库导入的。
- 用于访问 Crawlbase API 的令牌作为crawlbaseToken 提供。
- 使用提供的令牌创建 CrawlingAPI 实例。
- 要抓取的 Craigslist 搜索列表页面的 URL 存储在 craigslistPageURL 中。
1 | 常量 抓取基础令牌 = 'YOUR_CRAWLBASE_TOKEN', |
爬行过程:
使用 Craigslist 页面 URL 作为参数调用 api.get() 方法来启动抓取过程。
- 如果请求成功,则调用handleCrawlResponse函数来处理响应。
- 如果爬取过程中出现错误,则会调用handleCrawlError函数来处理错误。
1 | 蜜蜂。得到(craigslistPageURL)。然后(处理CrawlResponse)。捕捉(处理抓取错误); |
处理响应:
在handleCrawlResponse函数中:
- 它检查响应状态代码是否为 200(表示请求成功)。
- 如果成功,它会使用 fs.writeFileSync() 将 HTML 响应正文写入名为“response.html”的文件。
- 控制台会记录一条成功消息,指示 HTML 已保存。
1 | 功能 处理抓取响应(响应){ |
错误处理:
在handleCrawlError函数中:
- 爬网过程中发生的任何错误都会记录到控制台以供调试之用。
1 | 功能 处理抓取错误(错误){ |
HTML输出:
4. 以 JSON 格式抓取 Craigslist.com 产品标题
在本节中,我们将了解如何从 Craigslist 搜索列表页面中抓取有价值的数据。我们想要抓取的数据包括以下元素 产品标题、价格、位置和 URL。为了完成此任务,我们将使用两个基本库创建一个自定义 JavaScript 抓取工具:jsdom(通常用于解析和操作 HTML 文档)和 fs(简化文件操作)。下面的脚本将解析 Craigslist 搜索结果页面的 HTML 结构(我们在上一个示例中的 response.html 文件中获得了该结构),抓取相关信息,并将其组织成 JSON 数组。
要抓取产品标题,请使用浏览器开发人员工具找到每个列表的显示位置。识别网页中包含产品标题的特定部分。之后,使用 JSdom 选择器(如 .querySelector)根据其类精确定位该元素。使用.textContent()方法提取文本内容,并使用.trim()确保它是干净的。
1 | 常量 FS = 要求('fs'), |
5. 抓取 Craigslist.com 产品价格:
在本节中,我们将了解如何从 Craigslist 列表页面的爬网 HTML 中抓取产品价格。
1 | 的产品。车资 = 当前元素。查询选择器('。价格').文本内容.修剪(); |
6. 抓取 Craigslist.com 产品位置:
产品位置提供有关产品位置的有用详细信息,这对于各种研究和商业目标都很重要。抓取产品位置时,我们将使用 JSdom 包来解析 HTML 文本并查找所需的信息。
1 | 的产品。地址 = 当前元素。查询选择器('。地点').文本内容.修剪(); |
7. 抓取 Craigslist.com 产品 URL:
与前面的步骤类似,我们将使用 JSdom 包来解析 HTML 内容并查找所需的信息。
1 | 的产品。网址 = 当前元素。查询选择器('一种').获取属性('href'); |
8.最后,完成代码
1 | 常量 FS = 要求('fs'), |
JSON 响应:
1 | [ |
9. 将 Craigslist.com 数据保存为 CSV 文件
在运行以下代码之前,请确保您已通过运行 npm install json2csv 安装了 json2csv 包。此脚本读取您在上一步中抓取的 products.json 文件,指定要包含在 CSV 中的字段,将 JSON 数据转换为 CSV 格式,然后将 CSV 数据写入名为 products.csv 的文件。
1 | 常量 FS = 要求('fs'), |
输出 CSV 文件的片段:
抓取 Craigslist 数据对于研究市场、识别可能的销售线索、分析竞争对手和收集数据集非常有用。然而,Craigslist 使用 IP 禁令和验证码屏幕等严格的安全措施,使得抓取变得困难。 Crawlbase 抓取 API 解决了这个问题,它允许您大规模抓取 Craigslist 的公开列表,而不会遇到 IP 禁令或 CAPTCHA 困难。本指南演示了如何从 Craigslist 中抓取房产列表数据并将其存储为 JSON 和 CSV 文件。
查看我们的附加指南,了解类似方法 Trulia的, Realtor.com, Zillow的及 Target.com。这些资源对于提高跨不同平台的数据抓取能力非常有价值。
额外指南:
10。 经常问的问题
作为本指南的总结,我们来解决有关抓取 Craigslist 数据的常见常见问题解答。
Craigslist.com 的历史是什么?
克雷格·纽马克 (Craig Newmark) 于 1995 年创立了 Craigslist。它最初是一个共享旧金山当地活动和分类广告的电子邮件列表。到 1996 年,它已发展成为一个迅速发展成为全球顶级分类广告目的地的网站。即使在开始赚钱之后,它仍然专注于帮助个人,对工作和公寓列表收取少量费用。它扩展到其他国家,包括加拿大和英国。尽管存在一些问题,Craigslist 通过保持简单明了的方式和支持当地社区(尤其是通过 Craig Newmark 的慈善捐款)保持了其受欢迎程度。
Craigslist 允许抓取吗?
抓取公开信息是合法的,但法律可能会有所不同,因此建议在开始任何 Craigslist 抓取项目之前咨询专业法律顾问。 Craigslist 禁止自动抓取,但允许个人使用的手动访问。未经授权的抓取可能会导致访问阻止或法律后果。版权和隐私是需要考虑的两个道德和法律因素,因为它们的合法性因司法管辖区而异。要了解有关抓取的更多信息,请阅读 “网络抓取合法吗?” 的文章。
Craigslist 有官方 API 吗?
Craigslist.com 不提供用于访问其数据的官方 API。虽然某些部分提供 RSS 源以进行有限的数据访问,但没有可用的全面 API。因此,开发人员经常求助于网络抓取技术来从 Craigslist 抓取数据。
如何避免 Craigslist 验证码?
为了避免 Craigslist 验证码,请考虑使用可靠的 API,例如 Crawlbase Crawling API。此 API 可保护网络爬虫免受请求阻止、代理故障、IP 泄漏、浏览器崩溃和验证码的影响。 Crawlbase 的人工智能算法和工程团队始终在优化技术,以提供最佳的爬行体验。用户可以使用如此强大的程序来破解验证码并从 Craigslist 和其他网站收集数据,而不会出现延迟或访问限制。
为什么要抓取 Craigslist?
Craigslist 是一个有用的资源,提供多个类别的各种帖子,包括就业、房地产、服务和待售产品。 Craigslist 有大量信息,但 IP 过滤和验证码问题等安全功能使其难以抓取。借助 Crawlbase 爬行 API,可以克服这些挑战,从而使企业和研究人员能够出于各种目的访问有价值的数据。
以下是使用 Crawlbase 抓取 Craigslist 的好处:
- 市场研究和竞争分析: 公司可以通过抓取 Craigslist 列表来了解定价趋势、消费者需求和竞争对手策略。通过分析这些数据,了解市场趋势、发现差距以及做出明智的决策以保持竞争优势都变得更加容易。
- 领先一代: Craigslist 抓取通过收集潜在消费者或客户的联系方式来促进潜在客户的开发。这包括可用于有针对性的营销活动和销售外展活动的电话号码和电子邮件地址。
- 房地产洞察: Craigslist 抓取为房地产专家和房地产投资者提供了有关房地产市场的优质信息。跟踪租金价格、房产列表和区域趋势可以让您做出更明智的投资决策,并根据市场状况修改定价策略。
- 就业市场分析: 求职者和雇主可以利用 Craigslist 抓取来访问职位发布的实时数据。分析工作趋势、技能要求和薪资期望使求职者能够定制简历,并帮助雇主优化招聘策略。
- 电子商务优化: Craigslist 抓取是电子商务公司跟踪竞争对手价格、发现产品趋势和改进自己的列表的有用工具。通过使用数据驱动的策略以有竞争力的价格提供相关产品,企业可以在在线市场上保持竞争力。