本博客是使用 Python 抓取 Amazon PPC 广告数据的分步指南。 亚马逊 PPC 广告(即商品推广)已成为亚马逊庞大广告生态系统的关键组成部分。 这些是您在亚马逊上执行搜索时看到的广告,通常标记为“赞助”或“广告”。 抓取竞争对手的赞助广告数据给您带来的不仅仅是竞争优势。 向下滚动以了解更多亚马逊广告如何使您的业务受益,或者您可以通过点击直接抓取亚马逊广告数据 点击这里.
我们即用型亚马逊抓取工具是抓取各种亚马逊数据的综合解决方案。 你现在就可以尝试一下.
目录
- 为什么要抓取亚马逊 PPC 广告数据?
- Crawlbase Python库
- 您想要抓取的数据
- 设置您的开发环境
- 安装所需的库
- 创建 Crawlbase 账户
- 获得正确的 Crawlbase Token
- 配置 Crawlbase Crawling API
- 处理动态内容
- 提取广告数据并保存到 SQLite 数据库中
2.开始治疗
亚马逊拥有庞大且不断扩张的平台。目前,亚马逊平台上有超过 2.5 万卖家在销售商品。企业可以竭尽所能提升品牌和产品的知名度,但在早期阶段,往往需要借助其他品牌来打造自己的品牌。规模较小的企业试图通过亚马逊这样的平台扩大规模,从而获得客户群体的曝光度,但单靠自身力量是无法实现的。亚马逊向近 200,000 万家年销售额达 100,000 万美元或以上的企业销售产品。在亚马逊平台上,约有 25,000 万家供应商的收入超过 1 万美元。
让我们进一步探讨为什么应该抓取亚马逊广告。
为什么要抓取亚马逊赞助广告数据?
抓取亚马逊 PPC 广告数据可能不是第一个想到的想法,但它对电子商务企业来说具有巨大的潜力。 以下是您应该考虑深入研究抓取 Amazon PPC 广告数据的原因:

- 竞争力分析:通过从 Amazon PPC 广告中抓取数据,您可以深入了解竞争对手的广告策略。 您可以监控他们的关键字、广告文案和出价策略,以在竞争中保持领先地位。
- 优化您的广告活动:通过访问您自己的 Amazon PPC 营销活动的数据,您可以详细分析其绩效。 您可以确定哪些有效,哪些无效,帮助您做出数据驱动的决策以优化广告支出。
- 发现新关键词:抓取广告数据可以发现您在初始研究中可能错过的有价值的关键字。 这些新关键字也可用于增强您的有机列表。
- 保持知情:亚马逊的广告系统是动态的。 新产品、新关键词和不断变化的趋势需要持续监控。 抓取可以让您了解这些变化,并确保您的广告策略保持相关性。
- 研究和市场洞察:除了您自己的广告活动之外,抓取 Amazon PPC 广告数据还可以提供有关市场趋势和客户行为的更广泛的视角。 您可以通过大规模分析广告数据来识别上升趋势和客户偏好。
在本指南的后续部分中,您将深入研究抓取 Amazon PPC 广告数据的技术方面,释放在电子商务领域获得竞争优势的潜力。
2. 入门 Crawlbase Crawling API
如果你是网络抓取新手或有此领域的经验,你会发现 Crawlbase Crawling API 简化从网站提取数据的过程,包括 抓取亚马逊搜索页面。 在详细介绍使用此 API 之前,让我们花点时间了解一下它为何重要以及它如何为您带来好处。
Crawlbase Python库
为了利用的力量 Crawlbase Crawling API,你可以使用 Crawlbase Python 库。该库简化了 Crawlbase 到您的 Python 项目中,使各个专业水平的 Python 开发人员都可以使用它。
首先,初始化 Crawling API 类。
1 | api = 爬行API({ '令牌': 'YOUR_CRAWLBASE_TOKEN' }) |
使用以下函数传递您要抓取的 URL。
1 | api.get(url, 选项 = {}) |
计费示例:
1 | 响应 = api.get('https://www.facebook.com/britneyspears') |
您可以传递以下可用选项中的任何选项 API文档.
计费示例:
1 | 响应 = api.get('https://www.reddit.com/r/pics/comments/5bx4bx/thanks_obama/',{ |
还提供许多其他功能 Crawlbase Python 库。您可以阅读更多相关信息 点击这里.
在以下部分中,我们将指导您利用 Crawlbase Crawling API 有效地抓取亚马逊搜索页面。我们将使用 Python(一种多功能编程语言)逐步演示该过程。让我们探索亚马逊的丰富信息并学习如何释放其潜力。
3. 了解亚马逊 PPC 广告
在深入研究抓取 Amazon PPC 广告数据的技术方面之前,了解亚马逊赞助广告、其不同类型以及您想要抓取的具体数据至关重要。 我们先来解码亚马逊的广告系统。
您想要抓取的数据
现在您已经了解了亚马逊的广告,接下来让我们重点关注您想要从亚马逊 PPC 广告中获取的具体数据。 抓取 Amazon PPC 广告数据时,您通常要提取的关键信息包括:
- 广告活动信息:此数据可让您深入了解广告活动的整体效果。 它包括活动名称、ID、开始和结束日期以及预算详细信息。
- 关键字数据:关键词是PPC广告的基础。 您需要抓取关键字信息,包括广告系列中使用的关键字、其匹配类型(广泛、短语、精确)和出价金额。
- 广告组详细信息:广告组可帮助您根据常见主题整理广告。 抓取广告组数据可以让您了解广告系列的结构。
- 广告效果指标:基本指标包括点击次数、展示次数、点击率、转化率、总支出等。 这些指标可帮助您评估广告的效果。
- 产品信息:提取有关广告产品的数据(例如 ASIN、产品标题、价格和图像 URL)对于优化广告内容至关重要。
- 竞争对手分析:除了您自己的广告数据之外,您可能还想抓取竞争对手的广告信息,以深入了解他们的策略和关键字定位。
理解这些核心元素和您想要抓取的特定数据将有助于您使用 Python 和 Crawlbase Crawling API在后续章节中,您将学习如何将这种理解转化为可操作的技术流程。
4。 先决条件
在开始网页抓取之旅之前,请确保您已准备好所有必要的工具和资源。在本章中,我们将介绍使用以下工具成功抓取亚马逊搜索页面所需的先决条件: Crawlbase Crawling API.
设置您的开发环境
您需要一个合适的开发环境才能开始网络抓取。 这是您需要的:
Python
:
Python 是一种广泛用于网络抓取的通用编程语言。 确保您的系统上安装了 Python。 您可以从这里的官方网站下载最新版本的Python。
代码编辑器或 IDE:
选择代码编辑器或集成开发环境 (IDE) 来编写和运行 Python 代码。 受欢迎的选项包括 PyCharm及 Jupyter笔记本。 你也可以使用 谷歌合作实验室。 选择最适合您的偏好和工作流程的一项。
安装所需的库
使用可简化诸如创建 HTTP、解析 HTML 和处理数据等任务的库,可以使 Python 中的 Web 抓取变得更容易访问。 使用 Python 的包管理器 pip 安装以下库:
1 | pip 安装熊猫 |
- 熊猫:Pandas 是一个强大的数据操作库,可以帮助您有效地组织和分析抓取的数据。
- Crawlbase:一个轻量级、无依赖的 Python 类,可作为以下对象的包装器 Crawlbase API。
- 美丽的汤:Beautiful Soup 是一个 Python 库,可以轻松解析 HTML 并从网页中提取数据。
创建 Crawlbase 账户
访问 Crawlbase Crawling API,您需要一个 Crawlbase 帐户。 如果您没有帐户,请按照以下步骤创建一个帐户:
- 点击 点击这里 创造一个新的 Crawlbase 帐户。
- 填写所需信息,包括您的姓名、电子邮件地址和密码。
- 通过单击发送到您收件箱的验证链接来验证您的电子邮件地址。
- 您的电子邮件验证通过后,您就可以访问 Crawlbase 仪表板。
现在您的开发环境已经设置好了,并且您有一个 Crawlbase 帐户准备好了,让我们继续下一步,我们将在那里得到你的 Crawlbase 令牌并开始向 Crawlbase Crawling API.
5. 亚马逊 PPC 广告抓取 - 一步一步
现在我们已经奠定了基础,是时候深入了解逐步抓取 Amazon PPC 广告数据的技术流程了。 本节将指导您完成整个旅程,从向 Amazon 发出 HTTP 请求、导航搜索结果页面,到构建抓取工具以提取广告数据。 我们还将探索处理分页以发现更多广告。
获得正确的 Crawlbase Token
我们必须获得 API 令牌才能释放 Crawlbase Crawling API. Crawlbase 亚马逊提供两种类型的令牌:用于静态网站的普通令牌 (TCP) 和用于动态或 JavaScript 驱动网站的 JavaScript 令牌 (JS)。鉴于亚马逊高度依赖 JavaScript 进行动态内容加载,我们将选择 JavaScript 令牌。
1 | 在 爬行基地 进口 抓取API |
你可以得到你的 Crawlbase 象征 点击这里 在其上创建帐户后。
配置 Crawlbase Crawling API
有了 JavaScript 令牌,我们就可以设置 Crawlbase Crawling API。但在继续之前,让我们深入研究一下输出响应的结构。您收到的响应可以采用两种格式:HTML 或 JSON。 Crawling API 是 HTML 格式。
HTML 响应:
1 | 头: |
要获取 JSON 格式的响应,您必须传递值为“json”的参数“format”。
JSON 响应:
1 | { |
我们可以阅读更多关于 Crawling API 响应 点击这里。 对于示例,我们将使用默认选项。 我们将利用初始化的 API 对象来发出请求。 使用以下命令指定您要抓取的 URL api.get(url, options={})
功能。
1 | 在 爬行基地 进口 抓取API |
在提供的代码片段中,我们通过将获取的 HTML 内容存储在 HTML 文件中来保护它。 此操作对于确认成功获取目标 HTML 数据至关重要。 然后,我们可以查看该文件以检查爬网 HTML 中包含的特定内容。
输出.html 预览:

正如您在上面所看到的,爬网的 HTML 中不存在任何有用的信息。 这是因为 Amazon 使用 JavaScript 和 Ajax 动态加载其重要内容。
处理动态内容
与许多当代网站一样,亚马逊的搜索页面通过 JavaScript 渲染和 Ajax 调用实现动态内容加载。这种动态行为在尝试从这些页面抓取数据时可能会带来挑战。尽管如此,得益于 Crawlbase Crawling API,这些挑战可以得到有效解决。我们可以利用 Crawling API 来解决这个问题。
合并参数
当使用 JavaScript 令牌与 Crawlbase API,您可以定义特定参数,以确保准确捕获动态渲染的内容。几个关键参数包括:
- 页面等待:此参数虽然是可选的,但允许您指定浏览器捕获生成的 HTML 代码之前等待的持续时间(以毫秒为单位)。 在页面需要额外时间进行渲染或 AJAX 请求必须在 HTML 捕获之前完全加载的情况下部署此参数。
- ajax_等待:另一个为 JavaScript 令牌量身定制的可选参数。 它使您能够指示脚本是否应在接收 HTML 响应之前等待 AJAX 请求完成。 当内容依赖于 AJAX 请求的执行时,这被证明是无价的。
为了在我们的示例中使用这些参数,我们可以像这样更新我们的代码:
1 | 在 爬行基地 进口 抓取API |

Crawling API 提供了许多其他重要参数。您可以阅读有关它们的内容 点击这里.
提取广告数据并保存到 SQLite 数据库中
现在我们已经成功获取了亚马逊动态搜索页面的 HTML 内容,是时候从检索到的内容中提取亚马逊 PPC 广告的有价值的数据了。 对于该示例,我们将提取广告的标题和价格。
提取这些数据后,谨慎的做法是系统地存储它。 为此,我们将采用 SQLite,这是一种与 Python 无缝集成的轻量级高效关系数据库系统。 SQLite 是结构化数据本地存储的绝佳选择,在这种情况下,它非常适合保存抓取的 Amazon PPC 广告数据。
1 | 进口 sqlite3 |
示例输出:

此 Python 脚本演示了抓取亚马逊搜索页面以获取 PPC 广告的过程。 首先初始化 SQLite 数据库,创建一个表来存储抓取的数据,包括广告 ID、价格和标题。 这 insert_data
函数被定义为将提取的数据插入到该数据库中。然后,脚本设置 Crawlbase 用于网络爬取的 API,指定页面和 AJAX 等待时间的选项以有效处理动态加载的内容。
使用成功检索亚马逊搜索页面后 Crawlbase API 中,该脚本使用 BeautifulSoup 解析 HTML 内容。它专门针对页面上的 PPC 广告元素。对于每个广告元素,脚本都会提取价格和标题信息。它会验证这些详细信息是否存在,并在使用以下代码将其插入 SQLite 数据库之前进行清理: insert_data
功能。 该脚本通过正确关闭数据库连接来结束。 本质上,这个脚本展示了完整的过程 网络抓取,数据提取,以及 云存储,对于各种数据分析和使用场景至关重要。
6. 最后的话
所以这是抓取亚马逊赞助广告,如果您对此类更多指南感兴趣,请查看以下链接:
📜 如何抓取亚马逊评论
📜 如何抓取亚马逊搜索页面
📜 如何抓取亚马逊产品数据
如需更多帮助和支持,请查看以下指南 抓取亚马逊ASIN, Node 中的亚马逊评论, 亚马逊图片及 Ruby 中的亚马逊数据.
我们在其他电子商务网站上编写了一些指南,例如从 沃尔玛, 易趣及 全球速卖通。 以防万一你刮掉它们;)。
请随时与我们联系 点击这里 如有疑问和疑问。
7 常见问题解答
问:什么是亚马逊 PPC 广告?
亚马逊PPC广告允许卖家和广告商在亚马逊平台上推广他们的产品。 这些广告显示在亚马逊的搜索结果和产品详细信息页面中,帮助产品获得更高的可见度。 仅当用户点击广告时,广告商才需要付费。 这是一种吸引积极寻找产品的潜在客户的经济高效的方式。
问:为什么抓取 Amazon PPC 广告数据很重要?
抓取亚马逊数据有助于利用数据驱动的见解来提高 PPC 活动的绩效、提高可见性并最大限度地提高投资回报率。 首先,它使企业能够深入了解竞争对手的广告策略,例如关键词、广告文案和出价技术。 其次,它允许广告商通过分析效果指标来优化自己的广告活动。 此外,抓取可以发现有价值的关键字,以改善有机列表。 此外,它还可以让企业了解亚马逊广告系统的变化,并提供更广泛的市场洞察,帮助他们在动态的电子商务领域保持领先地位。
问:什么是 Crawlbase Crawling API?
- Crawlbase Crawling API 是一种复杂的网络抓取工具,可简化从网站大规模提取数据的过程。 它为开发人员和企业提供了一种从网页收集信息的自动化且用户友好的方法。 其值得注意的功能之一是自动 IP轮换,它通过动态更改每个请求的 IP 地址来增强数据提取,从而降低 IP 阻塞或限制的风险。 用户可以向 API 发送请求,指定要抓取的 URL 以及查询参数,作为回报,他们会收到 HTML 或 JSON 等结构化格式的抓取数据。 对于那些寻求高效、不间断地从网站收集数据的人来说,这种多功能工具非常宝贵。
问:如何使用 Web 抓取工具开始抓取网页 Crawlbase 还有 Python?
要开始使用 Web 抓取 Crawlbase 和 Python,请按照下列步骤操作:
- 确保您的系统上安装了 Python。
- 选择代码编辑器或集成开发环境 (IDE) 来编写 Python 代码。
- 安装必要的库,例如 BeautifulSoup4 和 Crawlbase 库,使用 pip。
- 创建一个 Crawlbase 帐户以获取 API 令牌。
- 设置 Crawlbase Python 库并初始化 Crawling API 使用你的令牌。
- 向 Crawlbase Crawling API 从网站上抓取数据,指定 URL 和任何查询参数。
- 保存抓取的数据并根据您的特定用例的需要进行分析。