Crawling API / Scribd

Scribd 抓取工具。
任意页面,完整渲染。

发送任意 Scribd URL,即可取回完整渲染的 HTML,全程经由住宅代理并内置反爬虫处理。
通过通用提取器将其转换为 JSON。

99% 成功率140M 住宅 IP30 个地区
Scribd URLHTML 或 JSONscribd.com/document/271234567Crawlbase路由渲染提取渲染后的 HTML结构化 JSONcrawling-apigeneric-extractorscribd.com · 机器人检测通过 · 200
实时抓取信息流 · Scribd1.24M req/min流式传输中
301scribd.com/book/318740296/Thinking-Fast-and-SlowGB107ms
200scribd.com/search?query=business+plan+templateCA151ms
200scribd.com/document/271234567/Sample-ReportJP93ms
200scribd.com/search?query=machine+learningES185ms
200scribd.com/search?query=business+plan+templateNL128ms
200scribd.com/user/8841205/research-librarySG171ms
200scribd.com/presentation/389471025/Q3-Strategy-DeckSG195ms
200scribd.com/user/4420918/publishedNL113ms
200scribd.com/document/271234567/Sample-ReportUS41ms
200scribd.com/document/356019284/Annual-Financial-StatementGB173ms
200scribd.com/presentation/389471025/Q3-Strategy-DeckSG142ms
200scribd.com/search?query=machine+learningIN138ms
301scribd.com/presentation/214905738/Onboarding-HandbookNL55ms
200scribd.com/audiobook/512098471/Atomic-HabitsIN169ms
200scribd.com/audiobook/512098471/Atomic-HabitsUS142ms
200scribd.com/presentation/389471025/Q3-Strategy-DeckJP152ms
200scribd.com/user/4420918/publishedUS194ms
200scribd.com/document/183047562/Whitepaper-Cloud-MigrationFR93ms
200scribd.com/document/271234567/Sample-ReportJP177ms
200scribd.com/search?query=business+plan+templateUS129ms
200scribd.com/document/271234567/Sample-ReportBR62ms
200scribd.com/audiobook/512098471/Atomic-HabitsNL138ms
200scribd.com/book/602184937/SapiensAU101ms
301scribd.com/book/602184937/SapiensNL53ms
200scribd.com/presentation/214905738/Onboarding-HandbookDE196ms
200scribd.com/presentation/214905738/Onboarding-HandbookDE47ms
301scribd.com/book/318740296/Thinking-Fast-and-SlowGB107ms
200scribd.com/search?query=business+plan+templateCA151ms
200scribd.com/document/271234567/Sample-ReportJP93ms
200scribd.com/search?query=machine+learningES185ms
200scribd.com/search?query=business+plan+templateNL128ms
200scribd.com/user/8841205/research-librarySG171ms
200scribd.com/presentation/389471025/Q3-Strategy-DeckSG195ms
200scribd.com/user/4420918/publishedNL113ms
200scribd.com/document/271234567/Sample-ReportUS41ms
200scribd.com/document/356019284/Annual-Financial-StatementGB173ms
200scribd.com/presentation/389471025/Q3-Strategy-DeckSG142ms
200scribd.com/search?query=machine+learningIN138ms
301scribd.com/presentation/214905738/Onboarding-HandbookNL55ms
200scribd.com/audiobook/512098471/Atomic-HabitsIN169ms
200scribd.com/audiobook/512098471/Atomic-HabitsUS142ms
200scribd.com/presentation/389471025/Q3-Strategy-DeckJP152ms
200scribd.com/user/4420918/publishedUS194ms
200scribd.com/document/183047562/Whitepaper-Cloud-MigrationFR93ms
200scribd.com/document/271234567/Sample-ReportJP177ms
200scribd.com/search?query=business+plan+templateUS129ms
200scribd.com/document/271234567/Sample-ReportBR62ms
200scribd.com/audiobook/512098471/Atomic-HabitsNL138ms
200scribd.com/book/602184937/SapiensAU101ms
301scribd.com/book/602184937/SapiensNL53ms
200scribd.com/presentation/214905738/Onboarding-HandbookDE196ms
200scribd.com/presentation/214905738/Onboarding-HandbookDE47ms
01 实时演示

任意 Scribd URL 输入。HTML 或 JSON 输出。

Crawling API 实时输入演示。获取渲染后的 HTML,或切换到通用提取器获取 JSON。悬停即可暂停阅读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内运行你的第一个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能特性

一个 API,应对 Scribd 抛给你的一切。

Scribd 的文档阅读器采用 JavaScript 渲染,页面延迟加载,预览受限,元数据加载较晚,且会激进地封锁访问。Crawling API 会在真实浏览器中渲染它,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。

render

完整 JavaScript 渲染

真实浏览器执行页面,因此文档阅读器、延迟加载的页面、预览文本和动态加载的元数据全部会被捕获,而不仅是初始 HTML。

proxies

140M 住宅 IP

每次请求都会在 30 个地区间轮换住宅 IP,让你像真实的本地访客一样访问 Scribd。

anti-bot

封锁自动处理

CAPTCHA、机器人墙和速率限制都会被自动清除。无需破解,无需维护。

format

HTML 或 JSON

获取完整渲染的 HTML,或添加 scraper=generic-extractor 即可将标题、内容、图片和链接以结构化 JSON 返回。

extras

截图与异步

同一次调用即可捕获整页截图,或配合 webhook 和云存储异步运行。

one token

一个 API 适用所有站点

Crawling API 适用于任何 URL,因此同一个令牌既覆盖 Scribd,也覆盖你抓取的其他一切。 查看实时演示

03 输出

渲染后的 HTML,或干净的 JSON。

默认情况下你会得到渲染后的 HTML。添加 generic-extractor ,同一页面便会以类型化 JSON 返回。

{ "title": "Sample Report | PDF | Technology", "favicon": "https://s-f.scribdassets.com/favicon.ico", "meta": { "description": "Read the document on Scribd.", "keywords": "..." }, "content": "Document title, author, page count, category and the readable preview text...", "canonical": "https://www.scribd.com/document/271234567/Sample-Report", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

内容

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

从 URL 到数据,一次调用完成。

每个 Scribd 请求都走同一条路径。你发送一个 URL,中间的一切由我们运行。

01

发送 URL

带上你的令牌传入任意公开的 Scribd URL:文档、书籍、有声书、演示文稿、个人资料或搜索。

02

轮换代理

选取一个能干净访问 Scribd 的住宅 IP 和地区,取自遍布 30 个区域的 140M 个 IP。

03

渲染页面

真实浏览器加载页面,使文档阅读器、延迟加载的页面和动态加载的元数据在捕获前完成渲染。

04

清除反爬虫

Scribd 激进的机器人检测和速率限制都会被自动处理。无需破解,无需维护。

05

返回 HTML 或 JSON

完整渲染的 HTML 会返回,当你添加通用提取器时则返回类型化的 JSON。

05 使用场景

团队用 Scribd 数据构建什么。

USE / 01目录

文档目录与发现

跨文档提取标题、作者、分类和页数,构建可搜索的目录。

USE / 02元数据

元数据与预览采集

捕获阅读器动态加载的可读预览文本和文档元数据。

USE / 03训练

训练数据与 RAG

通过一个 API 将干净的文档文本和预览喂入模型、RAG 管道和智能体。

USE / 04监控

作者与上传监控

跨个人资料和分类追踪新上传的内容、书籍、有声书和演示文稿。

USE / 05研究

市场与内容研究

挖掘真实的文档标题、描述和主题,为产品和内容决策提供依据。

USE / 06覆盖范围

任意 URL,一个 API

抓取文档、书籍、有声书、演示文稿、个人资料和搜索,以及你需要的任何其他站点。

06 注意事项

抓取 Scribd 时值得了解的要点。

像真实浏览器一样渲染

Scribd 是一个采用 JavaScript 渲染、页面延迟加载的文档阅读器;Crawling API 运行真实浏览器,使预览文本和元数据在捕获前完成加载。

默认 HTML,按需 JSON

你会得到完整渲染的 HTML。添加 scraper=generic-extractor 可获得解析后的标题、内容、图片和链接,或自行解析 HTML。

仅限公开页面

Crawling API 读取公开可见的页面,无需登录,因此你得到的是未登录访客所能看到的标题、作者、页数、分类和可读预览。

从任何地方访问 Scribd

跨 30 个区域的地理定位和 140M 住宅 IP 意味着稳定的访问,无需自行管理代理。

07 为什么选择 Crawlbase

为大规模抓取 Scribd 而生。

Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络上。无需购买代理,无需运行浏览器,Scribd 变化时也无需打补丁。

99%
平均请求成功率
140M
住宅 IP,另有 98M 数据中心 IP
30
地区数量,带来精准的本地化结果
20/s
默认每秒请求数,可按需提升

一个令牌,官方提供 Python、Node 和 Ruby 的 SDK,底层是 99.99% 正常运行时间的网络。

08 常见问题

Scribd 抓取相关问题。

带上你的令牌将 Scribd URL 发送到 Crawlbase Crawling API。Crawlbase 会轮换住宅代理、在真实浏览器中渲染页面、清除机器人检测,并返回完整渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。Crawling API 默认返回渲染后的 HTML;添加通用提取器(scraper=generic-extractor)即可将标题、元数据、内容、图片和链接以 JSON 形式接收,或自行解析 HTML。
会。真实浏览器执行页面,因此 JavaScript 文档阅读器、延迟加载的页面和动态加载的元数据都会被捕获,而不仅是初始 HTML。
Crawlbase 将每个请求通过遍布 30 个地区的轮换住宅 IP 发送,并自动清除机器人检测。你无需管理代理或破解 CAPTCHA,Scribd 更改其设置时也无需维护。
不需要。Crawling API 仅读取公开可见的页面,无需登录,因此你收到的是未登录访客所能看到的文档标题、作者、页数、分类和可读预览。
任何公开 URL:文档、书籍、有声书、演示文稿、用户个人资料以及搜索结果页面。同一个 API 也适用于任何其他站点。
免费开始,赠送最多 10,000 次请求且无需信用卡。付费套餐随用量扩展,同一个令牌可在 Crawling API 和每个 Crawlbase 抓取工具间通用。

开始抓取 Scribd。
跳过代理和封锁。

免费起步,赠送最多 10,000 次请求。一个令牌通用于 Crawling API 和每个抓取工具。