任意 Scribd URL 输入。HTML 或 JSON 输出。
Crawling API 实时输入演示。获取渲染后的 HTML,或切换到通用提取器获取 JSON。悬停即可暂停阅读。
一个 API,应对 Scribd 抛给你的一切。
Scribd 的文档阅读器采用 JavaScript 渲染,页面延迟加载,预览受限,元数据加载较晚,且会激进地封锁访问。Crawling API 会在真实浏览器中渲染它,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。
完整 JavaScript 渲染
真实浏览器执行页面,因此文档阅读器、延迟加载的页面、预览文本和动态加载的元数据全部会被捕获,而不仅是初始 HTML。
140M 住宅 IP
每次请求都会在 30 个地区间轮换住宅 IP,让你像真实的本地访客一样访问 Scribd。
封锁自动处理
CAPTCHA、机器人墙和速率限制都会被自动清除。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor 即可将标题、内容、图片和链接以结构化 JSON 返回。
截图与异步
同一次调用即可捕获整页截图,或配合 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会得到渲染后的 HTML。添加 generic-extractor ,同一页面便会以类型化 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
从 URL 到数据,一次调用完成。
每个 Scribd 请求都走同一条路径。你发送一个 URL,中间的一切由我们运行。
发送 URL
带上你的令牌传入任意公开的 Scribd URL:文档、书籍、有声书、演示文稿、个人资料或搜索。
轮换代理
选取一个能干净访问 Scribd 的住宅 IP 和地区,取自遍布 30 个区域的 140M 个 IP。
渲染页面
真实浏览器加载页面,使文档阅读器、延迟加载的页面和动态加载的元数据在捕获前完成渲染。
清除反爬虫
Scribd 激进的机器人检测和速率限制都会被自动处理。无需破解,无需维护。
返回 HTML 或 JSON
完整渲染的 HTML 会返回,当你添加通用提取器时则返回类型化的 JSON。
团队用 Scribd 数据构建什么。
文档目录与发现
跨文档提取标题、作者、分类和页数,构建可搜索的目录。
元数据与预览采集
捕获阅读器动态加载的可读预览文本和文档元数据。
训练数据与 RAG
通过一个 API 将干净的文档文本和预览喂入模型、RAG 管道和智能体。
作者与上传监控
跨个人资料和分类追踪新上传的内容、书籍、有声书和演示文稿。
市场与内容研究
挖掘真实的文档标题、描述和主题,为产品和内容决策提供依据。
任意 URL,一个 API
抓取文档、书籍、有声书、演示文稿、个人资料和搜索,以及你需要的任何其他站点。
抓取 Scribd 时值得了解的要点。
像真实浏览器一样渲染
Scribd 是一个采用 JavaScript 渲染、页面延迟加载的文档阅读器;Crawling API 运行真实浏览器,使预览文本和元数据在捕获前完成加载。
默认 HTML,按需 JSON
你会得到完整渲染的 HTML。添加 scraper=generic-extractor 可获得解析后的标题、内容、图片和链接,或自行解析 HTML。
仅限公开页面
Crawling API 读取公开可见的页面,无需登录,因此你得到的是未登录访客所能看到的标题、作者、页数、分类和可读预览。
从任何地方访问 Scribd
跨 30 个区域的地理定位和 140M 住宅 IP 意味着稳定的访问,无需自行管理代理。
为大规模抓取 Scribd 而生。
Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络上。无需购买代理,无需运行浏览器,Scribd 变化时也无需打补丁。
一个令牌,官方提供 Python、Node 和 Ruby 的 SDK,底层是 99.99% 正常运行时间的网络。