Anthropic Skills 中文文档
首页
使用指南
技能列表
  • 🎨 创意与设计
  • 💻 开发与技术
  • 🏢 企业与沟通
  • 📄 文档处理
  • 🔧 元技能
  • GitHub 仓库
  • Claude 官网
  • Skills 官方文档
GitHub
首页
使用指南
技能列表
  • 🎨 创意与设计
  • 💻 开发与技术
  • 🏢 企业与沟通
  • 📄 文档处理
  • 🔧 元技能
  • GitHub 仓库
  • Claude 官网
  • Skills 官方文档
GitHub
  • 技能列表
  • 🎨 创意与设计

    • 🎨 算法艺术生成

      • 📋 概览
      • 📖 完整指南
    • 🖼️ 画布设计

      • 📋 概览
      • 📖 完整指南
    • 🎬 Slack GIF 创建器

      • 📋 概览
      • 📖 完整指南
    • 🎨 主题工厂

      • 📋 概览
      • 📖 完整指南
  • 💻 开发与技术

    • 🎨 Web 组件构建器

      • 📋 概览
      • 📖 完整指南
    • 📦 MCP 服务器构建器

      • 📋 概览
      • 📖 完整指南
    • 🧪 Web 应用测试工具

      • 📋 概览
      • 📖 完整指南
  • 🏢 企业与沟通

    • 🎨 品牌指南

      • 📋 概览
      • 📖 完整指南
    • 📢 企业内部沟通

      • 📋 概览
      • 📖 完整指南
    • 💎 前端设计

      • 📋 概览
      • 📖 完整指南
  • 📄 文档处理

    • 📘 Word 文档处理

      • 📋 概览
      • 📖 完整指南
    • 📕 PDF 文档处理

      • 📋 概览
      • 📖 完整指南
    • 📙 PowerPoint 演示文稿处理

      • 📋 概览
      • 📖 完整指南
    • 📗 Excel 表格处理

      • 📋 概览
      • 📖 完整指南
  • 🔧 元技能

    • 🛠️ Skill 创建器

      • 📋 概览
      • 📖 完整指南
    • 📝 Skill 模板

      • 📋 概览
      • 📖 完整参考

📕 PDF 文档处理

全能型 PDF 工具包:从数据提取到文档生成,从表单填写到批量处理

🎯 这个技能能做什么?

PDF 文档处理技能提供完整的 PDF 操作解决方案,无论是提取数据、创建文档还是批量处理,都能高效完成。

核心能力

  • 📊 智能数据提取 - 从 PDF 中提取文本、表格,导出为 Excel/CSV
  • 📝 文档创建 - 程序化生成专业的 PDF 报告和文档
  • 🔧 PDF 操作 - 合并、拆分、旋转、加密、水印
  • 📋 表单处理 - 自动填写可填充表单,批量处理申请表/合同
  • 🔍 OCR 识别 - 将扫描的 PDF 转换为可搜索文本
  • 🔐 安全管理 - 密码保护、权限控制、水印添加

💡 适合什么场景?

场景 1:财务数据提取

任务:从 100 份 PDF 发票中提取金额、日期、供应商信息

import pdfplumber
import pandas as pd

invoices = []
for pdf_file in ["invoice1.pdf", "invoice2.pdf", ...]:
    with pdfplumber.open(pdf_file) as pdf:
        # 提取表格数据
        tables = pdf.pages[0].extract_tables()
        # 转换为 DataFrame
        df = pd.DataFrame(tables[0][1:], columns=tables[0][0])
        invoices.append(df)

# 导出到 Excel
pd.concat(invoices).to_excel("invoices.xlsx", index=False)

场景 2:批量表单填写

任务:自动填写 50 份员工入职申请表

from pypdf import PdfReader, PdfWriter

employees = [
    {"name": "张三", "department": "技术部", "date": "2024-01-15"},
    {"name": "李四", "department": "市场部", "date": "2024-01-16"},
    # ...
]

for emp in employees:
    reader = PdfReader("template.pdf")
    writer = PdfWriter()
    
    # 填写表单字段
    writer.append(reader, [0])
    writer.update_page_form_field_values(
        writer.pages[0],
        {"name": emp["name"], "department": emp["department"]}
    )
    
    with open(f"filled_{emp['name']}.pdf", "wb") as f:
        writer.write(f)

场景 3:报告自动生成

任务:每日生成标准化的销售报告 PDF

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Table, Paragraph
from reportlab.lib.styles import getSampleStyleSheet

doc = SimpleDocTemplate("daily_report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
elements = []

# 添加标题
elements.append(Paragraph("每日销售报告", styles['Title']))

# 添加数据表格
data = [['产品', '销量', '收入'],
        ['产品A', '100', '¥10000'],
        ['产品B', '150', '¥15000']]
table = Table(data)
elements.append(table)

doc.build(elements)

🚀 快速开始

基本示例 1:提取 PDF 文本

import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

基本示例 2:合并 PDF

from pypdf import PdfWriter

writer = PdfWriter()
for pdf in ["part1.pdf", "part2.pdf", "part3.pdf"]:
    writer.append(pdf)

writer.write("merged.pdf")

基本示例 3:创建简单 PDF

from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf")
c.drawString(100, 750, "Hello World!")
c.save()

🛠️ 主要工具库

工具用途特点
pypdfPDF 基本操作合并、拆分、旋转、加密
pdfplumber数据提取精确提取文本和表格,保留布局
reportlabPDF 创建程序化生成专业文档
pytesseractOCR 识别扫描文档转文字

📚 深入了解

查看完整指南了解:

  • 🔍 详细的工作流程 - 4 种主要工作流的完整说明
  • 💻 高级代码示例 - 20+ 实用代码片段
  • 📖 工具使用指南 - Python 库和命令行工具详解
  • 🎯 最佳实践 - 性能优化和常见问题解决
  • 📋 表单处理详解 - 完整的表单填写指南

🏷️ 相关技能

  • Word 文档处理 - 处理 Word 文档
  • Excel 表格处理 - 处理 Excel 表格
  • PowerPoint 演示文稿处理 - 处理 PPT 文档

💡 提示:此页面提供快速概览。完整的技术细节、代码示例和最佳实践请查看完整指南。

Next
📖 完整指南