📄 文档处理类技能
文档处理类技能提供专业的 Microsoft Office 文档处理能力,支持 Word、Excel、PowerPoint 和 PDF 的创建、编辑和分析。
生产级技能
这些是 Anthropic 用于生产环境的技能快照,展示了处理复杂二进制文件格式的高级模式。
技能列表
DOCX(Word 文档处理)
创建、编辑和分析 Word 文档,支持追踪更改和高级格式。
核心能力:
- Redlining(追踪更改)工作流
- OOXML 深度编辑
- 文档分析和提取
适用场景:
- 法律文档审核
- 协作文档编辑
- 合同和报告生成
技术深度: ⭐⭐⭐⭐⭐
PDF(PDF 文档处理)
全面的 PDF 处理工具,支持提取、创建、合并和表单处理。
核心能力:
- 文本和表格提取
- 表单自动填写
- PDF 创建和合并
适用场景:
- 表单数据提取
- 文档归档
- 自动化报告生成
技术深度: ⭐⭐⭐⭐⭐
PPTX(PowerPoint 处理)
创建和编辑 PowerPoint 演示文稿,支持模板和自动化。
核心能力:
- html2pptx 工作流
- 18 种创意调色板
- 模板应用和批处理
适用场景:
- 自动化报告生成
- 品牌演示创建
- 数据可视化演示
技术深度: ⭐⭐⭐⭐⭐
XLSX(Excel 表格处理)
创建、编辑和分析 Excel 表格,支持公式和高级格式。
核心能力:
- 财务建模标准
- 公式和数据分析
- 零错误要求流程
适用场景:
- 财务报表
- 数据分析
- 自动化报告
技术深度: ⭐⭐⭐⭐⭐
技术栈
这些技能使用的主要技术:
Python 库:
python-docx- Word 文档pypdf,pdfplumber,reportlab- PDF 处理python-pptx- PowerPointopenpyxl,pandas,xlsxwriter- Excel
格式标准:
- OOXML (Office Open XML)
- PDF 1.7 / PDF/A
- ZIP 压缩格式
工具链:
unzip- OOXML 解压xmllint- XML 验证- OCR 工具(Tesseract)
快速开始
Word 文档
# 使用 docx 技能
"创建一份带追踪更改的合同文档"
PDF 处理
# 使用 pdf 技能
"从这个 PDF 表单中提取所有字段"
PowerPoint
# 使用 pptx 技能
"创建一个季度报告 PPT,使用蓝绿配色"
Excel 表格
# 使用 xlsx 技能
"创建一个财务模型,包含收入预测"
工作流示例
文档审核流程
# 步骤 1: 分析原文档
"分析 contract.docx 的结构和内容"
# 步骤 2: 应用追踪更改
"修改第 3 条款,使用 Redlining 标记更改"
# 步骤 3: 导出和验证
"导出带追踪更改的新版本"
PDF 表单自动化
# 步骤 1: 分析表单
"运行 analyze_form.py 提取字段"
# 步骤 2: 创建映射
"生成字段映射 JSON"
# 步骤 3: 批量填写
"使用数据填写 100 份表单"
演示文稿创建
# 步骤 1: 确定配色
"选择'深海探索'调色板"
# 步骤 2: 应用模板
"使用品牌模板创建演示"
# 步骤 3: 生成幻灯片
"从 Markdown 生成 10 页幻灯片"
财务建模
# 步骤 1: 设置结构
"按照财务建模标准创建工作表"
# 步骤 2: 实现公式
"添加收入预测公式"
# 步骤 3: 验证准确性
"运行零错误检查"
最佳实践
DOCX 处理
- ✅ 使用 Redlining 追踪所有更改
- ✅ 最小化编辑原则
- ✅ 保留原始格式
- ❌ 避免直接修改 OOXML(除非必要)
PDF 处理
- ✅ 使用正确的库(文本提取 vs 表格提取)
- ✅ 验证表单字段名称
- ✅ 处理扫描 PDF 时使用 OCR
- ❌ 不要假设所有 PDF 都是文本 PDF
PPTX 处理
- ✅ 设计驱动创建(先设计后实现)
- ✅ 使用模板保持一致性
- ✅ 测试调色板组合
- ❌ 避免过度复杂的布局
XLSX 处理
- ✅ 遵循财务建模颜色编码
- ✅ 公式优先于硬编码
- ✅ 验证所有计算
- ❌ 避免隐藏行和列
常见陷阱
文档格式问题
问题: OOXML 损坏
解决: 使用 unzip 和 xmllint 验证
问题: 字体缺失
解决: 使用字体降级策略
PDF 问题
问题: 表格提取不准确
解决: 使用 pdfplumber 而非 pypdf
问题: 表单字段类型不匹配
解决: 使用 analyze_form.py 预先检查
PowerPoint 问题
问题: 布局在不同版本中不一致
解决: 使用标准布局索引
问题: 图片质量下降
解决: 使用高分辨率源文件
Excel 问题
问题: 公式循环引用
解决: 启用迭代计算
问题: 日期格式错误
解决: 使用 datetime 对象,非字符串
相关资源
官方文档:
格式规范:
教程和指南: