c70311tw/pdf-mcp-server
If you are the rightful owner of pdf-mcp-server and would like to certify it and/or have it hosted online, please leave a comment on the right or send an email to henry@mcphub.com.
The PDF MCP Server is a specialized server designed for reading and analyzing PDF documents, optimized for use with Claude AI.
PDF MCP Server - 讀取專用版
一個用於PDF讀取和分析的MCP (Model Context Protocol) 伺服器,專為Claude AI設計。本版本專注於PDF內容提取、分析和搜尋功能,提供穩定可靠的PDF處理體驗。 聲明:該MCP too以及此Readme完全由Claude sonnet 4生成與除錯。 Disclaimer: This MCP tool and README file are generated and debugged by the Claude Sonnet 4 model.
🎯 為什麼選擇讀取專用版?
✅ 核心優勢
- 專注核心功能:專門針對PDF分析和內容提取優化
- 穩定可靠:避免大內容輸出導致的token限制問題(Note: the size of a PDF document itself could be counted as a part of the total length of single conversation)
- 低記憶體占用:精簡設計,資源使用最小化
- 維護簡單:單一職責,更容易維護和除錯
📖 功能特色
🔍 PDF內容分析
- 完整文字提取:支援繁體中文、英文、多語言內容
- 智能分頁處理:可指定頁面範圍進行精確提取
- 圖片識別提取:自動偵測並提取PDF中的圖片
- 元數據解析:獲取標題、作者、創建日期等完整資訊
- 結構化分析:每頁尺寸、內容統計、元素數量分析
🔎 智能搜尋功能
- 關鍵字搜尋:支援精確的文字搜尋定位
- 位置標記:提供搜尋結果的頁面和座標位置
- 上下文顯示:顯示搜尋結果的周圍內容
- 大小寫控制:可選的大小寫敏感搜尋
🖼️ 圖片處理能力
- 自動圖片提取:識別並提取所有嵌入圖片
- 多格式支援:支援PNG、JPEG等常見格式
- 詳細資訊:提供圖片尺寸、色彩空間、檔案大小
- 批量處理:可同時處理多張圖片
📋 可用工具
| 工具名稱 | 功能說明 | 測試狀態 | 用途 |
|---|---|---|---|
read_pdf_text | 提取PDF文字內容 | ✅ 已驗證 | 文檔分析、內容提取 |
get_pdf_metadata | 取得PDF元數據 | ✅ 已驗證 | 文件資訊查詢 |
extract_pdf_images | 提取PDF圖片 | ✅ 已驗證 | 圖片資源提取 |
get_pdf_page_info | 取得頁面詳細資訊 | ✅ 已驗證 | 結構分析 |
search_pdf_text | 搜尋PDF文字 | ✅ 已驗證 | 內容查找定位 |
🖥️ 系統需求
- Python版本:3.9 或更高版本
- 作業系統:macOS(已測試)、Windows、Linux
- Claude Desktop:最新版本
⚡ 快速安裝
方法一:從 GitHub 安裝(推薦)
1. Clone 專案
# Clone 專案到本機
git clone https://github.com/c70311tw/pdf-mcp-server.git
# 進入專案目錄
cd pdf-mcp-server
2. 安裝依賴套件
# 使用 pip 安裝依賴
pip install -r requirements.txt
# 或者手動安裝核心套件
pip install mcp PyMuPDF Pillow python-magic
3. 測試伺服器
python3 server.py
成功時會顯示:
INFO:pdf-mcp-server:MCP imports successful
INFO:pdf-mcp-server:PDFReader import successful
INFO:pdf-mcp-server:PDF reader initialized successfully
INFO:pdf-mcp-server:Starting PDF MCP Server - Reading Only Version...
INFO:pdf-mcp-server:PDF Reading Server started successfully
方法二:手動安裝
1. 建立專案目錄
mkdir ~/pdf-mcp-server
cd ~/pdf-mcp-server
2. 下載專案檔案
從 GitHub Releases 下載最新版本,或手動下載以下核心檔案:
server.py- 讀取專用伺服器主程式pdf_reader.py- PDF讀取核心模組requirements.txt- 精簡依賴清單
3. 安裝依賴套件
pip install mcp PyMuPDF Pillow python-magic
🔗 Claude Desktop 整合
1. 編輯設定檔案
檔案位置:~/Library/Application Support/Claude/claude_desktop_config.json
設定內容(使用 Git Clone 路徑):
{
"mcpServers": {
"pdf-mcp-server": {
"command": "python3",
"args": ["/Users/your_username/pdf-mcp-server/server.py"]
}
}
}
⚠️ 重要:
- 如果您使用
git clone安裝,路徑通常是:/Users/your_username/pdf-mcp-server/server.py - 如果您 clone 到其他位置,請使用相應的絕對路徑
2. 重新啟動 Claude Desktop
完全關閉 Claude Desktop,然後重新開啟。
3. 驗證連接
在 Claude 中輸入:
請讀取這個PDF檔案:/path/to/your/document.pdf
🔄 更新專案 (Note. 此處AI自動撰寫,實際上不一定會更新)
如果使用 Git Clone 安裝,可以輕鬆更新到最新版本:
# 進入專案目錄
cd pdf-mcp-server
# 拉取最新更新
git pull origin main
# 重新安裝依賴(如有新增)
pip install -r requirements.txt
# 重新測試伺服器
python3 server.py
🛠️ 開發者安裝 (Note. 此處AI自動撰寫,可用性未知)
如果您想要自訂功能:
# Fork 並 clone 您的 fork
git clone https://github.com/您的用戶名/pdf-mcp-server.git
cd pdf-mcp-server
# 添加上游倉庫
git remote add upstream https://github.com/c70311tw/pdf-mcp-server.git
# 建立開發分支
git checkout -b feature/your-feature-name
# 安裝開發依賴
pip install -r requirements.txt
# 進行開發...
# 提交變更
git add .
git commit -m "Add your feature"
git push origin feature/your-feature-name
# 建立 Pull Request
📚 使用範例
📖 完整文件分析
讀取整個PDF文件
請幫我分析這個PDF檔案的完整內容:
/Users/username/Documents/report.pdf
分析特定頁面範圍
請讀取這個PDF的第5到10頁內容:
/Users/username/Documents/manual.pdf
🔍 文件資訊查詢
獲取文件基本資訊
請告訴我這個PDF的基本資訊和元數據:
/Users/username/Documents/contract.pdf
分析文件結構
請分析這個PDF每一頁的詳細資訊:
/Users/username/Documents/presentation.pdf
🖼️ 圖片資源提取
提取所有圖片
請提取這個PDF中的所有圖片並分析:
/Users/username/Documents/catalog.pdf
指定輸出目錄
請將PDF中的圖片提取到桌面:
檔案:/Users/username/Documents/brochure.pdf
輸出目錄:/Users/username/Desktop/extracted_images/
🔎 智能內容搜尋
關鍵字搜尋
在這個PDF中搜尋「人工智慧」相關內容:
/Users/username/Documents/research.pdf
精確搜尋
在合約中搜尋「條款」(區分大小寫):
檔案:/Users/username/Documents/contract.pdf
關鍵字:條款
大小寫敏感:是
📊 專業文件分析
學術論文分析
請分析這篇學術論文的結構和主要內容:
/Users/username/Documents/thesis.pdf
技術文件解析
請提取這個技術手冊的主要資訊:
/Users/username/Documents/manual.pdf
🐛 故障排除
常見問題與解決方案
1. "Server disconnected" 錯誤
原因:檔案路徑或設定錯誤
解決方案:
# 確認檔案存在
ls -la ~/pdf-mcp-server/server.py
# 使用絕對路徑設定
{
"mcpServers": {
"pdf-mcp-server": {
"command": "python3",
"args": ["/path/to/pdf-mcp-server/server.py"]
}
}
}
2. PDF無法讀取
可能原因及解決:
檔案路徑問題:
# 檢查檔案是否存在
ls -la "/path/to/your/file.pdf"
# 使用絕對路徑
/Users/username/Documents/file.pdf
權限問題:
# 檢查檔案權限
chmod 644 /path/to/your/file.pdf
PDF損壞或加密:
- 嘗試用其他PDF查看器打開確認
- 加密PDF需要先解密
3. 中文內容顯示問題
- 系統自動處理繁體中文編碼
- 支援混合語言內容
- 完美處理特殊字符
4. 依賴套件問題
# 重新安裝核心依賴
pip install --upgrade mcp PyMuPDF Pillow
# macOS系統依賴
brew install mupdf-tools
# 檢查Python版本
python3 --version # 需要3.9+
🔧 除錯技巧
1. 查看即時日誌
tail -f ~/Library/Logs/Claude/mcp*.log
2. 測試伺服器狀態
cd ~/pdf-mcp-server
python3 server.py
3. 驗證設定檔語法
python3 -m json.tool ~/Library/Application\ Support/Claude/claude_desktop_config.json
4. 測試PDF檔案
# 用PyMuPDF直接測試
python3 -c "import fitz; print(fitz.open('/path/to/test.pdf'))"
📁 專案結構
pdf-mcp-server/
├── server.py # 讀取專用伺服器主程式
├── pdf_reader.py # PDF讀取核心模組
├── requirements.txt # 精簡依賴清單
├── README.md # 本說明文件
└── tests/ # 測試檔案(可選)
├── test_pdf_reader.py
└── sample_files/
🔧 核心依賴
mcp>=1.0.0 # MCP協議支援
PyMuPDF>=1.23.0 # PDF讀取處理(高效能)
Pillow>=10.0.0 # 圖片處理
python-magic>=0.4.27 # 檔案類型偵測
typing-extensions>=4.0.0 # 型別支援
🚀 為什麼選擇讀取專用版?
✅ 穩定性優先
- 避免大內容輸出造成的token截斷問題
- 專注核心功能,減少潛在錯誤
- 經過實戰測試,穩定可靠
⚡ 性能優化
- 快速啟動,即用即開
- 低記憶體占用,系統負擔小
- 精簡設計,執行效率高
🎯 使用場景匹配
- 大多數用戶主要需求是PDF分析
- 讀取功能已能滿足90%的使用場景
- 避免功能過載,專注實用性
📄 授權條款
此專案採用MIT授權條款 - 詳見 檔案。
🙏 致謝
📞 支援
如遇問題請:
- 查看故障排除章節
- 檢查伺服器日誌檔案
- 確認檔案路徑和權限
- 參考使用範例
🎯 專注核心、穩定可靠的PDF分析解決方案!
⭐ 如果這個專案對您有幫助,請給我們一個星星支持!