lka/mcp_server_tesseract
3.2
If you are the rightful owner of mcp_server_tesseract and would like to certify it and/or have it hosted online, please leave a comment on the right or send an email to dayong@mcphub.com.
A Model Context Protocol (MCP) Server for Tesseract OCR, optimized for Windows 11 and VS Code.
Tools
3
Resources
0
Prompts
0
MCP Server für Tesseract OCR
Ein Model Context Protocol (MCP) Server für Tesseract OCR, optimiert für Windows 11 und VS Code.
Features
- Textextraktion aus Bildern: Unterstützt PNG, JPG, TIFF und andere Bildformate
- PDF-OCR: Extrahiert Text aus PDF-Dokumenten mit automatischer OCR-Fallback
- Mehrsprachig: Unterstützt alle verfügbaren Tesseract-Sprachen
- Windows 11 optimiert: Automatische Tesseract-Erkennung unter Windows
- VS Code Integration: Einfache Ausführung in VS Code
Installation
Voraussetzungen
-
Tesseract OCR installieren:
- Download von: https://github.com/UB-Mannheim/tesseract/wiki
- Während der Installation: "Additional language data" auswählen für Deutsch/andere Sprachen
- Standard-Installationspfad:
C:\Program Files\Tesseract-OCR\
-
Python-Abhängigkeiten installieren:
cd mcp_server_tesseract python -m venv venv venv/Scripts/acivate # Abhaengigkeiten mit pip und pyproject.toml installieren pip install -e .
Server starten
mcp-server-tesseract --project-dir /path/to/project
Kommandozeilen Argumente:
--project-dir: (Required) Directory to serve files from
Verfügbare Tools
1. extract_text_from_image
Extrahiert Text aus Bilddateien.
Parameter:
image_path(string): Pfad zur Bilddateilanguage(string, optional): Sprachcode (Standard: "deu")
2. extract_text_from_pdf
Extrahiert Text aus PDF-Dateien mit automatischer OCR-Fallback.
Parameter:
pdf_path(string): Pfad zur PDF-Dateilanguage(string, optional): Sprachcode (Standard: "deu")
3. check_tesseract_languages
Listet alle verfügbaren Tesseract-Sprachen auf.
Unterstützte Sprachen
deu- Deutscheng- Englischfra- Französischspa- Spanischita- Italienisch- Und viele weitere (abhängig von der Tesseract-Installation)
Troubleshooting
Tesseract nicht gefunden
Wenn der Fehler "Tesseract nicht gefunden" auftritt:
- Überprüfen Sie die Installation von Tesseract OCR
- Stellen Sie sicher, dass Tesseract im Windows PATH ist
- Oder installieren Sie es im Standard-Verzeichnis:
C:\Program Files\Tesseract-OCR\
Fehlende Sprachpakete
Für bessere OCR-Ergebnisse installieren Sie zusätzliche Sprachpakete:
- Tesseract erneut herunterladen
- Bei der Installation "Additional language data" auswählen
- Gewünschte Sprachen markieren
VS Code Usage
- Öffnen Sie das
mcp_server_tesseractVerzeichnis in VS Code - Drücken Sie
F5oder gehen Sie zu Run > Start Debugging - Wählen Sie "Python File" als Konfiguration
- Der Server startet im integrierten Terminal
Lizenz
MIT License