Thema: Betriebssystem Linux - PDF-Konverter gesucht
Einzelnen Beitrag anzeigen
Alt 19.10.2011, 19:35   #1
bommelmann
Energieeffizienzklasse A
 
Benutzerbild von bommelmann
 
Registriert seit: 25.01.2006
Ort: Berlin
Fahrzeug: BMW M850i, Volvo V70
Standard Linux - PDF-Konverter gesucht

Liebe Leute,

ich hatte mich wohl etwas zu weit aus dem Fenster gelehnt, nachdem ich kurz bei CPAN nach verfügbaren Perl-Modulen für die PDF-Konvertierung geschaut hatte.

Nun zum zu lösenden Problem:

Es sollen sämtliche Dateiformate (inklusive doc, docx, ppt, rtf usw.) vollautomatisch in Stapelverarbeitung in PDF konvertiert werden.

Das ganze soll per cronjob auf Ubuntu 10.10 (Minimalsystem 64-Bit) laufen.


Anschließend werden die PDFs durch die ABBYY-OCR-CLI gesendet und falls das Ergebnis nicht ausreichend war, per Fallback durch das Perl-OCR2-Modul geschliffen. Der extrahierte Text wird dann in einen Referenzdatensatz in einer MySQL-Tabelle geschrieben. Dieser Teil klappt ganz gut.

Als Lösung des Konvertier-Problems hatte ich a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.

Es gibt zwar ein Tool (Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) webPDF.portal), das 100 verschiedene Dateiarten in PDF konvertieren kann. Allerdings kostet das fast 4000 Euro und fällt von daher für dieses Projekt aus.

Für Eure Tipps wäre ich sehr dankbar!
bommelmann ist offline   Antwort Mit Zitat antworten