Liebe Leute,
ich hatte mich wohl etwas zu weit aus dem Fenster gelehnt, nachdem ich kurz bei CPAN nach verfügbaren Perl-Modulen für die PDF-Konvertierung geschaut hatte.
Nun zum zu lösenden Problem:
Es sollen sämtliche Dateiformate (inklusive doc, docx, ppt, rtf usw.) vollautomatisch in Stapelverarbeitung in PDF konvertiert werden.
Das ganze soll per cronjob auf Ubuntu 10.10 (Minimalsystem 64-Bit) laufen.
Anschließend werden die PDFs durch die
ABBYY-OCR-CLI gesendet und falls das Ergebnis nicht ausreichend war, per Fallback durch das
Perl-OCR2-Modul geschliffen. Der extrahierte Text wird dann in einen Referenzdatensatz in einer MySQL-Tabelle geschrieben. Dieser Teil klappt ganz gut.
Als Lösung des Konvertier-Problems hatte ich
a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.
Es gibt zwar ein Tool (
webPDF.portal), das 100 verschiedene Dateiarten in PDF konvertieren kann. Allerdings kostet das fast 4000 Euro und fällt von daher für dieses Projekt aus.
Für Eure Tipps wäre ich sehr dankbar!