PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Betriebssystem Linux - PDF-Konverter gesucht


bommelmann
19.10.2011, 19:35
Liebe Leute,

ich hatte mich wohl etwas zu weit aus dem Fenster gelehnt, nachdem ich kurz bei CPAN nach verfügbaren Perl-Modulen für die PDF-Konvertierung geschaut hatte.

Nun zum zu lösenden Problem:

Es sollen sämtliche Dateiformate (inklusive doc, docx, ppt, rtf usw.) vollautomatisch in Stapelverarbeitung in PDF konvertiert werden.

Das ganze soll per cronjob auf Ubuntu 10.10 (Minimalsystem 64-Bit) laufen.

Anschließend werden die PDFs durch die ABBYY-OCR-CLI gesendet und falls das Ergebnis nicht ausreichend war, per Fallback durch das Perl-OCR2-Modul geschliffen. Der extrahierte Text wird dann in einen Referenzdatensatz in einer MySQL-Tabelle geschrieben. Dieser Teil klappt ganz gut.

Als Lösung des Konvertier-Problems hatte ich a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.

Es gibt zwar ein Tool (webPDF.portal (http://www.heise.de/software/download/webpdf.portal/73669)), das 100 verschiedene Dateiarten in PDF konvertieren kann. Allerdings kostet das fast 4000 Euro und fällt von daher für dieses Projekt aus.

Für Eure Tipps wäre ich sehr dankbar!

BKirk
19.10.2011, 21:30
Hallo,
Als Lösung des Konvertier-Problems hatte ich a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.
das müsste mit LibreOffice ganz gut gehen. Das ist sicher auch zu scripten, notfalls eben mit Makros. Im Zweifel ist die User-Mailingliste dort eine gute Quelle für Hilfe und Hinweise.

Ansonsten finde ich oft gute Info im Usenet und einer Linux User Group (in diesem Fall wohl die BeLUG). Aber ich vermute, das ist Dir ohnehin schon bestens bekannt.

Gruß
Boris

roland
21.10.2011, 14:44
Schau doch mal hier rein:
https://help.ubuntu.com/community/LaTeX

Gerade für eine "Automatisierung" LaTex wg. der Scripfähigkeit
gut geeignet.

bommelmann
22.10.2011, 12:20
Danke, an LaTex hatte ich noch gar nicht gedacht. :top

Kann denn LaTex gut mit DOC und DOCX umgehen?

Der Kunde meinte, dass es bereits suboptimale Erfahrungen mit OpenOffice gibt. Sonst hätte ich die DOCs per Script durch OpenOffice geschleust. OpenOffice sollte doch tendenziell leistungsfähiger sein als LaTex, oder? :?

McTube
22.10.2011, 13:51
Egal womit Du da dran gehst - wenn da nicht "Microsoft Word" dransteht wirst Du immer mit Einbussen rechnen müssen.

Kann man nicht den Detail Seite Word Viewer (http://www.microsoft.com/downloads/de-de/details.aspx?FamilyID=3657ce88-7cfa-457a-9aec-f4f827f20cac) über Emu zum rennen bekommen?

Print2Pdf dann über Ghostscript.

roland
24.10.2011, 09:30
Danke, an LaTex hatte ich noch gar nicht gedacht. :top

Kann denn LaTex gut mit DOC und DOCX umgehen?

Der Kunde meinte, dass es bereits suboptimale Erfahrungen mit OpenOffice gibt. Sonst hätte ich die DOCs per Script durch OpenOffice geschleust. OpenOffice sollte doch tendenziell leistungsfähiger sein als LaTex, oder? :?

Das kommt nach meiner Erfahrung darauf an, was man mit einem "Textsystem"
zu arbeiten hat. Also Briefe schreiben würde ich mit LaTex nicht, da könnte ich
ja gleich beim VI Editor bleiben ;), dafür und alle üblichen Büroarbeiten setzen
wir LibreOffice früher eben OpenOffice ein.
Ich hab da keine suboptimalen Erfahrungen ...

Für Aufgaben, wie automatische Format Konvertierung von Textstapeln, ist LibreOffice
sicher suboptimal, dafür ist es aber auch nicht vorgesehen meine ich. Nachdem Du ja
eh in einer Linux Umgebung arbeitest, gibt es einige Lösungen dafür.
Wenn Du in der Windows Welt bleiben möchtest gibt es hier eine Lösung:
http://www.7-forum.com/images/link_rot.gif Download Batch Text To PDF 1.1 Free - PDF conversion made easy. - Softpedia (http://www.softpedia.com/get/Office-tools/PDF/Batch-Text-To-PDF.shtml)
http://www.7-forum.com/images/link_rot.gif Batch Text To PDF - Free software downloads and software reviews - CNET Download.com (http://download.cnet.com/Batch-Text-To-PDF/3000-18497_4-75147592.html)
hier gibts auch was ..
http://www.7-forum.com/images/link_rot.gif PDF Batch Stamp Tool - Shell (Befehlszeile) Tool um PDF zu stempeln (http://www.pdf-tools.com/pdf/pdf-batch-stamp-wasserzeichen-stempel.aspx)
http://www.7-forum.com/images/link_rot.gif Free Text To PDF Converter convert txt to pdf pdf to text SDK-COM converts pdf to text (http://batch-pdf-to-text.qarchive.org/)
oder auch hier .. andere Richtung :-)
http://www.7-forum.com/images/link_rot.gif Ultra Shareware - Ultra Document To Text Converter, Batch PDF to text, convert doc, docx, ppt, pptx, html, mht and xls, xlsx to text (http://www.ultrashareware.com/Ultra-PDF-To-Text-Converter.htm)

Viel Erfolg!

skel@on
09.12.2011, 18:34
Kurz und Knackig (http://www.google.de/url?sa=t&rct=j&q=pdf%20f%C3%BCr%20linux&source=web&cd=1&sqi=2&ved=0CCoQFjAA&url=http%3A%2F%2Flinuxwiki.de%2FPDF&ei=AkbiTvD4CI3gtQbIsI33Aw&usg=AFQjCNEEliZCg64DKqrVJ9r-94ZWNq9d_w&cad=rja):B

bommelmann
09.12.2011, 19:11
Vielen Dank für eure Tipps! :top

Der aktuelle Stand ist der, dass wir zunächst PDFs in verschlüsselter und unverschlüsselter Form behandeln und in mehrstufiger verarbeitung eventuelle Verschlüsselungen knacken.

Danach gehen die PDFs durch die ABBYY-OCR-CLI, eine recht leistungsstarke OCR-Software die auf Linux per Kommandozeile gesteuert werden kann.

Als Ergebnis erhält man eine PDF aus der man die Texte herauskopieren kann und einen Texteintrag in der Datenbank.

Was die Konvertierung aus DOC, PPT usw. betrifft, hatte ich bisher auch nur Windows-Programme gefunden, aber noch nix wirklich Attraktives für Linux.

skel@on
09.12.2011, 19:32
...

Was die Konvertierung aus DOC, PPT usw. betrifft, hatte ich bisher auch nur Windows-Programme gefunden, aber noch nix wirklich Attraktives für Linux.

Ganz in Linux bleibt man hiermit... (http://www.linux-community.de/Internal/Artikel/Print-Artikel/LinuxUser/2010/11/Werkzeuge-fuer-PDF-und-Postscript-Teil-13)

Der Rest findet sich auch noch im o.g. Link;)
Vll. lässt sich das Eine oder Andere noch Feinschleifen...