Wer kennt das nicht. Werauchimmer hat im Laufe der Jahre massenhaft Daten in Word-Dokumente gehackt und diese dann Ende der 90iger brav parallel in ein PDF gewandelt. Nun schreiben wir 2007 und es ist höchste Zeit all diese gesammelten Daten in Internet zu bringen.
Klar, nichts leichter als das.
Also habe ich mich aufgemacht und probiert und getestet. Sollte ich also noch einmal in die Verlegenheit kommen, ähnliches zu absolvieren, dann möge ich mich bitte an diese Zeilen hier erinnern.
Im ersten Schritt habe ich per Kommandozeile alle Word-Dokumente an AbiWord übergeben. Neben der GUI kann man das nette Programm auch von der Shell aus ansprechen. Mittels abiword doc-datei.doc --to=html habe ich zunächst HTML generiert. Der HTML-Output ist alles andere als schön, aber in diesem Schritt werden alle Bilder auch gleich mit als PNG in einem entsprechenden Verzeichnis gesichert. Obendrein ist das HTML-Dokument gleich als UTF-8 kodiert und etwas anderes wollen wir heuer ja auch gar nicht mehr.
Schrieb ich alle Bilder? Das stimmt natürlich nicht. Denn die Bilder, die innerhalb eines Word-Textbox-Elements eingebunden wurden, mag abiword nicht erkennen. Also habe ich mir die PDF-Dateien vorgeknöpft und diese ebenfalls auf der Shell pdfimages zugeführt. Das macht mit dem Flag -j auch nette JPEGs oder auch Portable Pixmap (PPM). In letzteren Fall ist pnmtopng dein Freund, denn das Tool macht aus PPM ein akkurates PNG.
Pingback: HTML table zu PHP array : powerbook_blog