Ich habe ja viel Spass bei der Arbeit. Am liebsten ist es mir, wenn ich un- oder halbstrukturierte Daten aus zweifelhaften Dokumenten extrahieren darf, um sie unserer Datenbank zuzuführen. Mein absoluter Favorit sind Word-Dateien mit irrsinnigen Tabellenkonstruktionen.
Kurz vor meinem Urlaub hatte ich noch einmal das Vergnügen. Die Word-Dokumente wandle ich mit abiword in HTML um. Das klappt immer prima.
Dieses Mal hatte ich aber das Problem, dass die Ursprungsdateien ziemlich wirre HTML-tables erzeugt haben. Da war mir die PHP-Klasse tableExtractor von Jack Sleight eine wirkliche Hilfe. Damit verfrachtet man selbst wirre HTML-Tabellen in ein handliches Array und kann dann recht bequem die Inhalte auslesen.
Kann ich empfehlen.
17. Oktober 2008 um 15:27 Uhr
danke für die empfehlung!
das schau ich mir doch gleich mal an.