Wie kann ein PDF-Dokument wieder in Text/Word/HTML etc. konvertiert werden?
Wie kann man eine Acrobat-Datei in ein editierbares Textdokument (ASCII, ANSI, RTF oder HTML etc.) zurück verwandeln? Grundsätzlich ist es natürlich ein Problem aus PDF wieder bearbeitbare Informationen zu extrahieren. Aber, ein paar Optionen gibt es, PDF in Text zu wandeln:
Offline mit Acrobat-Bordmitteln
-
Seit Acrobat Reader 5 gibt es im Reader die Option, die PDF als Text zu speichern. Das Ergebnis ist teilweise allerdings sehr bescheiden: Textflüsse und Textreihenfolgen geraten unter Umständen selbst da völlig durcheinander, wo die Gründe für den Menschen überhaupt nicht nachvollziehbar sind.
-
Seit Acrobat 5 (Acrobat-Vollversion mit Distiller etc.) gibt es eine Funktion, den Text als RTF-Datei (Rich Text Format von Microsoft) zu speichern. Das von mir gesehene Ergebnis einer entsprechenden Konvertierung aus Acrobat 6 heraus sah ganz anständig aus, allerdings wurden keine Kopf- und Fußzeilen konvertiert. Wer sicher sein muss, dass der gesamte Text im WinWord-Dokument ankommt, ist damit also weniger gut bedient.
|
Online mit Adobe-Bordmitteln
Adobe selbst bietet einen kostenlosen Konvertierservice, der PDF-Dateien in ASCII- oder HTML-Dateien wandelt. Dazu müssen Sie die PDF-Datei nur an eine der folgenden Mail-Adresse senden. Der konvertierte Text kommt automatisch zurück.
Hoffentlich sind die Adressen noch aktiv. Mein letzter erfolgreicher Versuch war etwa im April 2004, zwei Versuche im Mai 2004 schlugen jedoch fehl.
Außerdem gibt es eine Website, auf der die URL zu einer PDF-Datei eingegeben werden kann, die dann als HTML im Browser angezeigt wird. Problem: Die PDF-Datei muss auf irgend einem Server im Internet hinterlegt sein, das Tool scheint lokale Dateien nicht anzunehmen.
Online mit Drittmitteln
BCL Technologies bietet einen E-Mail-Service an: Upload der PDF aus dem Browser heraus, zurück kommt ein Satz HTML-Dateien, 1 Datei pro PDF-Seite. Das Ergebnis ist schön im Browser anzuschauen, zur Weiterverarbeitung taugt es allerdings kaum, weil jedes Wort von umfangreichem HTML-Code umschlossen ist — Beispiel (für "Material"):
<SPAN CLASS="ps163"><NOBR><SPAN CLASS="ft4">Material</SPAN></NOBR></SPAN>
Offline mit Drittmitteln
BCL Drake
Das Zusatzmodul BCL Drake (
http://www.bcl-computers.com) schreibt die PDF-Texte nach rtf, allerdings setzt es die Informationen in Textrahmen, was in manchen Szenarien Schwierigkeiten verursacht. Bei Tests mit BCL Drake 7.1 fiel auf:
-
Es ist noch immer so, dass das Original-Layout in der RTF-Datei mittels Textrahmen nachgebaut wird. Dabei enthält ein Textrahmen im Regelfall nicht mehr als 2 Zeilen. Das zerreißt natürlich auch Sätze, von "Fließtext" ist das Ergebnis weit entfernt. Eine direkte Bearbeitung des Textes fällt damit ausgesprochen schwer.
-
Wird die generierte RTF-Datei jedoch innerhalb von WinWord mittels |- Datei | Speichern unter -| in einer frühen Word-Version gespeichert, die noch keine Textrahmen kannte, wird der Text weitgehend sinnvoll in Fließtext gewandelt. Damit geht jedoch auch das Layout verloren. (Alternativ zu einem Speichern innerhalb von WinWord kann die RTF-Datei auch mit dem Windows WordPad geöffnet und gleich wieder gespeichert werden. Auch danach sind in der Datei keine Textrahmen mehr vorhanden. Auf einem Windows-System geht dies unter Umständen schneller als der Weg über WinWord.)
-
Die Textrahmen haben natürlich den Vorteil, dass das Original-Layout recht getreu nachgebildet werden kann. Auch die Bilder kommen in der RTF-Datei an (die Qualität habe ich nicht weiter geprüft). Wer, warum auch immer, hauptsächlich eine originale Nachbildung der PDF-Datei in WinWord braucht, ist mit BCL Drake gut bedient.
-
Wir wollten in einem konkreten Projekt an den Text, um diesen übersetzen zu können. Sowohl SDLX als auch Déją Vu (beides sogenannte Translation Memories) können den Text in den Textrahmen analysieren und segmentieren, wobei natürlich mit jedem Textrahmenende auch das Segment zu Ende ist. Nach einer ersten Prüfung wird die Textrahmenfolge korrekt erkannt, können also geteilte Sätze mit Join korrekt zusammengeführt werden. Das ist zwar ein etwas höherer Aufwand, aber immer noch effektiver, als umfangreiche Dokumente ganz ohne Translation Memory-Unterstützung übersetzen zu müssen — und allemal weniger fehlerhaft als die Textkonvertierung von Acrobat Reader oder Adobe.
-
BCL Technologies hat auch noch weitere Produkte, die sich mit der Konvertierung befassen. Wem der Enterich (Drake) nicht hilft, findet vielleicht Hilfe bei einem anderen Vogel (Freebird) oder einem Edelstein (Jade).
|
Auch wenn ich den Verweis auf der Website nicht finden konnte: Auf E-Mail-Anfrage erhielt ich einen Link zu einer 14-Tage-Testversion. Mit dieser ist eine recht gute Evaluierung des Produkts anhand der eigenen Dateien und Probleme möglich. Einziger Nachteil: Auf jeder Seite erscheint ein Hinweis auf BCL Drake, der aber relativ leicht gelöscht werden kann.
PDF Converter
Das Programm PDF Converter von
ScanSoft konvertiert PDF-Dateien in formatierte, bearbeitbare Word-Dokumente (aktuelle Version: PDF Converter 2). Auf der
englischen Website von ScanSoft fand ich nach Suche über die gesamte Website, Stichwort: trial, eine englischsprachige, 15 Tage gültige Testversion. Ein Kurztest brachte brauchbare Ergebnisse, die aber die vollmundigen Versprechungen der Website auch nur bedingt erfüllen:
-
Auch wenn die Dateiendung der erzeugten Datei ".doc" lautet: Es ist eine RTF-Datei. Zwar nur ein Schönheitsfehler, aber einer nach dem Prinzip "mehr Schein als Sein".
-
Die Texte werden teilweise in Textrahmen verpackt. Dabei ist nicht erkennbar, nach welchem Prinzip der PDF Converter sich für Textrahmen oder Fließtext oder Tabellen entscheidet — zum Teil werden für identische Strukturen auf ein und derselben Seite dieserart unterschiedliche Umsetzungen genutzt. Die Textrahmen fassen allerdings im Regelfall deutlich mehr Text als bei BCL Drake. Dadurch sind die Texte besser editierbar.
-
Schriften werden ausschließlich als Arial ausgegeben — selbst wenn die Originalschriften auf dem PC vorhanden sind.
-
Die Wörter einzelner Zeilen werden gelegentlich statt mit Leerzeichen mit Tabulatoren voneinander getrennt.
-
Texte in der Umgebung von Bildern werden auch mal zu nicht editierbaren Pixelbildern konvertiert. Auch Vektorgrafiken werden in Pixelbilder gewandelt. Reine Linien (Tabellenlinien, Kopf-/Fußzeilen etc.) bleiben allerdings als Linien erhalten.
-
Die Absatztrennung funktioniert relativ gut: Hardreturns gibt es regelmäßig wirklich nur am Absatzende und nicht aller paar Zeilen. Worttrennstriche am Zeilenende sind überwiegend korrekt in Trennstriche (und nicht in Bindestriche) gewandelt — erleichtert ebenfalls die weitere Verarbeitung der Texte.
-
Bilder können auch mal nur halb sichtbar sein (obwohl die jeweiligen Pixelbilder vollständig in der Datei eingebettet sind).
-
Kopf-/Fußzeilen werden in die RTF-Datei übernommen, der PDF Converter gibt sich auch redlich Mühe, diese den Kopf-/Fußzeilen des Word-Dokuments zuzuordnen — was aber öfter auch misslingt.
-
Der PDF Converter kennt zwei Layout-Optionen für das Zieldokument: Flowing Column und TruePage. Für die weitere Bearbeitung des Dokuments empfiehlt sich die Einstellung "Flowing Column", nur in dieser Einstellung wird Text auch als Fließtext auf der Seite platziert, bei "TruePage" hingegen werden alle Texte in Textrahmen verpackt. Letzteres erschwert das Bearbeiten, wenn der Text um (mehrere) Zeilen erweitert werden soll. Dafür ist das Original-Layout bei "TruePage" exakter übernommen.
-
Sehr ärgerlich ist die Registrierung. Diese muss Online und mit gültiger Seriennummer erfolgen. Es bleibt unklar, welche Daten dabei alles übertragen werden.
Für die Demoversion gibt es angeblich eine Seriennummer auf der Website — wird aber in Zusammenhang mit dem Download nicht ausgegeben. So startet das Programm nach Eingabe einer beliebigen Zahlenfolge als Seriennummer nach eigener Auskunft insgesamt maximal 5 Mal, ehe es unabhängig von der 15-Tage-Frist den Dienst versagt. Wer testen will, muss also sehr konzentriert und komprimiert vorgehen, darf das Programm zwischendurch nicht schließen.
|
Trotz aller Einschränkungen: PDF Converter scheint das — für unsere Anforderungen — beste Werkzeug für die Konvertierung von PDF nach Word zu sein.
PDF Transformer
Abbyy PDF Transformer möchte seit Herbst 2004 ebenfalls in der Liga mitspielen.
Eine Testversion kann kostenlos heruntergeladen werden — diese erlaubt jedoch insgesamt nur 15 Konvertierungen und nur maximal 3 Seiten je Konvertierung.
Abbyy wählte den OCR-Ansatz (Optical Character Recognition, optische Zeichenerkennung), wie er sonst bei der Konvertierung von gescannten Papiervorlagen in Computertexte eingesetzt wird.
Damit macht sich der PDF Transformer einerseits unabhängig von den in den PDF-Dateien vorhandenen Codes zur Zeichenpositionierung (die einen Konverter hinsichtlich der Erkennung der Sinnzusammenhänge der Texte auch leicht in die Irre führen können) oder gar in Kurven/Bitmaps gewandelten Zeichen, andererseits werden — obwohl erstaunliche Fähigkeiten aufweisend — exotische Schriften nicht erkannt.
Auch tappst PDF Transformer in die typischen OCR-Fallen und verwechselt ähnlich aussehende Glyphen, z.B. I (Großbuchstabe), l (Kleinbuchstabe) und 1 (Ziffer) oder auch O (Großbuchstabe) und 0 (Ziffer) etc.
Das Layout wird recht gut erkannt, zum Teil auch zweispaltiger Text.
Wird der mehrspaltige Text allerdings mal von einer über alle Spalten gehenden Zeile unterbrochen, setzt PDF Transformer unter Umständen auch die nachfolgenden Zeilen über mehrere Spalten zu einer Zeile zusammen, vielleicht noch gegeneinander mit Tabulator getrennt.
Für die weitere Bearbeitung ist der Text damit nur bedingt brauchbar.
Die Screenshots zeigen deutlich die Leistung aber auch die Grenzen des OCR-Ansatzes.
Es bleibt unverständlich, warum Abbyy die in der PDF vorhandenen Informationen zu den einzelnen Zeichen nicht auswertet und auf dieser Basis die OCR-Ergebnisse einer Plausibilitätskontrolle unterzieht.
|
Zu konvertierende PDF-Datei Acrobat Reader mit einer Vielzahl unterschiedlicher Schriften Zoom |
|
Die von Abbyy PDF Transformer konvertierte Datei in WinWord. Die letzten Zeichen jeder Zeile sind manuell auf Schriftart Courier gesetzt worden damit die jeweiligen Zeichen sich klar unterscheiden. Zoom |
Auch der ebenfalls aus dem Hause Abbyy verfügbare FineReader kann PDF in Text konvertieren.
Wir haben diesen nicht getestet, erwarten aber eine ähnliche Qualität wie beim PDF Transformer — zumindest, soweit beide auf demselben Grundgerüst aufbauen (es kommt wohl vor, dass gelegentlich das eine Programm mit einer aktuelleren Engine ausgeliefert wird, als das andere).
Auch von FineReader gibt es auf der Abbyy-Website eine Testversion zum Download.
Sonstige Optionen
-
Ghostview kann wohl reinen Text exportieren (von uns nicht getestet). Dazu im Menü |- Bearbeiten | Text extrahieren -| wählen. Damit wird der gesamte Text in ASCII ausgegeben, nur muss man hinterher noch die Sonderzeichen für den Seitenumbruch entfernen.
-
Weitere PDF-Extraktoren laut Zeitschrift c't 11/2006:
Gemini,
Image Extraction Wizard (Freeware/Donation ware),
PDFGrabber,
xpdf (Open Source),
ps to edit (Freeware mit Shareware-Komponenten),
Text Extraction Toolkit (PDFlib TET) (eigentlich eine Bibliothek von Routinen für Programmierer, die eigene Programme drum herum schreiben, aber über die DOS-Befehlszeile auch direkt steuerbar).
Die Zeitschrift bescheinigte insbesondere den zwei teuersten Konvertern, Gemini und PDFlib TET, eine gute Konvertierungsqualität.
-
Bei einem Leser bewährt hat sich die OCR-Software OmniPage 14 (es gibt bereits neuere Versionen) der Firma NUANCE.
Sollte OmniPage dabei ausschließlich OCR anwenden, dürften dieselben Probleme wie bei PDF Transformer, siehe oben auftreten.
(Im Übrigen stammt OmniPage aus demselben Haus wie PDF Converter, siehe oben.)
-
Holger war mit dem kostenlosen pdf995 von Software 995 recht zufrieden.
-
Halbwegs aktuelle Versionen von Adobe Illustrator, Corel Draw, Adobe InDesign können PDF-Dateien öffnen und dabei auch die Texte editierbar verfügbar machen. Die Qualität ist aber von Datei zu Datei sehr unterschiedlich.
-
Acrobat/PostScript-Editoren wie Quite a box of tricks, Tailor oder Pitstop bieten weitergehende Editiermöglichkeiten -- die wir aber alle nicht getestet haben. Eine Übersicht der aktuell verfügbaren Programme sollte bei Impressed Computer Technologie Vertriebs GmbH verfügbar sein.
-
Eine Vielzahl von Programmen unterschiedlichster Qualität findet auch eine einfache Google-Anfrage nach pdf2word ("2" = Englisch "two" = gleichklingend mit Englisch "to" = Deutsch "zu", also pdf-zu-word). Wer dabei ein wirklich gutes Programm findet, kann uns ja mal kontaktieren.
|
InvitationWare
- Invitation (Englisch): Einladung
- Invitation for tender: Ausschreibung
Die Informationen auf www.transcom.de sind InvitationWare: Einerseits sind Sie eingeladen, sie zu nutzen. Andererseits, wenn die Informationen auf diesen Seiten Ihnen geholfen haben oder die Tipps und Programme für Sie nützlich sind, dann erinnern Sie sich doch an Transcom, wenn Sie mal wieder einen Auftrag in einem unserer Fachgebiete zu vergeben haben — und senden uns eine Einladung zum Angebot. Rufen Sie uns an oder senden uns eine E-Mail.