Suchmaschinen-Technologie

Text aus PDFs extrahieren

Textfile erzeugen

pdftotext -layout infile outfile

XML-File erzeugen (download Tika von apache.org)

# mkdir /opt/tika-app  
# cd /opt/tika-app
# wget http://ftp.fau.de/apache/tika/tika-app-*.jar
# ln -s tika-app-*.jar tika-app.jar
# java -jar /opt/tika-app/tika-app.jar -x -r infile > outfile

Achtung: in beiden Fällen wird nicht richtig mit Diacritika umgegangen (z.B. Maizière)! Liegt offenbar am Eingangsmaterial und den dort (nicht ordentlich) verwendeten Zeichensätzen.