Suchmaschinen-Technologie
Links
Text aus PDFs extrahieren
Textfile erzeugen
pdftotext -layout infile outfile
XML-File erzeugen (download Tika von apache.org)
# mkdir /opt/tika-app # cd /opt/tika-app # wget http://ftp.fau.de/apache/tika/tika-app-*.jar # ln -s tika-app-*.jar tika-app.jar # java -jar /opt/tika-app/tika-app.jar -x -r infile > outfile
Achtung: in beiden Fällen wird nicht richtig mit Diacritika umgegangen (z.B. Maizière)! Liegt offenbar am Eingangsmaterial und den dort (nicht ordentlich) verwendeten Zeichensätzen.