Mathematisch-Naturwissenschaftliche Fakultät

Institut für Mathematik

Fachgebiet: Mathematik

Betreuer: Prof. Dr. Roger Labahn



Dipl.-Math. Tobias Grüning
(e-mail: tobias.gruening@planet.de )

Neural Text Line Extraction in Historical Documents - A Two-Stage Clustering Approach

Accessibility of the valuable cultural heritage which is hidden in the countless scanned historical documents on servers all over the world is the motivation for the presented dissertation. The developed (fully automatic) text line extraction methodology combines state-of-the-art machine learning techniques and modern image processing methods. The method demonstrates its quality by outperforming several other approaches on a couple of benchmarking datasets. Hence, it constitutes the current state of the art. The method is already being used by a wide audience of researchers from different disciplines and thus contributes its (small) part to the aforementioned goal.

Das Erschließen des unermesslichen Wissens, welches in den unzähligen gescannten historischen Dokumenten auf Servern überall auf der Welt verborgen liegt, bildet die Motivation für die vorgelegte Dissertation. Durch das Verknüpfen moderner Verfahren des maschinellen Lernens und der klassischen Bildverarbeitung wird in dieser Arbeit ein vollautomatisches Verfahren zur Extraktion von Textzeilen aus historischen Dokumenten entwickelt, welches auf diesem Gebiet führend ist. Die Qualität des Verfahrens wird auf verschiedensten Datensätzen im Vergleich zu anderen Ansätzen nachgewiesen. Das Verfahren wird bereits durch eine Vielzahl von Forschern verschiedenster Disziplinen genutzt und trägt damit seinen (kleinen) Teil zum eingangs erwähnten Ziel bei.