Mathematisch-Naturwissenschaftliche Fakultät

Institut für Mathematik

Fachgebiet: Mathematik

Betreuer: Prof. Dr. Klaus Neymeyr



M. Sc. Martina Beese
(e-mail: martina.beese@uni-rostock.de )

Analysis of incomplete data sets in numerical chemometrics

Das Problem der nichtnegativen Matrixfaktorisierung (NMF) besitzt keine eindeutige Lösung. Eine niedrigdimensionale Darstellung kann verwendet werden, um die Lösungsmenge zu bestimmen. Die zu faktorisierende Matrix kann jedoch unvollständig sein, z. B. wenn spektroskopische Daten betrachtet werden, bei denen konstruktions- oder messungsbedingte Unvollständigkeit gegeben ist. Der ursprüngliche Ansatz zur Bestimmung der Lösungsmenge ist dann nur auf eine vollständige Unterstruktur anwendbar, z. B. der größten vollständigen Teilmatrix. Dabei werden jedoch Informationen vernachlässigt. Diese Arbeit zeigt einen Weg zur Approximation der Lösungsmenge des NMF Problems für unvollständige Matrizen unter maximaler Ausnutzung der gegebenen Informationen. Dies geschieht mit Hilfe von Ansätzen aus der Kegeltheorie, mit denen es möglich ist, die Teile, die zwischen der größten vollständigen Teilmatrix und der gegebenen unvollständigen Matrix liegen, geometrisch darzustellen. Diese Darstellung ermöglicht es, die Lösungsmenge des NMF Problems für eine unvollständige Matrix zu approximieren.

The nonnegative matrix factorization (NMF) problem does not have a unique solution. A low-dimensional representation can be used to determine the set of solutions. However, the matrix to be factorized may be incomplete, e.g., when considering spectroscopic data where design or measurement incompleteness is a challenge. The original approach to determine the set of solutions is then only applicable to a complete substructure, e.g. the largest complete submatrix. However, this neglects information. This thesis shows a way to approximate the set of solutions of the NMF problem for incomplete matrices with maximum utilization of the given information. This is done using approaches from cone theory, which allow to geometrically represent the parts between the largest complete submatrix and the given incomplete matrix. This representation makes it possible to approximate the set of solutions of the NMF problem for an incomplete matrix.