Principal Component Analysis

 

Für die astronomische Forschung besitzen bildgebende und spektroskopische Verfahren erhebliche Bedeutung. In der Spektroskopie hat sich in den letzten Jahren und Jahrzehnten ein beträchtlicher instrumenteller Fortschritt vollzogen, der es ermöglicht, Spektren nicht nur punktuell, sondern in Form von mehrdimensionalen Datensätzen zu gewinnen und auszuwerten. Am häufigsten hat man es hierbei mit Data Cubes zu tun: für jeden Bildpunkt einer zweidimensionalen Abbildung eines Objektes liegt ein komplettes eigenes Spektrum vor. Derart große Datenmengen erfordern neue Verfahren zur Datenauswertung.

Mit der Principal Component Analysis (PCA) verfügen die Astronomen über ein leistungsfähiges Tool, um aus einem solchen Data Cube Nutzinformation zu extrahieren. Die Stärke von PCA besteht darin, mittels einer Datenkonvertierung Strukturen erkennbar zu machen, die ohne sie nicht auszumachen wären.

Da Prinzip kann in etwa wie folgt skizziert werden: die korrelierten Daten des Data Cubes werden in einen unkorrelierten Datensatz mit kleinerem Umfang konvertiert. Hierzu werden die Daten des dreidimensionaler Data Cubes (zwei Raumkoordinaten und eine spektrale Koordinate) in eine zweidimensionale Matrix I überführt, deren Zeilen jeweils einem Raumpixel und deren Spalten jeweils einem spektralen Datenpixel entsprechen.

Diese Matrix I ist Grundlage für die Berechnung der quadratischen (m x m-) Kovarianzmatrix. Aus dieser Matrix lassen sich die Eigenvektoren berechnen, wobei Eigenvektor 1 den größten Anteil der Varianz der spektroskopischen Daten enthält, Eigenvektor 2 den zweitgrößten usw. Die Eigenvektoren lassen sich zu einer Matrix E zusammenfassen, mit deren Hilfe dann die PCA-Matrix T = I x E berechnet wird, die die Daten in einem neuen Koordinatensystem enthält.

Die Varianzen tragen spezifische Informationen über die untersuchten Objekte. Der Eigenvektor 1 z.B. entspricht in etwa der Information, welches man mit klassischen Methoden der Spektroskopie  für das Gesamtobjekt bekommt. Die übrigen Eigenvektoren enthalten systematisch kodierte Information zur Rotation des Objekts, zur Linienverteilung im Bild, zur Linienbreitenverteilung, zur Linienintensitätsverteilung, usw.

Ein der Stärken des Verfahrens ist, daß der Operateur vorab keine Eingabeparameter kennen muß, von deren Wahl das qualitative Ergebnis der Berechnung abhängen könnte.
Die ausführlichere Beschreibung dieser Technik, die hier nur grob skizziert werden konnte, findet sich im Originalartikel von Steiner et al.