Random Forests

Entscheidungsbäume stellen ein leicht zu interpretierendes nichtparametrisches Verfahren dar. Allerdings sind sie in der Praxis oft zu variabel, weswegen meist auf eine Erweiterung, die sogenannten Random Forests zurückgegriffen wird. Diese basieren auf der Idee des Bootstraps. Aus der ursprünglichen Stichprobe wird mit Zurücklegen eine neue Stichprobe gezogen, für die dann ein neuer Entscheidungsbaum bestimmt wird. Dabei wird in jedem Schritt zufällig ausgewählt auf Grundlage welcher Regressoren Entscheidungen getroffen werden können. Dieser Vorgang wird viele Male wiederholt und die Vorhersagen der so entstandenen Bäume werden durch Durchschnittsbildung zu einem Modell zusammengefügt.

Einstiegsliteratur:

  • G. James u. a. An introduction to statistical learning. Springer, 2013 (Kap. 8)
  • L. Breiman. “Random forests”. In: Machine learning 45.1 (2001), S. 5–32
  • E. Scornet. “On the asymptotics of random forests”. In: Journal of Multivariate Analysis 146 (2016), S. 72–83

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse, oder auch Principal Component Analysis (PCA), dient zur Identifizierung der Varianz-Kovarianz Struktur mittels Linearkombinationen aus den ursprünglichen Variablen. Die generelle Intention dieses Verfahrens dient der Komprimierung der Daten und der Interpretierbarkeit dieser. Bei der Anwendung der Hauptkomponentenanalyse werden häufig Zusammenhänge offengelegt, die vorher nicht offensichtlich sind und daher eine neue Interpretation der Datenstrukturen und Zusammenhänge innerhalb des Datensatzes ermöglicht. Aus diesem Grund wird die Hauptkomponentenanalyse hauptsächlich zur Erkennung von Beeinflussungsmustern und -strukturen in hochdimensionalen Datensätzen besonders im Bereich der Finanzwissenschaft, Data-Mining, Bioinformatik und der Umweltforschung eingesetzt.


Einstiegsliteratur:

  • R.A. Johnson, D.W. Wichern u. a. Applied multivariate statistical analysis. Prentice Hall, NJ, 2002 (Chap. 8)
  • A.J. Izenman. “Multivariate regression”. In: Modern Multivariate Statistical Techniques. Springer, 2013, S. 159–194 (Chap. 7)
  • W.J. Krzanowski. Recent advances in descriptive multivariate analysis. Clarendon Press, 1995 (Chap. 5)
  • M. Ringn´er. “What is principal component analysis?” In: Nature biotechnology 26.3 (2008), S. 303