Logo Leibniz Universität Hannover
Leibniz Universität Hannover/Institut für Statistik
Logo Leibniz Universität Hannover
Leibniz Universität Hannover/Institut für Statistik
  • Zielgruppen
  • Suche
 

Regressions-Diskontinuitäts-Analyse

Beschreibung: Regressions-Diskontinuitäts-Analyse stellt wie Di fference in Di fferences eine weitere Möglichkeit dar, die Wirksamkeit von Treatments auf Teilnehmer zu untersuchen. Die zentrale Annahme dabei ist, dass es eine weitere beobachtete Variable gibt, die Rückschlüsse darüber zulässt, ob ein Treatment stattgefunden hat oder nicht.

Literatur: Greene, W. H. (2000). Econometric analysis (international edition). (Kapitel 19.6.3).; Cameron, A. C. and Trivedi, P. K. (2005). Microeconometrics: methods and applications. Cambridge university press. (Kapitel 25.6).

Regression Splines

Beschreibung: Regression Splines stellen eine Alternative zur nichtlinearen Regression dar. Anstelle einer globalen Anpassung werden dabei mehrere lokale Funktionen angepasst. Das bedeutet, dass diese Funktionen nur für gewisse Werte der exogenen Variable gültig sind. Restriktionen bei der Schätzung sorgen dann für einen (zumindest für das Auge) stetigen Übergang der verschiedenen Funktionen. Im Vergleich zur nichtlinearen Regression hat dieses Verfahren oft eine geringere Varianz und funktioniert daher insbesondere in den Randbereichen der exogenen Variablen besser.

Literatur: Friedman, J., Hastie, T., and Tibshirani, R. (2001). The elements of statistical learning, volume 1. Springer series in statistics New York.

Modellselektion mit LASSO

Beschreibung: LASSO ist eine Erweiterung der klassischen Regression, welche durch Regularisierung Modellselektion und Parameterschätzung simultan durchführen kann. Ziel ist es dabei, einerseits ein Modell aus einem Set an Modellen als das Beste zu identifi zieren und andererseits die Prognosefähigkeit des Modells zu erhöhen. Da die Parameterschätzung aber nur unter gewissen Bedingungen konsistent ist, wurde das Modell zum Adaptive Lasso erweitert. Dieses genießt dann die sogenannte oracle property, also Konsistenz in Schätzung und Variablen Selektion.

Literatur: James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An introduction to statistical learning, volume 112. Springer.; Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal
of the Royal Statistical Society. Series B (Methodological), pages 267-288.; Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American statistical association, 101(476):1418-1429.

Faktoranalyse

Beschreibung: Faktoranalyse ist ein exploratives Verfahren, das gemeinsame Trends und Einflüsse in einer Vielzahl an Variablen feststellen soll. Es hat das Ziel der Dimensionsreduktion und ist vor allem bei hoch korrelierten Datensätzen mit vielen Variablen sinnvoll. Anwendung fi ndet es nicht nur im Finanzbereich, sondern auch im Marketingbereich, wo es zur Auswertung bzw. zur Erstellung von Umfragen benutzt wird.

Literatur: Friedman, J., Hastie, T., and Tibshirani, R. (2001). The elements of statistical learning, volume 1. Springer series in statistics New York.

Random Forests

Beschreibung: Entscheidungsbäume stellen ein leicht zu interpretierendes nichtparametrisches Verfahren dar. Allerdings sind sie in der Praxis oft zu variabel, weswegen meist auf eine Erweiterung, die sogenannten Random Forests zuruckgegriff en wird. Diese basieren auf der Idee des Bootstraps. Aus der ursprünglichen Stichprobe wird mit Zurücklegen eine neue Stichprobe gezogen, für die dann ein neuer Entscheidungsbaum bestimmt wird. Dabei wird in jedem Schritt zufällig ausgewählt, auf Grundlage welcher Regressoren Entscheidungen getroff en werden können.

Literatur: James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An introduction to statistical learning, volume 112. Springer., Breimann, L. (2001). Random Forests, volume 45. Springer., Scornet, E. (2016).On the asymptotic of random forest, volume 146. Elsevier.

Neuronale Netze

Beschreibung: Neuronale Netze sind ein nichtparametrisches Verfahren zur Approximation funktionaler Zusammenhänge zwischen einer Menge an Regressoren und einer oder mehrerer abhängiger Variablen. Oft als Black-Box Verfahren betrachtet, eignen sich neuronale Netze vorallem zur Vorhersage von Daten, weniger allerdings zur Interpretation von Zusammenhängen. Statistisch gesehen stellen sie ein multiples Regressionsmodell dar.

Literatur: Friedman, J., Hastie, T., and Tibshirani, R. (2001). The elements of statistical learning, volume 1. Springer series in statistics New York., Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford university press., White, H. (1989). Learning in artifical neural networks: A statistical perspective, volume 1. MIT press., Izenman, A. J. (2008). Modern multivariate statistical techniques. Springer.

Varianzanalyse

Beschreibung: Die Varianzanalyse (ANOVA) kann als Abwandlung linearer Regression betrachtet werden, bei der eine stetige Zielvariable durch einen qualitativen Regressor oder mehrere qualitative Regressoren (und Interaktionsterme) erklärt wird. Ziel ist es, Gruppen auf Basis der Regressoren zu bilden und die Mittel- bzw. Erwartungswerte auf Gleichheit zu testen.

Literatur: Fahrmeir, L., Heumann, C., Kunstler, R., Pigeot, I., and Tutz, G. (2016). Statistik: Der Weg zur Datenanalyse. Springer-Verlag.; Cohen, Y. and Cohen, J. Y. (1988). Analysis of variance. Statistics and
Data with R: An applied approach through examples, pages 463-509.

Modellselektion mit Informationskriterien

Beschreibung: Modellierung ist zentraler Bestandteil der Datenanalyse. Wenn eine Modellklasse ausgewählt ist, liegt die Schwierigkeit darin, das richtige Modell und die richtige Ordnung zu wählen und dabei einen Kompromiss zwischen Anpassungsgüte und Komplexität (Anzahl Parameter) des Modells zu finden. Bekannte Informationskriterien sind beispielsweise das AIC und BIC.

Literatur: Konishi, S. and Kitagawa, G. (2008). Information criteria and statistical modeling. Springer Science & Business Media.

Einheitswurzeltests

Beschreibung: Stationarität ist eine wichtige Annahme in der Zeitreihenanalyse, die nicht immer erfüllt ist. Dies gilt es mit Einheitswurzel- und Stationaritätstests zu uberprüfen. Gängige Tests sind der (Augmented-)Dickey-Fuller Test, der Phillips-Perron-Test und der Test von Kwiatkowski, Phillips, Schmidt und Shin.

Literatur: Martin, V., Hurn, S., and Harris, D. (2012). Econometric modelling with time series: speci cation, estimation and testing. Cambridge University Press.; Hamilton, J. (1994). Time Series Analysis, volume 2. Cambridge Univ Press.

Regression mit Zähldaten

Beschreibung: Zähldaten geben an, wie oft ein bestimmtes Ereignis eingetreten ist. Da diese von ihrer Natur her diskret und nichtnegativ sind, bedarf es anderer Modelle als in der klassischen Regressionsanalyse. 

Literatur: Winkelmann, R. (2013). Econometric analysis of count data. Springer.

Regression mit Zeitreihendaten

Beschreibung: Die Regression mit Zeitreihendaten bietet die Möglichkeit, dynamische kausale E ffekte zu messen. Sie unterliegt aber auch einigen methodischen Schwierigkeiten. Demnach liegt häufig serielle Korrelation in den Daten vor und man benötigt für Vorhersagen Annahmen des Verhaltens der Zeitreihe hinsichtlich der Zukunft.

Literatur: Stock, J. H. and Watson, M. W. (2011b). Introduction to Econometrics,volume 3. Pearson Education.; Wooldridge, J. M. (2012). Introductory Econometrics: A Modern Approach, volume 5. South-Western College Pub.

VAR Modelle

Beschreibung: VAR-Prozesse generalisieren univariate AR-Modelle auf vektorielle Reihen. Dadurch lassen sich Zusammenhänge zwischen mehreren AR-Prozessen modellieren. Sie werden deshalb oft für makroökonomische Prognosen verwendet.

Literatur: Hamilton, J. (1994). Time Series Analysis, volume 2. Cambridge Univ Press.; Lütkepohl, H. (2005). New introduction to multiple time series analysis. Springer Science & Business Media.; Martin, V., Hurn, S., and Harris, D. (2012). Econometric modelling with time series: speci cation, estimation and testing. Cambridge University Press.

HAC Schätzer

Beschreibung: Häufi g weisen die Innovationen in einer Regressionsanalyse Autokorrelation und/oder Heteroskedastie auf, sodass Inferenz auf Basis der klassischen Annahmen nicht länger valide ist. Abhilfe scha ffen H(eteroscedasticity) and A(utocorrelation) C(onsistent) Schätzer fur die Varianz-Kovarianz Matrix, die als gewichtete Summen der Autokovarianzen des Prozesses verstanden werden können.

Literatur: Zeileis, A. (2004). Econometric computing with hc and hac covariance matrix estimators. Journal of Statistical Software, 11.;Andrews, D. W. (1991). Heteroskedasticity and autocorrelation consistent covariance matrix estimation. Econometrica: Journal of the Econometric Society, pages 817-858.

Diskriminanzanalyse

Beschreibung: Die Diskriminanzanalyse ist eine Klassi fikationsmethode, die Merkmalsträger anhand ihrer Merkmale charakterisiert und so Klassen zuzuordnet. Ein typisches Beispiel ist das Kreditscoring. Die Einstufung uber die Bonität eines Bankkunden erfolgt über Merkmale dessen wirtschaftlicher Situation.

Literatur: Fahrmeir, L., Hamerle, A., and Tutz, G. (1996). Multivariate Statistische Verfahren. Walter de Gruyter GmbH & Co KG.

Prognose von Zeitreihendaten mit dem Holt-Winters-Verfahren

Beschreibung: Zur Prognose von Zeitreihendaten werden häufi g exponentielle Glättungsverfahren angewandt. Diese sind in der Lage, sowohl Trends als auch Saisonalität zu modellieren. Insbesondere das Holt-Winters-Verfahren wird häufig verwendet, um saisonale Zeitreihen vorherzusagen.

Literatur: Winters, P. R. (1960). Forecasting sales by exponentially weighted moving averages. Management science, 6(3):324-342.; Chat eld, C. and Yar, M. (1988). Holt-winters forecasting: some practical issues. The Statistician, pages 129-140.; Makridakis, S., Wheelwright, S., and Hyndman, F. (1998). Forecasting methods and applications.

Logistische Regression

Beschreibung: Logit-Regressionen werden eingesetzt, wenn die abhängige Variable y diskret ist und nur endlich viele Werte annehmen kann. Weil lineare Modelle in diesem Fall Nachteile besitzen, werden stattdessen nichtlineare Regressionsmodelle genutzt. Neben der Modellierung von binären Variablen y können auch multinomiale Erweiterungen vom Logit-Modell vorgestellt werden.

Literatur: Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT Press.(Kapitel 15).; Cameron, A. C. and Trivedi, P. K. (2005). Microeconometrics: methods and applications. Cambridge university press. (Kapitel 14).; Greene, W. H. (2000). Econometric analysis (international edition). (Kapitel 18).

Überlebenszeitanalyse

Beschreibung: In dieser Arbeit werden Variablen betrachtet, die die Zeit beschreiben, die seit einem bestimmten Ereignis vergangen ist. Zum Beispiel kann Zeit der Arbeitslosigkeit als y Variable als Überlebenszeit interpretiert werden. Zentraler Gegenstand der Überlebenszeitanalyse sind Hazard Funktionen, die beschreiben, mit welcher Wahrscheinlichkeit ein Beobachtungspunkt nach einer gegebenen Zeitspanne seinen Zustand wechselt. Eine Hazard Funktion würde also im Beispiel angeben, wie wahrscheinlich eine Person den Zustand Arbeitslosigkeit verlässt.

Literatur: Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT Press. (Kapitel 20).; Greene, W. H. (2000). Econometric analysis (international edition). (Kapitel 19.4).

Random Effects Panel Modelle

Beschreibung: Random E ffects sind ein Spezialfall von Fixed E ffects, in dem die zeitunveränderlichen E ffekte unkorreliert mit den Beobachtungen sind. Es soll vorgestellt werden, wie ein GLS-Schätzer in diesem Fall funktioniert. Darüber hinaus soll getestet werden, ob Random oder Fixed Eff ects vorliegen (Hausman speci cation test).

Literatur: Wooldridge, J. (2008). Introductory Econometrics: A Modern Approach. ISE - International Student Edition. Cengage Learning. (Kapitel 13, 14.2).; Greene, W. H. (2000). Econometric analysis (international edition). (Kapitel 11.5).

Ridge Regression

Beschreibung: Ridge Regression ist eine Regularisierungstechnik, die dazu führt, dass die geschätzten Koeffizienten nicht "zu groß" werden. Die Technik ist besonders hilfreich, wenn die Variablen in einer Regression korreliert sind, sodass die Matrix X'X "fast" nicht invertierbar ist. Es soll besonders darauf eingegangen werden, wie der Parameter, der die Stärke der Regularisierung angibt, gewählt werden sollte.

Literatur: Draper, N. R. and Smith, H. (2014). Applied regression analysis, volume 326. John Wiley & Sons.(Kapitel 17).; Friedman, J., Hastie, T., and Tibshirani, R. (2001). The elements of statistical learning, volume 1. Springer series in statistics New York. (Kapitel 3.4.1).

Nichtlineare Regression

Beschreibung: Es sollen Spezifi kationen von Regressionsmodellen untersucht werden, in denen Regressoren funktional verändert werden. Wann müssen die Werte von Regressoren quadriert, logarithmiert oder exponentiert werden und wie verändert sich durch dieses Vorgehen die Interpretation? Darüber hinaus soll der RESET-Test als Test auf die richtige funktionale Spezifi kation vorgestellt werden.

Literatur: Wooldridge, J. (2008). Introductory Econometrics: A Modern Approach. ISE - International Student Edition. Cengage Learning. (Kapitel 2.4, 6.2).; Greene, W. H. (2000). Econometric analysis (international edition). (Kapitel 5.9).

GMM Schätzung

Beschreibung: Die Generalized Method of Moments (GMM) ist ein Schätzprinzip, das in vielen Bereichen der Ökonometrie Anwendung findet. Es beruht auf der Idee, dass lediglich wenige Momente des zu schätzenden Modells spezifiziert sein müssen wie z.B. Erwartungswert und Varianz. Diese theoretischen Momente werden dann mit den empirischen Momenten, also z.B. Mittelwert und empirischer Varianz, gleichgesetzt. Aus den entstehenden Gleichungen wird dann das Modell geschätzt.

Literatur: Greene, W. H. (2000). Econometric analysis (international edition). (Kapitel 13.4).