Teaching
Theses

Theses

We are pleased that you would like to write your bachelor/master thesis at our institute. On this website you may find information about topics, registration and general guidelines. We wish you much success!

Bachelor Theses

Bachelor theses in Statistics consist of a description of new statistical methods and their application on specific data.

  • Registration

    We would like to ensure that all students of the Economics and Management bachelor receive a topic for their theses within standard period of study. Therefore, allocation is made by the Office of the Dean of Studies via a centralized application procedure. Afterwards, the Office of the Dean of Studies will inform you about the institute which you were assigned to.

  • Assignment of Topics

    We have prepared a selection of topics for students who were assigned to our institute. You can find a list with all current topics on our website. 

    Topics for summer term 2022 as well as winter term 2022/23 will be assigned as desired within the available topics. Therefore, please contact the office with your desired topic by email. If a topic has been assigned, it is not longer listed on our website and can therefore no longer be chosen.

    Pre-registrations to start the bachelor thesis earlier can still be sent to the office by email.

Topics

We have arranged a selection of 30 topics from different areas.

In the following, you may find a list of currently available topics which may help for your choice. If a topic is no longer available, we will remove it from our website.

The descriptions of content as well as liturature references can be taken from the general overview which is linked above.

  • Limits of Classic Linear Regression

    Heteroscedasticity

    In the least squares method it is assumed that the variance of the disturbance terms is constant. However, if the variance of the disturbance varies, the LS estimator is no longer efficient. This can be proven with tests such as White test or Godfrey LM test. Solutions are offered by heteroscedasticity-resistant standard errors or the weighted LS method. If autocorrelation is also present, HAC (heteroscedasticity and autocorrelation consistent) estimators must be used.

    Introductory Literature:

    • J.M. Wooldridge. 2013. Introductory econometrics: A modern approach. Nelson Education (Chap. 8 + 12)
    • W.H. Greene. 2012. Econometric analysis. Pearson Education (Chap. 9)

    Autocorrelation

    Regression with time series data could cause classical assumptions about the OLS estimator to be violated, rendering it ineffective. Autocorrelation is an example of this. When autocorrelation exists, the errors of a linear regression are time dependent. In this thesis the AR(1) error model should be presented. In addition, a test on autocorrelation should be presented and shown how to estimate linear regression models efficiently despite autocorrelation.

    Introductory Literature:

    • J.M. Wooldridge. 2013. Introductory econometrics: A modern approach. Nelson Education (Chap. 12)

    Specification tests: RESET

    Consider the model specification of a linear regression model, where the independent regressors are linearly related to the dependent variable. This assumption about the functional form of a regression can be tested and these tests should be content of this work. The best-known test is the so-called RESET test. In addition, for example, the Rainbow and the Harvey-Collier test can be presented.

    Introductory Literature:

    • W. Krämer und H. Sonnberger. 1986. The linear regression model under test. Physica-Verlag Heidelberg (Chap. 4)

    Endogenität: Instrumentalvariablen

    Im klassischen linearen Regressionsmodell ist eine Voraussetzung für die Konsistenz des OLS-Schätzers, dass die Kovarianz zwischen der Regressormatrix und dem Fehlerterm Null ist. Falls diese Annahme verletzt ist, liegt sogenannte Endogenität vor. Eine Folge davon ist, dass der OLS-Schätzer einen Bias besitzt. Das Vorhandensein von Endogenität kann durch sogenannte Instrumentalvariablen gelöst werden, die im sogenannten Two Stage Least Squares (2SLS) verwendet werden, um eine konsistente Schätzung der Koeffizienten zu erlangen.

    Einstiegsliteratur:

    • J.M. Wooldridge. 2013. Introductory econometrics: A modern approach. Nelson Education (Kap. 15)
    • J.H. Stock und M.W. Watson. 2011. Introduction to Econometrics. Pearson Education (Kap. 12)

    Endogeneity: Generalized Method of Moments (GMM)

    Endogeneity bias can lead to inconsistent estimates and incorrect inferences, which may provide misleading conclusions and inappropriate theoretical interpretations. GMM is a statistical method that combines economic data with the information in population moment conditions and is able to estimate all coefficients simultaneously. The idea behind GMM must be explained and then applied to solve the system.

    Introductory Literature:

    • W.H. Greene. 2012. Econometric analysis. Pearson Education (Chap. 13)
    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Chap. 8)
    • F. Hayashi. 2000. "Econometrics". Princeton University Press (Chap. 8)
    • J.M. Wooldridge. 2001. "Applications of generalized method of moments estimation". Journal of Economic perspectives 15 (4): 87-100



    Ridge Regression

    Beim Vorliegen von Multikollinearität ist der OLS-Schätzer unzuverlässig. Die Ridge Regression bietet bei Multikollinearität einen effizienteren Schätzer. Bei dieser Regularisierungsmethode werden die Koeffizienten mit Hilfe eines Strafterms für die Wertegröße geschrumpft. Dies erhöht zwar den Bias der Schätzung, verringert dafür aber dafür ihre Varianz (Verzerrung-Varianz-Dilemma). Die Gewichtung des Strafterms wird durch eine Kreuzvalidierung bestimmt.

    Einstiegsliteratur:

    • J. Friedman, T. Hastie, R. Tibshirani u. a. 2001. The elements of statistical learning. Springer series in statistics New York (Kap. 3)
    • G. James u. a. 2013. An introduction to statistical learning. Springer (Kap. 6)
    • A.E. Hoerl und R.W. Kennard. 1970. "Ridge Regression: Biased Estimation for Nonorthogonal Problems". Technometrics 12 (1): 55-67

    Simultane Gleichungssysteme

    Ein einfaches simultanes Gleichungssystem lässt sich dadurch charakterisieren, dass die abhängige Variable in der einen Gleichung als erklärende Variable in der anderen Gleichung vorkommt und ungekehrt. Daher entsteht ein Endogenitätsproblem. Zwei Probleme sollen in dieser Arbeit näher erläutert werden: Zum einen das Problem der Identifikation, d.h. unter welchen Umständen können die Koeffizienten beider Gleichungen geschätzt werden. Zum zweiten sollen Schätzer vorgestellt werden, die unter Endogenität funktionieren und die die Koeffizienten des Systems Gleichung für Gleichung schätzen.

    Einstiegsliteratur:

    • W.H. Greene. 2012. Econometric analysis. Pearson Education (Kap. 10)
    • F. Hayashi. 2000. "Econometrics". Princeton University Press (Kap. 8)
    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Kap. 8+9)

  • Specific Regression Models

    Modelle für kategoriale Variablen: Multinomial Logit

    Eine kategoriale, oder auch nominale, Variable ist eine Variable, die in eine bestimmte Kategorie fällt und keine sinnvolle Ordnung aufweist. Das multinomiale Logit Modell wird verwendet, um eine Wahrscheinlichkeit einer bestimmten Entscheidung unter zwei oder mehr Alternativen zuzuweisen. Zum Beispiel ist die Wahl des Verkehrsmittels, um zur Arbeit zu gelangen, gegeben durch: das Auto, den Bus, den Zug oder das Fahrrad. In dieser Arbeit sollen das standard Logit sowie die Erweiterung zum multinomialen Modell definiert werden. Des Weiteren sollen die Interpretation dieser Modelle und auch Tests vorgestellt werden. Eine Erweiterung bezüglich des Nested Logits ist auch möglich.

    Einstiegsliteratur:

    • W.H. Greene. 2012. Econometric analysis. Pearson Education (Kap. 18)
    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Kap. 16)

    Modelle für ordinalskalierte Variablen: Ordered Probit

    Eine ordinalskalierte Variable ist eine Variable, die eine bestimmte Reihenfolge (oder auch Ordnung) der Variablenwerte aufweist. Das bedeutet, sie können zwar in eine auf- oder absteigende Reihenfolge gebracht werden, allerdings geben diese Variablen keinerlei Auskunft über die Abstände zwischen den Rangplätzen. Beispiele für solche geordneten multinomialen Entscheidungsvariablen sind Bond Ratings oder die Ergebnisse aus einem Geschmackstest. Um diesen Variablen dann Wahrscheinlichkeiten zuordnen zu können, wird das Ordered Probit-Modell verwendet. Ziel dieser Arbeit ist die Motivation dieses Modells, sowie die Vorstellung der standard Probit- und Ordered Probit-Modelle. Des Weiteren sollen Tests und die Interpretation der Koeffizienten erklärt werden.

    Einstiegsliteratur: 

    • W.H. Greene. 2012. Econometric analysis. Pearson Education (Kap. 18)
    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Kap. 16)

    Modelle für zensierte Daten: Tobit

    Zensierte Daten sind Daten, die "abgeschnitten'' sind. Seien wir interessiert an der Nachfrage von Eintrittskarten für ein bestimmtes Event, haben aber nur die Anzahl der verkauften Karten als Maßzahl gegeben, so ist die Variable der Nachfrage limitiert, wenn z.B. das Konzert ausverkauft ist. Das Tobit-Modell ist so aufgebaut, dass es die Zensierung der latenten Variable berücksichtigt. Das Tobit-Modell adressiert den Informationsverlust durch die Zensierung, indem es allen beobachtbaren Werten per Definition den latenten Wert zuordnet, solange dieser größer als Null ist. Ziel dieser Arbeit ist die Motivation der Modelle, hauptsächlich basierend auf Zensierung und Corner Solutions, sowie die Vorstellung des Tobit-Modells. Darüber hinaus soll auf Spezifikationsprobleme und die Interpretation der Koeffizienten eingegangen werden.

    Einstiegsliteratur:

    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Kap. 17)
    • W.H. Greene. 2012. Econometric analysis. Pearson Education (Kap. 19)

    Modelle für zensierte Daten: Das Hurdle-Modell

    Zensierte Daten sind Daten, die "abgeschnitten" sind. Wenn wir Daten über Arbeitsentgelte erheben, so sind die Daten nicht-negativ, d.h. sie sind ab dem Wert Null abgeschnitten. Das Hurdle-Modell modelliert Auswirkungen von unabhängigen Variablen auf die beobachtete Variable. Es interpretiert den Prozess der Erzeugung von den beobachteten Variablen als zweiteiliges Modell, welches die Hurdle und die einer bestimmten Verteilung folgenden Größe beinhaltet. Die Hurdle zeigt an, ob die beobachtete Variable zensiert wird, während die andere Größe anzeigt, wie groß die nicht-zensierte Variable ist.

    Einstiegsliteratur: 

    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Kap. 17)
    • W.H. Greene. 2012. Econometric analysis. Pearson Education (Kap. 19)

     


    Treatment Effects: Matching Estimator

    With average treatment effects, social scientists try to assess the effects of measures such as participation in job training for the unemployed. In particular, the question arises how these effects can be measured if no randomized experiment is available, i.e. the participating group may be different from the non-participating group. Nevertheless, matching estimators are used to establish comparability between these two groups, by focusing on the external characteristics. In this paper, covariate matching should be presented. Different matching functions and distance measures are to be compared.

    Introductory Literature: 

    • G. Cerulli. 2015. Econometric evaluation of socio-economic programs. Springer (Chap. 2)
    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Chap. 21)

    Treatment Effects: Propensity Score

    With average treatment effects, social scientists try to assess the effects of measures such as participation in job training for the unemployed. In particular, the question arises how these effects can be measured if no randomized experiment is available, i.e. the participating group may be different from the non-participating group. Nevertheless, the propensity score can be used to establish comparability between these two groups, which indicates the probability of belonging to a group. In this paper, the propensity score should be presented. Different properties of the propensity score are to be described.

    Introductory Literature: 

    • G. Cerulli. 2015. Econometric evaluation of socio-economic programs. Springer (Chap. 2)
    • J.M. Wooldridge. 2010. Econometric analysis of cross section and panel data. MIT Press (Chap. 21)




    Perzeptron

    Das Perzeptron stellt den Grundbaustein moderner neuronaler Netze dar und wird zur Klassifikation verwendet. In seiner grundlegenden Funktionalität kommt das Perzeptron dem multiplen linearen Regressionsmodell gleich. Im Bereich der neuronalen Netze werden die unabhängigen Variablen des Modells als Eingabe in das Perzeptron interpretiert, welche abhängig von den gelernten Gewichten des Perzeptrons zu einer bestimmten Ausgabe führen. Das Lernen der Gewichte erfolgt über einen iterativen Trainingsprozess, dessen Funktionsweise und Limitationen im Rahmen dieser Arbeit vorgestellt werden sollen. In der Arbeit soll weiter auf das Problem der linearen Separierbarkeit der zu klassifizierenden Daten eingegangen und Lösungsmöglichkeiten wie das mehrlagige Perzeptron oder der Maxover-Algorithmus vorgestellt werden.

    Einstiegsliteratur: 

    • W. Ertel und N.T. Black. 2016. Grundkurs Künstliche Intelligenz. Springer (Kap. 8.2)
    • C.M. Bishop u. a. 1995. Neural Networks for Pattern Recognition. Oxford University Press (Kap. 3.5)
    • F. Rosenblatt. 1958. "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain". Psychological review: 386

  • Multivariate Methods

    Principal Component Analysis

    A principal component analysis (PCA) is concerned with explaining the variance-covariance structure through a few linear combinations of the original variables. Its general objectives are, first, data reduction and second, interpretation. An analysis of principal components often reveals relationships that were not previously suspected and thereby allows interpretations that would not ordinarily result. Therefore, it is extensively used for finding patterns in data of high dimension in the field of finance, data mining, bioinformatics and environmental studies.

    Introductory Literature: 

    • R.A. Johnson, D.W. Wichern u. a. 2002. Applied multivariate statistical analysis. Prentice Hall, NJ (Chap. 8)
    • A.J. Izenman. 2013. "Multivariate regression". In Modern Multivariate Statistical Techniques, 159-194. Springer (Chap. 7)
    • W.J. Krzanowski. 1995. Recent advances in descriptive multivariate analysis. Clarendon Press (Chap. 5)
    • M. Ringnér. 2008. "What is principal component analysis?" Nature biotechnology 26 (3): 303

    Factor Analysis

    In factor analysis, we take multiple observed variables that have similar response patterns. Like the original variables, the factors vary from individual to individual; but unlike the variables, the factors cannot be measured or observed. Each factor captures a certain amount of the overall variance in the observed variables, and the factors are always listed in order of how much variation they explain. The goal of factor analysis is to reduce the redundancy (needlessness) among the variables by using a smaller number of factors. Motivation for factor models, model definition and assumptions as well as the estimation procedure should be covered.

    Introductory Literature: 

    • A.C. Rencher und W.F. Christensen. 2012. Methods of Multivariate Analysis. John Wiley & Sons, Inc. (Chap. 13)
    • J.F. Hair u. a. 2014. Multivariate Data Analysis. Pearson Education Limited (Chap. 3)


    k-Nearest-Neighbors

    k-Nearest-Neighbors (k-NN) ist eine nicht-parametrische Klassifikationsmethode. Der Grundgedanke ist, einzelne Datenpunkte basierend auf der Klassenzugehörigkeit ihnen ähnlicher Datenpunkte - ihrer Nachbarn - zu klassifizieren. Neben der Definition von Entfernung spielt die Wahl des Parameters k, welcher die Größe der zu berücksichtigenden Nachbarschaft steuert, eine wichtige Rolle. In dieser Arbeit soll zunächst das Prinzip der Nächste-Nachbarn-Klassifikation und ihrer verschiedenen Ausprägungen vorgestellt werden, um darauf aufbauend die Wahl des Parameters k und der daraus folgenden Konsequenzen sowie die Evaluationsmöglichkeiten der resultierenden Klassifikation diskutieren zu können.

    Introductory Literature: 

    • W. Ertel und N.T. Black. 2016. Grundkurs Künstliche Intelligenz. Springer (Kap. 8.3)
    • C.M. Bishop u. a. 1995. Neural Networks for Pattern Recognition. Oxford University Press (Kap. 2.5)

    Gaußsche Mischmodelle

    Gaußsche Mischmodelle (engl.: Gaussian Mixture Models, GMMs) werden genutzt, um die Verteilung eines Datensatzes durch einen Mix aus verschiedenen Normalverteilungen zu modellieren. Dazu müssen sowohl die Parameter der einzelnen Normalverteilungen als auch deren korrespondierenden Gewichte für den Mix geschätzt werden. Da für das Schätzproblem keine analytische Lösung existiert, wird auf den Erwartungs-Maximierungs-Algorithmus (EM) zurückgegriffen. In dieser Arbeit sollen die Grundannahmen und die Funktionsweise der Gaußschen Mischmodelle vorgestellt und der EM-Algorithmus diskutiert werden.

    Introductory Literature: 

    • S. Richter. 2019. Statistisches und maschinelles Lernen. Springer (Kap. 9.2)
    • C.M. Bishop u. a. 1995. Neural Networks for Pattern Recognition. Oxford University Press (Kap. 2.6)
    • G.J. McLachlan, S.X. Lee und S.I. Rathnayake. 2019. "Finite Mixture Models". Annual review of statistics and its application 6:355-378

  • Models of Stochastics

    Anpassungstests an die Normalverteilung

    Die Normalverteilung von Daten ist eine zentrale Annahme vieler statistischer Verfahren, wie beispielsweise des t-Tests oder der linearen Regression. Zum Prüfen der Normalverteilungsannahme dienen Tests, die auf unterschiedlichen Prinzipien basieren: unter anderem der Chi-Quadrat-Anpassungstest und der Kolmogorov-Smirnov-Test zum Vergleich mit der theoretischen Verteilungsfunktion, der Jarque-Bera-Test, basierend auf Schiefe und Wölbung, und der Shapiro-Wilk-Test zur Analyse der Varianz.

    Einstiegsliteratur: 

    • H.C. Thode. 2011. "Normality tests". International Encyclopedia of Statistical Science: 999-1000
    • N.M. Razali und Y.B. Wah. 2011. "Power comparisons of shapiro-wilk, kolmogorov-smirnov, lilliefors and anderson-darling tests". Journal of statistical modeling and analytics 2 (1): 21-33
    • J. Hedderich und L. Sachs. 2016. Angewandte Statistik: Methodensammlung mit R. Springer Spektrum, Berlin, Heidelberg (Kap. 7)

    Bootstrap

    Der Bootstrap ist ein Resampling-Verfahren, bei dem aus einer gegebenen Stichprobe eine Reihe von Unterstichproben mit Zurücklegen gezogen wird. Mit jeder dieser Unterstichproben wird die interessierende Statistik berechnet, um anschließend die Verteilung dieser Statistik beschreiben zu können. Generell approximieren Boostrap-Methoden also bei vorliegenden Daten die exakte Verteilung eines Schätzers oder einer Teststatistik ohne zusätzliche strukturelle Annahmen an den zugrundeliegenden Prozess. Die ursprüngliche Boostrap-Methode beruht dabei auf unabhängigen Zufallsvariablen.

    Einstiegsliteratur: 

    • B. Efron und R.J. Tibshirani. 1994. An Introduction to the Bootstrap. Chapman & Hall/CRC Monographs on Statistics & Applied Probability. Taylor & Francis
    • B. Efron. 1979. "Bootstrap Methods: Another Look at the Jackknife". The Annals of Statistics 7 (1): 1-26

    Autoregressive Prozesse

    Eines der wichtigsten Modelle in der Zeitreihenanalyse ist der autoregressive Prozess (AR), bei dem Beobachtungen anhand von vergangenen Beobachtungen und einem Zufallsschock modelliert werden. Wenn die passende Modellordnung bekannt ist oder geschätzt wurde, also die Anzahl an zu berücksichtigenden vergangenen Beobachtungen, kann mit unterschiedlichen Methoden das Modell angepasst und zur Prognose genutzt werden. Interessant ist besonders die Eigenschaft der Stationarität des Prozesses.

    Einstiegsliteratur: 

    • M. Deistler und W. Scherrer. 2018. Modelle der Zeitreihenanalyse. Springer (Kap. 5)
    • K. Neusser. 2009. Zeitreihenanalyse in den Wirtschaftswissenschaften. Springer (Kap. 2 + 5)





Master Theses

Master Theses in Statistics consists of a description of new statistical methods and their application on specific data. This is similar to bachelor theses. Furthermore, new statistical methods could be described in detail and more critically. Another option is to do an empirical study on a statistical problem.

  • Registration

    For master theses allocation is made on student's requests. If you would like to write your master thesis at our institute, you may contact Prof. Dr. Sibbertsen by email.

  • Topic Assignment

    Topics for master theses are very diverse. They range from methodical work (method presentation, method comparison, method development) to own empirical work (data collection and analysis) with references to all other economic elective courses.

    Topic assignment takes place in coordination with you. We will gladly consider your suggested topics.


Notes for Theses

Below you may find informationen about requirements for bachelor theses as well as a template for LaTeX.

For LaTeX beginners we recommend to use the university’s Overleaf cloud service (https://www.luis.uni-hannover.de/de/services/speichersysteme/dateiservice/cloud-dienste/overleaf/ ). To start with, our template can easily be uploaded as a new project. Otherwise, proper installation of MiKTeX (https://miktex.org/) and a LaTeX editor (https://www.texstudio.org/ ) is required.

Entries for the bibliography file can be copied from Google Scholar (Cite -> BibTeX) or generated with e.g. https://www.doi2bib.org/. In case of many references, a software for reference management (e.g. Citavi, https://www.luis.uni-hannover.de/de/services/betrieb-und-infrastruktur/software-lizenzen/software-katalog/produkte/citavi/) might be useful.

Contact for general questions about your thesis

Laura Bub
Office
Address
Königsworther Platz 1
30167 Hannover
Building
Room
011
Laura Bub
Office
Address
Königsworther Platz 1
30167 Hannover
Building
Room
011