Regionale Übersicht in Deutschland
Die Karte zeigt die regionale Verteilung der ausgewählten Metrik in Deutschland.
Bewege den Mauszeiger über die Landkreise, um detaillierte Informationen zu erhalten.
In dieser Anwendung wirst du lernen, wie mathematische Modelle helfen können, Zusammenhänge in realen Daten zu erkennen und Vorhersagen zu treffen.
Wir verwenden Daten zu Mietpreisen in den unterschiedlichen deutschen Landkreisen aus dem Zensus 2022. Welche Faktoren beeinflussen die Höhe der Miete? Und wie stark ist dieser Einfluss?
Die lineare Regression ist ein grundlegendes statistisches Verfahren, mit dem wir solche Fragen beantworten können.
Der Schritt in die erste eigene Wohnung steht für viele von euch schon bald bevor - sei es für ein Studium, eine Ausbildung oder einfach weil ihr selbstständig werden möchtet.
Dabei werden verschiedene Fragen wichtig:
Gleichzeitig ist die Mietpreisentwicklung ein wichtiges politisches Thema:
Nur wer Daten analysieren kann, kann auch fundierte Entscheidungen treffen und sich eine qualifizierte politische Meinung bilden!
Die Karte zeigt die regionale Verteilung der ausgewählten Metrik in Deutschland.
Bewege den Mauszeiger über die Landkreise, um detaillierte Informationen zu erhalten.
Die einfache lineare Regression verwendet nur eine unabhängige Variable, um die Zielvariable vorherzusagen.
In der Realität werden Mietpreise jedoch von mehreren Faktoren gleichzeitig beeinflusst. Mit multipler Regression können wir dieses komplexere Modell abbilden.
Im linken Diagramm siehst du, wie Wohnfläche und Leerstandsquote gemeinsam den Mietpreis beeinflussen:
Du kannst das Diagramm drehen, um verschiedene Perspektiven zu betrachten (klicke und ziehe mit der Maus).
Die multiple Regression erweitert die einfache lineare Regression:
$$y = b_1 x_1 + b_2 x_2 + ... + b_n x_n + a$$
Für unser Beispiel mit zwei Variablen:
$$\text{Mietpreis} = b_1 \times \text{Wohnfläche} + b_2 \times \text{Leerstandsquote} + a$$
Neben kontinuierlichen Variablen (wie Wohnfläche) können wir auch kategoriale Variablen in die Regression einbeziehen.
Eine Dummy-Variable nimmt nur die Werte 0 oder 1 an:
Das Modell lautet nun: Mietpreis = a + b₁×Wohnfläche + b₂×Leerstandsquote + b₃×Ost
Im 3D-Diagramm siehst du zwei parallele Ebenen:
Der vertikale Abstand zwischen den Ebenen entspricht dem Koeffizienten b₃ der Dummy-Variable.
Beide Ebenen haben die gleiche Steigung für Wohnfläche und Leerstandsquote, aber einen unterschiedlichen Grundpreis .
Die Dummy-Variable zeigt systematische regionale Unterschiede:
Das aktuelle Modell nimmt an, dass sich Ost und West nur im Grundpreisniveau unterscheiden, aber die Effekte von Wohnfläche und Leerstandsquote gleich sind.
Was passiert, wenn wir das Modell nur auf westdeutsche Landkreise (Nord, Süd, West) beschränken?
Durch Fokus auf eine homogenere Teilstichprobe können wir untersuchen:
Modell: Mietpreis = a + b₁×Wohnfläche + b₂×Leerstandsquote (nur westdeutsche Daten)
Im 3D-Diagramm siehst du:
Die Ebene zeigt, wie Wohnfläche und Leerstandsquote den Mietpreis speziell in Westdeutschland beeinflussen.
Einschränkung der Stichprobe kann:
In der multiplen Regression hat jeder Koeffizient eine spezielle Bedeutung:
Beantworte die folgenden Fragen, um dein Verständnis der linearen Regression zu überprüfen.
Mit diesem Wissen bist du für viele zukünftige Anwendungen gewappnet!