9 Difference-in-Differences
Der Difference-in-Differences (DID) Ansatz erlaubt die Schätzung kausaler Effekte in quasi-experimentellen Forschungsdesigns, in denen Beobachtungen für Kontroll- und Behandlungsgruppe zu mindestens zwei Zeitpunkten vorliegen und die Behandlung zwischen diesen Zeitpunkten stattfindet: Wir beobachten sowohl die Kontroll- als auch die Behandlungsgruppe vor und nachdem die Behandlung erfolgt ist. Die Motivation für die Anwendung des DID-Ansatzes liegt in der Fähigkeit, typische Risiken für eine verzerrte Schätzung zu umgehen, die bei einfachen Vorher-Nachher-Vergleichen oder reinen Querschnittsvergleichen auftreten können. Die zentrale Idee ist eine Schätzung des ATT durch einen Vergleich durchschnittlicher Differenzen der Outcome-Variable beider Gruppen zwischen den Perioden vor und nach der Intervention. Abbildung 9.1 zeigt ein kausales Diagramm für ein Forschungsdesign, in dem DID den ATT identifizieren kann.
Abbildung 9.1 illustriert Confounding bei der Bestimmung des Behandlungseffekts durch Backdoors in der Zeit \(t\) und der Gruppenzugehörigkeit:
Zeit: Der Behandlungszustand der behandelten Gruppe ändert sich durch die Intervention zwischen der Vor- und der Nachbehandlungsperiode. Die Outcome-Variable \(Y\) ändert sich für beide Gruppen über die Zeit hinweg.
Gruppenzugehörigkeit: Die Gruppenzugehörigkeit legt fest, ob eine Behandlung erfolgt. Systematische Unterschiede zwischen Behandlungs- und Kontrollgruppe wirken sich auf die Outcome-Variable \(Y\) aus.
In einem DID-Ansatz ermöglicht die Beobachtung von Kontroll- und Behandlungsgruppen jeweils bevor und nach einer Intervention die Messung systematischer Unterschieder zwischen Behandlungs- und Kontrollgruppe unter Berücksichtigung von Zeiteffekten, sodass die Backdoors durch Gruppenzugehörigkeit und Zeit geschlossen werden. Die Schätzung eines durchschnittlichen Behandlungseffekts erfolgt hierbei unter der Annahme, dass die Outcome-Variable in beiden Gruppen ohne die Intervention im Mittel einen ähnlichen Trend aufweisen würde und damit die Kontrollgruppe ein plausibles Counterfactual für die Behandlungsgruppe darstellt.
9.1 Einordnung im Potential Outcomes Framework
Im Potential Outcomes Framework nehmen wir an, dass jede Einheit \(i\) in Abhängigkeit ihres Behandlungsstatus zwei potentielle Ergebnisse hat. Wir unterscheiden zwischen Beobachtungen in Behandlungs- und Kontrollgruppe:
- \(Y_{i,B}(1)\): \(Y\) für Einheit \(i\) in der Behandlungsgruppe, wenn diese behandelt wird.
- \(Y_{i,B}(0)\): \(Y\) für Einheit \(i\) in der Behandlungsgruppe, wenn diese nicht behandelt wird.
- \(Y_{i,K}(1)\): \(Y\) für Einheit \(i\) in der Kontrollgruppe, wenn diese behandelt wird.
- \(Y_{i,K}(0)\): \(Y\) für Einheit \(i\) in der Kontrollgruppe, wenn diese nicht behandelt wird.
In einem DID-Forschungsdesign hängen tatsächliche und potentielle Outcomes von der Zeit \(t\) ab: Die Behandlungsgruppe wird zwischen den Zeitpunkten \(t = 0\) und \(t = 1\) behandelt, während die Kontrollgruppe unbehandelt bleibt. Für die Identifizierung des Behandlungseffekts wird unterstellt, dass \(Y\) sich zwischen \(t=0\) und \(t=1\) in der Behandlungsgruppe ohne eine Behandlung (im Erwartungswert) mit demselben Trend entwickelt hätte, mit dem sich die Kontrollgruppe tatsächlich entwickelt hat (parallele Trends). Die Gültigkeit paralleler Trends ist entscheidend für die Validität der DID-Methode, da so sicherstellt ist, dass die beobachteten Unterschiede in den Ergebnissen auf die Behandlung zurückzuführen sind und nicht auf andere zeitgleich auftretende Faktoren. Der Behandlungseffekt kann dann als eine Differenz von Differenzen geschrieben werden:
\[\begin{align} \begin{split} \beta_\textup{DID} =& \, \bigg({\color{red}\textup{E}\big[Y_B(1)\vert t=1\big] - \textup{E}\big[Y_B(0)\vert t=0\big]} \bigg)\\ -&\, \bigg({\color{blue}\textup{E}\big[Y_K(0)\vert t=1\big] - \textup{E}\big[Y_K(0)\vert t=0\big]} \bigg) \end{split}\label{eq:DID-ATT1} \end{align}\]
Der Effekt \(\beta_\textup{DID}\) ist ein ATT, der über das Schließen der Backdoor in der Zeit (rote und blaue Differenzen der Erwartungswerte zwischen \(t=0\) und \(t=1\)) sowie der Backdoor in der Gruppenzugehörigkeit (Differenz der Erwartungswert-Differenzen) identifiziert wird.
Eine Null-Ergänzung von \(\eqref{eq:DID-ATT1}\) mit \({\color{blue}\textup{E}\big[Y_K(0)\vert t=1\big] - \textup{E}\big[Y_K(0)\vert t=1\big]}\) zeigt die Wichtigkeit der Gültigkeit paralleler Trends:
\[\begin{align*} \beta_\textup{DID} =& \, \bigg({\color{red}\textup{E}\big[Y_B(1)\vert t=1\big] - \textup{E}\big[Y_B(0)\vert t=0\big]} \bigg) - \bigg({\color{blue}\textup{E}\big[Y_K(0)\vert t=1\big] - \textup{E}\big[Y_K(0)\vert t=0\big]} \bigg)\\ + &\, {\color{blue}\textup{E}\big[Y_K(0)\vert t=1\big] - \textup{E}\big[Y_K(0)\vert t=1\big]}\\ \\ =&\, \underbrace{{\color{red}\textup{E}\big[Y_B(1)\vert t=1\big]} - {\color{blue}\textup{E}\big[Y_B(1)\vert t=1\big]}}_{=\textup{ATT}}\\ +&\, \underbrace{\bigg({\color{red}\textup{E}\big[Y_B(0)\vert t=1\big] - \textup{E}\big[Y_B(0)\vert t=0\big]} \bigg) - \bigg({\color{blue}\textup{E}\big[Y_K(0)\vert t=1\big] - \textup{E}\big[Y_K(0)\vert t=0\big]} \bigg)}_{ = \textup{Verzerrung durch nicht-parallele Trends}} \end{align*}\]
Diese Zerlegung zeigt, dass der ATT nur bei parallelen Trends identifziert werden kann, d.h. wir benötigen
\[\begin{align*} {\color{red}\textup{E}\big[Y_B(0)\vert t=1\big] - \textup{E}\big[Y_B(0)\vert t=0\big]} = {\color{blue}\textup{E}\big[Y_K(0)\vert t=1\big] - \textup{E}\big[Y_K(0)\vert t=0\big]}. \end{align*}\]
Beachte, dass \({\color{red}\textup{E}\big[Y_B(0)\vert t=1\big]}\) der Erwartungswert des potentiellen Outcomes einer unbehandelten Behandlungsgruppe in \(t=1\) ist. Somit kann die Verzerrung durch nicht-parallele Trends nicht empirisch überprüft werden und muss ausschließlich durch das Forschungsdesign gewährleistet sein. In Anwendungen kann die Plausibilität der Annahme graphisch anhand geschätzter Trends in der Outcome-Variable oder durch Placebo-Tests untersucht werden.
Annahmen für DID
Parallele Trends: Die Trends in der Outcome Variable \(Y\) in Behandlungs- und Kontrollgruppe würden bis einschließlich \(t=1\) parallel verlaufen, wenn es keine Behandlung gäbe. Diese Annahme ist Voraussetzung dafür, dass Veränderungen im Outcome \(Y\) für die Behandlungsgruppe, die sich von \(Y\) für die Kontrollgruppe unterscheidet, auschließlich dem Effekt der Behandlung zugeschrieben werden kann.
-
Keine Interferenz und konsistente Behandlung (SUTVA):
Keine Interferenz: Die Behandlung eines Individums hat keinen Einfluss auf das potentielle Outcome anderer Individuen, unabhängig von der Gruppenzugehörigkeit.
Konsistente Behandlung: Es gibt keine Variation in der Intensität oder Art der Behandlung innerhalb der Behandlungsgruppe.
9.2 Schätzung des ATT mit DID
Für die Schätzung von \(\beta_\text{DID}\) ersetzen wir die Erwartungswerte in \(\eqref{eq:DID-ATT1}\) durch ihre Stichprobenmomente. Dies liefert den Schätzer
\[\begin{align} \widehat{\beta}_\textup{DID} = \bigg({\color{red}\overline{Y_B(1)\vert t=1} - \overline{Y_B(0)\vert t=0}} \bigg) - \bigg({\color{blue}\overline{Y_K(0)\vert t=1} - \overline{Y_K(0)\vert t=0}}\bigg). \label{eq:DIDMOMENTS} \end{align}\]
Die Implementierung von DID-Schätzern erfolgt meist anhand linearer Regression. Das Modell für zwei Zeitperioden ist
\[\begin{align} Y_{i,\,t} = \alpha + \beta_1 B_i + \beta_2 Z_t + \beta_3 (B_i \times Z_t) + \epsilon_{i,\,t}, \quad t\in\{0,1\}, \label{eq:DIDREG} \end{align}\]
wobei \(\beta_3\) der interessierende Behandlungseffekt ist. Der Regressor \(B_i \times Z_t\) ist die Interaktion zwischen der Behandlungsgruppenzugehörigkeit \(B_i\) und einem Indikator für den Zeitpunkt nach der Intervention, \(Z_i = \mathbb{I}_{\{t=1\}}\). Beachte, dass wir in Modell \(\eqref{eq:DIDREG}\) für Zeiteffekte und die Gruppenzugehörigkeit kontrollieren und damit die sich durch das Forschungsdesign ergebenden Backdoors (vgl. Abbildung 9.1) schließen.
Es ist \(\widehat\beta_3 = \widehat{\beta}_\text{DID}\), d.h. der KQ-Schätzer von \(\beta_3\) ist der DID-Schätzer des ATT und numerisch äquivalent zu \(\eqref{eq:DIDMOMENTS}\). Die Berechnung von \(\widehat\beta_\text{DID}\) anhand von Modell \(\eqref{eq:DIDREG}\) ist praktisch, da wir so Inferenzstatistiken mit etablierten R-Funktionen wie summary()
und lmtest::coeftest()
wie gewohnt berechnen können.
In empirischen Anwendungen stehen oft Datensätze mit mehreren Gruppen und mehr als zwei Beobachtungsperioden zur Verfügung. Beachte, dass das Modell \(\eqref{eq:DIDREG}\) ein Spezialfall des allgemeinen Forschungsdesigns mit \(t=1,\dots,T\) für \(T\geq2\) Beobachtungsperioden und mehr als zwei Gruppen (mehrere Kontroll- und Behandlungsgruppen) ist. Eine dann häufig genutzte Modellspezifikation für die Schätzung des ATT mit DID ist eine Panel-Regression mit Two-way Fixed Effects,
\[\begin{align} Y_{i,\,t} = \theta_i + \eta_t + \beta_\text{DID}^\text{TWFE} D_{i,\, t} + \epsilon_{i,\,t}, \quad t = 1,\dots,T, \label{eq:TWFEDIDREG} \end{align}\]
wobei \(\theta_i\) und \(\eta_t\) Dummy-Variablen für Gruppen und Zeitperioden sind und \(D_{i,\, t}\) der Behandlungsindikator ist. Dieses lineare Paneldaten-Modell kann komfortabel mit dem R-Paket fixest
(s. fixtest::feols()
) implementiert werden. Bei mehreren Gruppen sollten cluster-robuste Standardfehler auf Gruppen-Ebene verwendet werden.
In Modell \(\eqref{eq:TWFEDIDREG}\) indentifiziert \(\beta_\text{DID}^\text{TWFE}\) den ATE, sofern die Annahmen 1 (parallele Trends) und 2 (SUTVA) gelten. Damit die Annahme paralleler Trends gewährleistet ist, dürfen keine heterogenen Behandlungseffekte vorliegen, d.h. die Behandlungseffekte
- variieren nicht zwischen verschiedenen Gruppen
- sind unabhängig vom Zeitpunkt der Behandlung (relevant bei unterschiedlichen Behandlungszeitpunkten)
- entwickeln sich nicht dynamisch über die Zeit1
1 Siehe bspw. Goodman-Bacon (2021) für eine detaillierte Diskussion dieser Problematik.
2 Die Methoden von Callaway und Sant’Anna (2021) sind im R-Paket did
implementiert.
Der Umgang mit heterogenen Behandlungseffekten ist Gegenstand der aktuellen ökonometrischen Forschung zu DID-Schätzern. Callaway und Sant’Anna (2021) schlagen eine nicht-parametrische Schätzung von gruppenspezifischen ATE zu veschiedenen Zeitpunkten vor, die zu einem globalen ATT zusammengefasst werden können.2
Im DID-Forschungsdesign kann der ATT durch einen Vergleich von Differenzen in den Ergebnissen vor und nach einer Behandlung zwischen Behandlungs- und Kontrollgruppen identifiziert werden.
DID benötigt Beobachtungen einer Behandlungs- und einer Kontrollgruppe zu mindestens zwei verschiedenen Zeitpunkten, wobei der Behandlung zwischen diesen Zeitpunkten erfolgt.
DID ist empfindlich gegenüber Verletzungen der Annahme, dass die zeitlichen Trends in der Outcome-Variable für die Behandlungs- und die Kontrollgruppen vor der Intervention parallel verlaufen.
DID-Schätzer können in linearen Interaktionsmodellen mit Fixed Effects für Zeitperioden und Gruppenzugehörigkeit implementiert werden. Der interessierenden Effekt sind die Koeffizienten von Interaktionstermem zwischen den Indikatoren für die Nachbehandlungsperioden und für die Zugehörigkeit zu einer Behandlungsgruppe.
In R können DID-Modelle mit
lm()
oder, in Fällen mit mehr als zwei Beobachtungsperioden, mitfixest::feols()
geschätzt werden. In Forschungsdesigns mit mehreren Gruppen sollten cluster-robuste Standardfehler verwendet werden.
Die nachfolgende interaktive Grafik illustriert die Schätzung des ATT mit DID sowie die Verletzung der Annahme paralleler Trends anhand simulierte Daten für mehrere Zeitperioden. Der verwendete DID-Schätzer ist der KQ-Schätzer in Modell \(\eqref{eq:DIDREG}\), d.h. wir betrachten ein Forschungsdesign in dem zwei Zeitperioden für die Schätzung verwendet werden, wobei die Behandlung zwischen diesen Perioden erfolgt.
Interaktive Elemente der Visualisierung
Die Beobachtungen der Individuen zu 6 verschiedenen Zeitpunkten werden als Punkte dargestellt. Die Datenpunkte könn mit Zeige Daten ein- und ausgeblendet werden.
Die geschätzten Trends beider Gruppen für den gesamten Beobachtungszeitraum und die Gruppenzugehörigkeit können mit Zeige Trends ein- und ausgeblendet werden. Die Auswahl Parallele Trends stellt sicher, dass beide Gruppen (mit Ausnahme des Behandlungseffekts in der Behandlungsgruppe) dem selben zeitlichen Trend folgen. Bei nicht-parallelen Trends folgt die Behandlungsgruppe einem positiven Trend mit größerer positiver Steigung als in der Kontrollgruppe.
Die Behandlung erfolgt zwischen der mit dem Slider Zeitpunkt ausgewählten und der darauf folgenden Periode. Der tatsächliche Behandlungseffekt kann über den Slider Effekt festgelegt werden.
Anatomie der Schätzung des ATT bei parallelen Trends
Wir illustrieren die Schätzen des ATT mit Formel \(\eqref{eq:DIDMOMENTS}\). Kreise zeigen Mittelwerte für Kontroll- und Behandlungsgruppe vor der Intervention. Dreiecke zeigen Mittelwerte nach der Intervention.
Die gestrichelte rote Linie zeigt den (kontrafaktischen) Verlauf der Behandlungsgruppe ohne Behandlung. Hierbei wird unterstellt, dass sich die Behandlungsgruppe mit demselben Trend wie die Kontrollgruppe entwickelt hätte (blaue Linie).
Der geschätzte Behandlungseffekt wird als orangene vertikale Linie dargestellt. Dies ist die Differenz zwischen dem tatsächlichen post-Behandlungs-Mittelwert und dem kontrafaktischen Mittelwert der Behandlungsgruppe.
Anatomie der Schätzung des ATT bei nicht-parallelen Trends
Für nicht-parallele Trends zeigt die Grafik den unterstellten kontrafaktischen Trend der Behandlungsgruppe als gestrichelte blaue linie. Der “tatsächliche” kontrafaktische Verlauf der Behandlungsgruppe wird als gestrichelte rote Linie dargestellt.
-
Aufgrund des steileren (positiven) Trends in der Behandlungsgruppe ergibt sich eine positive Verzerrung von \(\color{orange}\widehat{\beta}_\text{DID}\). Diese Verzerrung wird durch die gestrichelte vertikale schwarze Linie kenntlich gemacht.
Für positive Behandlungseffekte wird der ATT überschätzt: die Verzerrung entspricht der Überlagerung der gestrichelten schwarzen linie mit der orangenen Linie des geschätzten Effekts.
Für negative Behandlungseffekte wird der ATT unterschätzt: die Verzerrung entspricht der gestrichelten schwarzen Linie oberhalb der orangenen Linie des geschätzten Effekts.
9.3 Schätzung von DID-Forschungsdesigns mit R
Wir erläutern nachfolgend die Schätzung von DID-Designs mit zwei Zeitperioden mit R und visualisieren die geschätzten Komponenten von \(\widehat{\beta}_\text{DID}\) ähnlich wie in der interaktiven Visualisierung. Hierzu erzeugen wir simulierte Daten gemäß der Vorschrift
\[\begin{align*} Y_{i,t} &= 2 + 3 \cdot Z_t + 5 \cdot B_i + 4 \cdot (Z_t \cdot B_i) + \epsilon_{i,t}\\ \epsilon_{i,t} &\sim N(0, 1)\\ Z_t &= \mathbb{I}_{\{ t = 1 \}} \\ B_i &= \mathbb{I}_{\{ i \in \textup{Behandlungsgruppe} \}}, \end{align*}\] wobei wir jeweils \(100\) Beobachtungen beider Gruppen zu beiden Zeitpunkten generieren.
Mit lm()
implementieren wir ein einfaches Interaktionsmodell und lesen den geschätzten Effekt aus.
Die Schätzung des Behandlungseffekts von \(3.64\) liegt nahe beim wahren Effekt von \(4\). Eine äquivalente Schätzung können wir mit fixest::feols()
erhalten.
Für eine Schätzung mit Two-way-fixed-effects modifizieren wir den Funktionsaufruf von feols()
Beachte, dass im Formel-Argument fml
mit I(Z * B)
lediglich der Interaktionseffekt als Regressor festgelegt wird. Fixe Effekte für Gruppenzugehörigkeit und Zeitpunkte werden durch den Zusatz | B + Z
spezifiziert.3 Diese Reihenfolge führt zur Berechnung von cluster-robusten Standardfehlern auf Gruppen-Ebene (B
). Wie erwartet können wir anhand des \(t\)-Tests die Nullhypothese \(H_0:\,\beta_\text{DID} = 0\) zu jeden relevanten Signifikanzniveau ablehnen.
3 I(Z * B)
statt Z * B
stellt sicher, dass perfekte Multikollinearität aufgrund der Fixed-Effekts für B
und Z
vermieden wird.
Für die Visualisierung der Schätzung mit ggplot2::ggplot()
berechnen wir zunächst Stichprobenmittelwerte für die Outcome-Variable y
beider Gruppen zu beiden Zeitpunkten.
Die Stichprobenmittelwerte in means
ermöglichen uns die Schätzung von \(\textcolor{red}{E(Y_B(0)|t=2)}\), das kontrafaktische erwartete Outcome (counterfactual) der Behandlungsgruppe zum Zeitpunkt \(t=2\),
\[\begin{align*} \textcolor{red}{\overline{Y_B(0)|t=2}} =&\, \textcolor{red}{\overline{Y_B(0)|t=1}} + \bigg( \textcolor{blue}{\overline{Y_K(0)|t=2}} - \textcolor{blue}{\overline{Y_K(0)|t=1}} \bigg)\\ =&\, \textcolor{red}{7.2} + (\textcolor{blue}{5.0} - \textcolor{blue}{1.8}) \\ =&\, \textcolor{red}{10.4}. \end{align*}\]
Der geschätzte Behandlungseffekt ist \[\begin{align*} \textcolor{orange}{\widehat{\beta}_\text{DID}} =&\, \textcolor{red}{\overline{Y_B(1)\vert t=2}} - \textcolor{red}{\overline{Y_B(0)\vert t=2}}\\ =&\,\textcolor{red}{14} - \textcolor{red}{10.4}\\ =&\, \textcolor{orange}{3.6}. \end{align*}\]
Wir plotten die Daten mit ggplot2
und zeichnen die Trends sowie den geschätzten Behandlungseffekt ein.
9.4 Case Study: Effekt von Steuererleichterungen auf Erwerbsbeteilligung
Der Earned Income Tax Credit (EITC) ist ein Steuerguthaben für US-Amerkanische Familien, die unterhalb einer gesetzlich festgelegten Einkommensgrenze liegen. Der genaue Betrag des EITC hängt gestaffelt vom Einkommen ab und, ähnlich zum Kindergeld in Deutschland, steigt mit der Anzahl der zu versorgenden Kinder. Ein wichtiger Unterschied zum Kindergeld ist, dass der EITC nicht beantragt werden muss: Qualifizierten Familien wird der Betrag automatisch durch die Behörden im Jahressteuerausgleich gutgeschrieben. Somit kann Selbstselektion in die Behandlungsgruppe ausgeschlossen werden, da sich die Behandlung ausschließlich durch die im Rahmen der EITC-Ausweitung geänderten Anspruchsgrundlagen ergibt.
Eissa und Liebman (1996) betrachten Veränderungen in der EITC-Gesetzgebung als Intervention, deren Auswirkungen mit sozio-ökonomischen Paneldaten in einem DID-Ansatz untersucht werden können. Die Studie analysiert die Auswirkungen der ersten Ausweitung des EITC im Jahr 1986 auf die Erwerbsbeteiligung und die Löhne von Müttern im erwerbsfähigen Alter. Diese Erweiterung erhöhte die gewährten Steuererleichterungen und die zur Qualifikation für das Programm zu unterschreitende Einkommensgrenze.
Ein zentraler Befund der Studie ist, dass die EITC-Ausweitung von 1986 einen statistisch signifikanten Anstieg der Arbeitsbeteiligung alleinerziehender Frauen von geschätzten 3% bewirkt hat. Eissa und Liebman (1996) finden weiterhin signifikante positive Effekte auf die geleisteten Arbeitsstunden und Evidenz für Einkommensverbesserungen in dieser Gruppe. Die Studienergebnisse sind starke Evidenz, dass Maßnahmen wie der EITC effektiv dazu beitragen können, die Erwerbssituation in der Zielgruppe zu steigern und somit die wirtschafts- und sozialpolitische Ziele derartiger Programme realisierbar sind.
Im Jahr 1993 wurde das Programm erneut ausgweitet: Vor 1993 gab es lediglich eine Einkommensstufe für Familien mit Kindern. 1993 wurde eine zusätzliche Stufe für Familien mit zwei oder mehr Kindern eingeführt, die damit einen höheren maximalen Kreditbetrag erhalten konnten als Familien mit nur einem Kind. Dies führte zu einer größeren steuerlichen Entlastung armutsbedrohter Familien.
Adireksombat (2010) untersucht die Effekte der zweiten EITC-Ausweitung ebenfalls mit einem DID Ansatz und findet Evidenz für einen Anstieg der Arbeitbeteiligung von etwa 5% in der Zielgruppe alleinerziehender Frauen mit mindestens 2 Kindern.
Zur Illustration der empirischen Anwendung von DID mit R untersuchen wir Effekte der EITC-Ausweitung von 1993 nachfolgend anhand eines ähnlichen Datensatzes aus dem CPS wie in der Studie von Adireksombat (2010). Diese Daten umfassen jährliche sozio-ökonomische Merkmale für US-amerikanische Frauen im Zeitraum von 1991 bis 1996 und sind in der Datei eitc_data.csv
verfügbar.
Wir lesen zunächst den Datensatz ein.
Eine Übersicht des Datensatzes eitc_data
ist in Tabelle 9.1 dargestellt.
Variable | Beschreibung |
---|---|
state | ID-Code Bundesstaat |
year | Steuerjahr |
urate | Arbeitslosenquote im Bundesstaat (%) |
children | Anz. Kinder der Frau |
nonwhite | Dummy für nicht-weiße Frauen |
finc | Haushaltseinkommen im Steuerjahr (US-$) |
earn | Einkommen der Frau im Steuerjahr (US-$) |
age | Alter |
ed | Ausbildungsniveau der Frau (Jahre) |
work | Dummy für Berufstätigkeit |
unearn | = Haushaltseinkommen - Einkommen der Frau (Tsd. US-$) |
Wir erweitern das tibble
-Objekt zunächst um eine Dummy-Variable für Mütter (anykids
), sowie spezifischere Dummies für Frauen mit einem Kind (onechild
) oder mit zwei oder mehr Kindern (twomorekids
). Weiterhin erzeugen wir einen Indikator für Beobachtungen nach der EITC-Ausweitung im Jahr 1993 (after1993
).
Einen Überblick über den modifizierten Datensatz erhalten wir mit glimpse()
.
Die Plausibilität der Annahme paralleler Trends können wir graphisch anhand einer Gegenüberstellung der Beschäftigungsquote (avg.work = mean(work)
) für Frauen mit und ohne Kindern (anykids
) über die Zeit (year
) einschätzen. Wir gruppieren hierzu den Datensatz entsprechend und fassen die Outcome-Variable (work
) gruppenweise zusammen.
Die Abbildung zeigt, dass die Beschäftigungsquote für kinderlose Frauen deutlich oberhalb der Quote für Mütter verläuft. Die Trends vor der EITC-Ausweitung im Jahr 1993 sind sehr ähnlich, sodass eine parallele Entwicklung plausibel scheint.
9.4.1 Schätzungen des ATT mit linearen Modellen
Wir berechnen Zunächst den Behandlungseffekt der für Frauen mit Kindern relativ zu kinderlosen Frauen gemäß \(\eqref{eq:DIDMOMENTS}\), wobei wir jeweils sämtliche Perioden vor und nach der Behandlung einbeziehen. Dies führt zu den Ergebnissen in Tabelle 9.2, wobei \[\begin{align} \textcolor{orange}{\widehat\beta_\text{DID}} = (\textcolor{red}{B} - \textcolor{red}{A}) - (\textcolor{blue}{D} - \textcolor{blue}{C}) \end{align}\] der geschätzte Behandlungseffekt ist.
v. EITC-Ausweitung | n. EITC-Ausweitung | Differenz | |
---|---|---|---|
Kinder | \(\textcolor{red}{A = .446}\) | \(\textcolor{red}{B = .491}\) | \(\textcolor{red}{.045}\) |
k. Kinder | \(\textcolor{blue}{C = .575}\) | \(\textcolor{blue}{D = .573}\) | \(\textcolor{blue}{-.002}\) |
\(\textcolor{orange}{\widehat{\beta}_\text{DID}}\) | \(\textcolor{orange}{.047}\) |
eitc_data
: Stichprobenmittelwerte für work
Die nachfolgenden Code-Chunks zeigen die Schritte zur Berechnung von \(\widehat{\beta}_\text{DID}\) mit R.
Durch Iteration von summarise()
können wir diese Rechenschritte effizienter ausführen.
Wir erhalten also eine positive Schätzung des Behandlungseffekts. Die Interpretation ist, dass die Ausweitung des EITC im Jahr 1993 zu einem Anstieg der Erwerbsbeteiligung in der Gruppe der Frauen mit Kindern von durchschittlich \(4.69\%\) in den Folgeperioden geführt hat.
Für die Berechnung von Inferenzstatistiken bezüglich \(\beta_\text{DID}\) schätzen wir ein lineares Interaktionsmodell gemäß \(\eqref{eq:DIDREG}\),
\[\begin{align} \begin{split} \text{work}_{i,t} =&\, \beta_0 + \beta_1 \text{anykids}_{i,t} + \beta_2 \text{after1993}_t \\ +&\, \beta_3 (\text{anykids}_{i,t} \times \text{after1993}_t) + \epsilon_{i,t}. \end{split}\label{eq:eitcmod} \end{align}\]
Der geschätzte Koeffizient des Interkationsterms stimmt mit der händisch berechneten Schätzung überein.
Mit coeftest()
berechnen wir heteroskedastie-robuste Inferenzstatistiken.
Der Koeffizient des Interaktionsterms ist zum 1%-Niveau signifikant. fixest::feols()
liefert eine identische Schätzung.
Wir erweitern Modell \(\eqref{eq:eitcmod}\) nun um Fixed Effekts für den US-Bundesstaat sowie das Jahr,
\[\begin{align} \begin{split} \text{work}_{i,t} =&\, \theta_\text{Staat} + \eta_t \\ +&\, \beta_1 \text{anykids}_{i,t} + \beta_2 (\text{anykids}_{i,t} \times \text{after1993}_t) + \epsilon_{i,t}. \end{split}\label{eq:eitcmodfe} \end{align}\]
Anhand der Dummy-Variablen für Bundesstaaten (\(\theta_\text{Staat}\)) und Jahre (\(\eta_t\)) kontrollieren wir für unbeobachtete zeit-invariante Unterschiede zwischen den Bundesstaaten sowie für allgemeine zeitliche Trends und Schocks, die alle Bundesstaaten in einem bestimmten Jahr betreffen. Dies schließt etwaige Backdoor-Pfade durch den Einfluss spezifischer Eigenschaften der Bundesstaaten (Kultur, Geografie, langfristige politische Einstellungen, etc.) und gemeinsamer zeitlicher Einflüsse.
Die Schätzung des ATT bei Kontrolle für Zeit- und Bundesstaat-Effekte in \(\eqref{eq:eitcmodfe}\) unterscheidet sich nur geringfügig gegenüber dem Ergebnis für das Modell \(\eqref{eq:eitcmod}\). Beachte, dass der Behandlungseffekt auch bei geclusterten Standardfehlern auf Bundesstaaten-Ebene (| state + year
) signifikant ist.
Ein weiterer Vorteil von DID-Schätzungen mit Regression ist die Möglichkeit zur Kontrolle für individuen-spezifische Kovariablen, um Backdoors aufgrund systematischer Unterschiede zwischen Kontroll- und Behandlungsgruppen zu vermeiden.
Wir erweitern Modell \(\eqref{eq:eitcmodfec}\) um sozio-ökonomische Charakteristika der Frauen: Einen Dummy für nicht-weiße Frauen (nonwhite
), quadratische Terme in Alter (age
) und Ausbildungsniveau (ed
) sowie weitere Einkünfte des Haushalts (unearn
),
\[\begin{align} \begin{split} \text{work}_{i,t} =&\, \theta_\text{Staat} + \eta_t \\ +&\, \beta_1 \text{anykids}_{i,t} + \beta_2 (\text{anykids}_{i,t} \times \text{after1993}_t) \\ +&\, \beta_3 \text{unearn} + \beta_4 \text{nonwhite} \\ +&\, \beta_5 \text{age} + \beta_6 \text{age}^2 + \beta_7 \text{ed} + \beta_8 \text{ed}^2 \\ +&\, \epsilon_{i,t}. \end{split}\label{eq:eitcmodfec} \end{align}\]
Die Schätzung von \(\eqref{eq:eitcmodfec}\) ergibt mit \(0.056\) eine etwas größere Schätzung eines positiven signifikanten Effekt der EITC-Ausweitung auf die Erwerbsbeteiligung von Müttern.
Wie oben erläutert, führte die EITC-Ausweitung von 1993 unter anderem ein Stufensystem für die Höhe des EITC in Ahängigkeit der Kinder-Anzahl ein, sodass unterschiedlich starke Anreize zur Aufnahme einer Beschäftigung für Mütter mit nur einem Kind und mehreren Kindern plausibel sind. Anhand der Dummy-Variablen für (genau) ein Kind (onechild
) sowie zwei oder mehr Kinder (twomorekids
) können wir eine differenziertere Schätzung des Effekts hinsichtlich des Betreuungsaufwands erhalten. Hierzu modifizieren wir Modell \(\eqref{eq:eitcmodfec}\) entsprechend:
\[\begin{align} \begin{split} \text{work}_{i,t} =&\, \theta_\text{Staat} + \eta_t \\ +&\, \beta_1 \text{onechild}_{i,t} + \beta_2 (\text{onechild}_{i,t} \times \text{after1993}_t) \\ +&\, \beta_3 \text{twomorechild}_{i,t} + \beta_4 (\text{twomorechild}_{i,t} \times \text{after1993}_t) \\ +&\, \beta_5 \text{unearn} + \beta_6 \text{nonwhite} + \beta_7 \text{age} + \beta_8 \text{age}^2 + \beta_9 \text{ed} + \beta_{10} \text{ed}^2 \\ +&\, \epsilon_{i,t}. \end{split}\label{eq:eitcmodfecd} \end{align}\]
Die interessierenden geschätzten Koeffizienten von I(onechild * after1993)
und I(twomorekids * after1993)
sind \(0.041\) und \(0.065\). Auch hier sind die Koeffizienten signifikant von null verschieden. Der größere Koeffizient für den Effekt auf Mütter mit zwei oder mehr Kinder liefert Evidenz dafür, dass die Einführung der Zahlstufe für größere Familien im Rahmen der EITC-Ausweitung von 1993 tatsächlich einen etwas stärkeren Anreiz auf die Zielgruppe mit mehreren Kindern hatte.
9.4.2 Probit-Spezifikationen
In sämtlichen Modellen in Kapitel 9.4.1 haben wir \(\text{work}_{i,t}\) als kontinulierliche Variable behandelt und den bedingten Erwartungswert als lineare Funktion modelliert. Da \(\text{work}_{i,t}\) eine binäre Variable ist, haben wir damit implizit die bedingte Wahrscheinlichkeit der Erwerbsbeteiligung \(P(\text{work}_{i,t} = 1\vert \boldsymbol{x}_{i,t})\) modelliert. Wie in Kapitel 4.2.1 erläutert, kann ein solches lineares Wahrscheinlichkeitsmodell (LPM) einen nicht-linearen Verlauf der Wahrscheinlichkeitsfunktion \(P(\text{work}_{i,t} = 1\vert \boldsymbol{x}_{i,t})\) nicht exakt abbilden, wobei tatsächliche Behandlungseffekte unter- oder überschätzt werden können. In manchen Fällen können geschätzte Wahrscheinlichkeiten sogar außerhalb des Intervalls \([0,1]\) liegen. Statt eines LPM sollte ein generalisiertes lineares Modell (GLM) verwendet werden.
Wir modellieren nachfolgend den Effekt der EITC-Anpassung auf die Wahrscheinlichkeit einer Erwerbsbeteiligung von Müttern mit Probit-Regression. Anstatt stats::glm()
verwenden wir fixest::feglm()
.4 Analog zu fixest::feols()
erlaubt fixest::feglm()
die Schätzung von Probit-Regressionen mit Fixed Effekts. Partielle Effekte können mit dem Paket marginaleffects
berechnet werden. Wir schätzen zunächst eine Fixed-Effects-Probit-Regression analog zu \(\eqref{eq:eitcmodfe}\), d.h.
4 Eine weitere Option ist alpaca::feglm()
.
\[\begin{align} \begin{split} \Phi^{-1}\bigg[P(\text{work}_{i,t} = 1\vert \boldsymbol{x}_{i,t})\bigg] =&\, \eta_t + \theta_\text{Staat} + \beta_1 \text{anykids}_{i,t}\\ +&\, \beta_2 (\text{anykids}_{i,t} \times \text{after1993}_{i,t}).\\ \end{split} \end{align}\]
Für die Berechnung der partiellen Effekte mit marginaleffects::avg_slopes()
definieren wir die interargierten Regressoren direkt im Datensatz.
Die Struktur von feglm()
folgt dem selben Schema wie feols()
. Das zusätzliche Argument family = binomial("probit")
legt die entsprechende Link-Funktion fest.
Die Schätzung ergibt einen positiven Effekt für int_anykids
. Wie im linearen Modell ist der Koeffizient von int_anykids
signifikant. Beachte, dass dieser Koeffizient die geschätzte Änderung der latenten Variable des Probit-Modells misst und nicht direkt als Behandlungseffekt interpretiert werden darf. Stattdessen können wir mit marginaleffects::avg_slopes()
den durchschnittlichen partiellen Effekt des Interaktionsterms für Frauen in der Behandlungsgruppe für die Jahre 1994 bis 1996 berechnen. marginaleffects::datagrid()
setzt Variablen ohne spezifizierte Werte auf ihren Mittelwert (kontinuierlich) oder Modus (kategorisch). Der Modus von state
ist 93 (California).
Der geschätzte durchschnittliche partielle Effekt der EITC-Ausweitung für Mütter im Bundesstaat California für die Jahre 1994 bis 1996 ist eine Erhöhung der Wahrscheinlichkeit der Erwerbsbeteiligung um etwa \(4.57\%\).
Analog zu Modell \(\eqref{eq:eitcmodfecd}\) kontrollieren wir in einer weiteren Regression zusätzlich für sozio-ökonomische Charakteristika und differenzieren zwischen dem Effekt für Frauen mit einem Kind und Müttern mit zwei oder mehr Kindern anhand des Modells
\[\begin{align} \begin{split} \Phi^{-1}\bigg[P(\text{work}_{i,t} = 1)\bigg] =&\, \theta_\text{Staat} + \eta_t \\ +&\, \beta_1 \text{onechild}_{i,t} + \beta_2 (\text{onechild}_{i,t} \times \text{after1993}_t) \\ +&\, \beta_3 \text{twomorechild}_{i,t} + \beta_4 (\text{twomorechild}_{i,t} \times \text{after1993}_t) \\ +&\, \beta_5 \text{unearn} + \beta_6 \text{nonwhite} + \beta_7 \text{age} + \beta_8 \text{age}^2 + \beta_9 \text{ed} + \beta_{10} \text{ed}^2 \\ +&\, \epsilon_{i,t}. \end{split} \end{align}\]
Wir können nun zwei partielle Effekte berechnen: 1. für int_onechild
und 2. für int_twomore
. Hierzu setzten wir jeweils die übrigen Dummy-Variablen mit Bezug zur Anzahl der Kinder auf null. Weiterhin setzen wir nonwhite = 0
, d.h. wir betrachten den Effekt für weiße Frauen im Bundesstaat California, wobei die übrigen Regressoren den Wert der jeweiligen Stichprobenmittel haben.
Ähnlich wie in Modell \(\eqref{eq:eitcmodfecd}\) erhalten wir signifikante positive Schätzungen. Der durchschnittliche Effekt für int_twomore
ist mit einer Erhöhung der Wahrscheinlichkeit zur Aufnahme einer Beschäftigung von etwa \(6.16\%\) etwas höher als die \(4.11\%\) für int_onechild
.
9.5 Case Study: Effekt von Polizeipräsenz auf Autodiebstähle
Nach einem Terroranschlag auf das größte jüdische Gemeindezentrum in Buenos Aires am 18. Juli 1994 wurden sämtliche jüdische und muslimische Einrichtungen in der Stadt rund um die Uhr von der argentinischen Polizei geschützt. Somit führte dieses Ereignis zu einer geografischen quasi-experimentellen Allokation von Polizeikräften in Gegenden mit entsprechenden Einrichtungen. In einem Forschungsdesign, dass die lokale Straßenkriminalität Kriminalität erklären soll, kann die sich aus der Allokation ergebende Variation in der Polizeipräsenz als exogen angenommen werden. Di Tella und Schargrodsky (2004) nutzen diesen Umstand, um anhand von Polizeistatistiken und Daten zu Autodiebstählen in Buenos Aires vor und nach dem Terroranschlag den Effekt erhöhter Polizeipräsenz auf die Kriminalität in einem Difference-in-Differences-Ansatz zu untersuchen.5 Die Studienergebnisse deuten darauf hin, dass es einen starken abschreckenden Effekt von Polizeistreifen gibt, der sich nur in einem engen Umkreis um Häuserblocks in denen die Polizeipräsenz erhöht wurde, auswirkt.
5 Das Papier kann hier eingesehen werden.
In diesem Kapitel reproduzieren wir Kernergebnisse der Studie mit R. Die benötigten Daten sind auf der Webseite der American Economic Association verfügbar. Die Daten stammen aus drei nicht zusammenhängenden Stadtvierteln von Buenos Aires, die etwa \(3.2\%\) der Stadtfläche ausmachen und \(6.9\%\) der Bevölkerung beherbergen. In jedem dieser Stadtviertel befindet sich eine Polizeistation. Bei den untersuchten Stadtvierteln handelt es sich um die Viertel mit der größten Anzahl jüdischer Einrichtungen in der Stadt. Der Großteil der Häuserblocks in diesen Vierteln (insgesamt 876 Blocks) liegen nicht in der Nähe einer geschützten Einrichtung. Blocks die mehr als zwei Blocks von einer geschützten Einrichtung entfernt liegen, bilden die Kontrollgruppe.
Wir verwenden nachfolgend den modifizierten Datensatz polizeipraesenz.RDS
.6
6 Dieser Datensatz ist eine aus dem STATA-Format überführte Version und wurde für eine Vereinfachung der Analyse mit R formatiert.
Variable | Beschreibung |
---|---|
institut | Jüdische Einrichtung im Block |
barrio | Stadtviertel |
distanz | Entf. zu Block mit Einrichtung (in Blocks) |
monat | Monat der Beobachtung |
observ | ID-Variable für Block |
totrob | Diebstähle pro Monat (normalisiert) |
polizeipraesenz
: Autodiebstähle in Buenos Aires
9.5.1 Trends in der abhängigen Variable
Zur Einschätzung der Annahme paralleler Trends berechnen wir zunächst die Durschnittliche Anzahl an Autodiebstählen Blocks mit bzw. ohne jüdische Institutionen für die Monate April bis Dezember. Beachte, dass die Variable monat
zwei Ausprägungen für den Monat des Anschlags aufweist: Juli (1 - 17)
für die Juli-Tage vor dem Anschlag und für die verbleibenden Tage Juli (18 - 31)
.
Die in polizeipraesenz_Trends
erfasste Trendentwicklung für Blocks in der Behandlungsgruppe (institut == 1
) und in der Kontrollgruppe (institut == 0
) plotten wir mit ggplot2()
.
Die Grafik zeigt einen ähnlichen Verlauf der Trends für den Zeitraum unmittelbar vor dem Anschalg am 18. Juli.
Tabelle 2 in Di Tella und Schargrodsky (2004) präsentiert t-Tests für Unterschiede in der Mittleren Anzahl der Diebstähle pro Monat zwischen Blocks mit jüdischen Einrichtungen und verschiedenen distanz-basierten Untergruppen von Blocks ohne eine jüdische Einrichtungen für jede Periode. Zur Reproduktion dieser Ergebnisse erstellen zunächst eine Listen-Spalten für die beobachteten Diebstähle in Abhängigkeit der Distanz zum nächsten Block mit einer jüdischen Einrichtung.
-
d2more
Zwei oder mehr Blocks entfernt -
d2
: Zwei Blocks entfernt -
d1
: Ein Block entfernt -
same
: Jüdische Einrichtung im selben Block
Mit summarise()
können wir Stichprobenmittel und Standardabweichungen der Diebstähle in Blocks dieser Kategorien für alle Perioden berechnen. Anschließend kombinieren wir die Ergebnisse jeweils mit sprintf()
und formatieren das Ergebnis mit modelsummary::modelsummary_df()
.7 Der nächste Chunk erzeugt eine Tabelle mit den Spalten A bis D aus Tabelle 2 in Di Tella und Schargrodsky (2004).
7 "%.4f\n(%.4f)"
gibt das Format des resultierenden character
an: Mittelwerte und SDs (in Klammern), gerundet auf vier Nachkommastellen. \n
bewirkt einen Zeilenumbruch.
Der nächste Chunk reproduziert die Spalten E bis F von Tabelle 2 in Di Tella und Schargrodsky (2004). Die Einträge sind Mittelwertdifferenzen (Standardfehler in Klammern) zwischen den betrachteten Gruppen von Blocks sowie Ergebnisse für t-Tests (Signifikanz-Sternchen) der Hypothese, dass die jeweilige mittlere Anzahl an Autodiebstählen nicht verschieden ist.
Wir definieren zunächst eine Funktion format_ttest()
, die die gewünschen Statistiken aus einem mit t.test()
berechneten Objekte ausliest und entsprechend formatiert. Anschließend nutzen wir diese Funktion, um die Daten in dat_listcol
entsprechend der Definition in Di Tella und Schargrodsky (2004) für jeden Monat zusammenzufassen. Die Ergebnisse formatieren wir wieder mit datasummary_df()
.
Die obige Tabelle zeigt eine einschlägige Entwicklung der Differenzen über die Zeit: In den Monaten vor dem Anschlag (und der anschließenden Allokation von Polizeipräsenz) bestehen weder zwischen weit entfernten Blocks und solchen mit einer jüdischen Einrichtung (Spalte E) noch zwischen Blocks ohne eine Einrichtung (Spalten F und G) signifikante unterschiede in der Anzahl der Autodiebstähle. Nach der politischen Intervention ergibt sich ein anderes Bild: In Spalte (E) finden wir signifikante negative Differenzen. Dies ist Evidenz, dass die Kriminalität in besonders gut bewachten Blocks (Spalte B in der Tabelle mit deskriptiven Statistiken) in den Folgeperioden des Anschlags geringer war als in Blocks die, mehr als zwei Blocks von einer bewachteten Einrichtung entfernt sind (Spalte A in der Tabelle mit deskriptiven Statistiken). Mit Ausnahme einer Signifikanten Differenz im August 1994 finden wir keine Hinweise auf derartige Unterschiede zwischen Blocks in den Kontrollgruppen (Spalten F und G).
9.5.2 Two-Way-Fixed-Effects-Schätzungen
Di Tella und Schargrodsky (2004) betrachten (Sub-Modelle) der folgenden Regressionsspezifikation für die Schätzung des Effekts von Polizeipräsenz auf die Anzahl der Autodiebstähle.
\[\begin{align} \begin{split} \text{totrob}_{i,t} =&\, \text{monat}_t + \text{block}_i \\ + &\, \alpha_0 \text{same}_{i,t} + \alpha_1 \text{oneblock}_{i,t} \\ + &\, \alpha_2 \text{twoblocks}_{i,t} + \epsilon_{i,t} \end{split}\label{eq:ppbase} \end{align}\]
Hierbei sind \(\text{monat}_t\) und \(\text{block}_i\) Fixed Effekte für den Monat sowie den Block. Die übrigen Variablen sind für Beobachtungen ab dem Anschlag am 18. Juli 1994 und in Abhäbgigkeit der Distanz zur nächsten jüdischen Einrichtnug definiert:
\(\text{same}_{i,t}\): Dummy-Variable für jüdische Einrichtung im Block und Beobachtung nach dem 17. Juli 1994
\(\text{oneblock}_{i,t}\): Dummy-Variable für Blocks mit einem Block Entfernung zum nächsten Block mit einer jüdischen Einrichtung und Beobachtung nach dem 17. Juli 1994
\(\text{twoblocks}_{i,t}\): Dummy-Variable für Blocks mit einer Entfernung von zwei Blocks zum nächsten Block mit einer jüdischen Einrichtung und Beobachtung nach dem 17. Juli 1994
Im nächsten Code-Chunk definieren wir diese Variablen und, gemäß der Vorgehensweise in Di Tella und Schargrodsky (2004), entfernen Beobachtungen für den Zeitraum im Juli nach dem Anschlag (18.07.1994 bis 31.07.1994).
Die Kernergebnisse der Studie werden in Tabelle 3 im Paper präsentiert. Hier werden fünf Regressionen betrachtet:
-
Regression (A)
\[\begin{align} \begin{split} \text{totrob}_{i,t} =&\, \text{monat}_t + \text{block}_i \\ + &\, \alpha_0 \text{same}_{i,t} \\ + &\, \epsilon_{i,t} \end{split}\label{eq:ppbaseA} \end{align}\]
Modell \(\eqref{eq:ppbaseA}\) betrachtet lediglich die geographisch “engste” Definition des Behandlungseffekts: \(\alpha_0\) ist der ATT für Blocks mit einer jüdischen Einrichtung. Die Kontrollgruppe besteht aus sämtlichen Blocks ohne jüdische Einrichtung.
-
Regression (B)
\[\begin{align} \begin{split} \text{totrob}_{i,t} =&\, \text{monat}_t + \text{block}_i \\ + &\, \alpha_0 \text{same}_{i,t} \\ + &\, \alpha_1 \text{oneblock}_{i,t} \\ + &\, \epsilon_{i,t} \end{split}\label{eq:ppbaseB} \end{align}\]
Modell \(\eqref{eq:ppbaseB}\) erweitert die Behandlungsgruppe um Blocks, die genau einen Block von einem Block mit erhötem Polizeischutz entfernt sind. Die Kontrollgruppe besteht aus Blocks mit einer Entfernung von zwei oder mehr Blocks bis zur nächsten jüdischen Einrichtung.
-
Regression (C)
\[\begin{align} \begin{split} \text{totrob}_{i,t} =&\, \text{monat}_t + \text{block}_i \\ + &\, \alpha_0 \text{same}_{i,t} \\ + &\, \alpha_1 \text{oneblock}_{i,t} \\ + &\, \alpha_1 \text{twoblocks}_{i,t} \\ + &\, \epsilon_{i,t} \end{split}\label{eq:ppbaseC} \end{align}\]
Modell \(\eqref{eq:ppbaseC}\) betrachtet zusätzlich den Behandlungseffekt in Blocks mit zwei Blocks entfernung zu einem Block mir erhöhter Polizeipräsenz. Die Kontrollgruppe besteht aus Blocks mit einer Entfernung von mehr als zwei Blocks bis zur nächsten jüdischen Einrichtung.
-
Regression (D) – Querschnitts-Variation
Da Di Tella und Schargrodsky (2004) eine große Ähnlichkeit hinsichtlich demografischer Merkmale und Autodiebstahlsraten vor der Intervention in Gebieten mit und ohne jüdische Einrichtungen beobachten, betrachten sie auch einen einfachen Querschnittsschätzer. Regression (D) nutzt die Spezifikation \(\eqref{eq:ppbaseC}\), aber berücksichtigt nur Beobachtungen für den Zeitraum nach dem Anschlag (August bis Dezember) und nutzt lediglich Fixed Effekts für die Monate.
-
Regression (E) – Zeitreihen-Variation
Regression (E) ist eine alternative Spezifikation zu \(\eqref{eq:ppbaseC}\) bei der lediglich die zeitliche Variation in der Behandlungsgruppe (Entfernung zur nächsten Einrichtung \(\leq\) zwei Blocks) genutzt wird. Hierzu werden Fixed Effekts nur für die Blocks, jedoch nicht für die Monate berechnet.
Wie implementieren nachfolgend die Regressionen (A) bis (E) mit fixest::feols()
unter Verwendung heteroskedastie-robuster Standardfehler (vcov = "HC1"
). Alle Regressionen nutzen den oben definierten Datensatz dat_DID
, wobei wir für die Schätzungen in (D) und (E) mit filter()
die entsprechenden Subsets auswählen.
Zur Reproduktion von Tabelle 3 in Di Tella und Schargrodsky (2004) sammeln wir die geschätzten Modelle und erzeugen einen tabelarrische Zusammenfassung mit modelsummary::modelsummary()
. Über das Argument gof_omit = "^(?!(R2|Num.Obs.|FE.*)$).*"
wählen wir unter den Goodness-of-Fit-Statistiken \(R^2\), die Anzahl der Beobachtungen, sowie Indikatoren für die verwendeten Fixed Effekts mit einem Regular Expression aus.8
8 Der Ausdruck ^(?!(R2|Num.Obs.|FE.*)$).*
matcht jede Zeichenkette, außer sie ist “R2”, “Num.Obs.” oder beginnt mit “FE”. Andere Statistiken als diese Matches werden also in der Tabelle ausgelassen.
Der Koeffizient von same
ist jeweils in den Regressionen (3A), (3B) und (3C) negativ und hoch-signifikant. Die Stärke des geschätzten Effekts (und der Standardfehler) unterscheidet sich kaum zwischen den Modellen. Weiterhin sind die Koeffizienten von oneblock
und twoblocks
jeweils nicht signifikant von null verschieden. Die Interpretation dieser Ergebnisse ist, dass es einen lokal-beschränkten Effekt der erhöhten Polizeipräsenz auf Autodiebstähle in Blocks mit Polizeischutz gab: Die Polizeipräsenz verringerte die durchschnittliche Anzahl der Diebstähle in diesen Blocks um etwa \(.08\) Diebstähle pro Monat.
Die Ergebnisse für die Modelle (3D) und (3E) zeigen ebenfalls signifikante negative Effekte des Polizeischutz anhand von Querschnitts- und Zeitreihenvariation und untermauern damit die Robustheit des gewählten Forschungsdesigns.
Zur besseren Interpretation des geschätzten Effekts in Modell (C) vergleichen wir mit der durchschnittlichen Anzahl der Diebstähle pro Monat in der Kontrollgruppe (Blocks mit einer Entfernung von mehr als zwei Blocks zum nächsten geschützten Block) für den Zeitraum von August 1994 bis Dezember 1994:9
9 Wir berechnen also \(\widehat{\alpha}_0 / \overline{\text{Diebstahlrate}} \cdot 100\).
Die Rechnung zeigt, dass es in dem betrachten Zeitraum durch die Behandlung mit zusätzlicher Polizeipräsenz zu einem Rückgang der Anzahl an Autodiebstählen um durchschnittlich \(75\%\) in Blocks mit jüdischen Einrichtungen kam.
9.5.3 Placebo-Tests
Placebo-Tests sind nützlich, um zu überprüfen, ob der geschätzte Zusammenhang zwischen der Erhöhung der Polizeipräsenz und der Verringerung der Kriminalität tatsächlich kausal ist oder ob andere Faktoren eine Rolle spielen. Ein möglicher Einfluss könnte beispielsweise durch zufällige temporäre Schwankungen in den Kriminalitätsraten entstehen. Di Tella und Schargrodsky (2004) wiederholen hierzu die Analyse anhand der Spezifikationen (3A), (3B) und (3C) für fiktive Interventionszeitpunkte vor dem Anschlag. Hierbei werden Ende April (4A), Ende Mai (4B) und Ende Juni (4C) als fiktive Zeitpunkte für die Placebo-Behandlung gewählt. Wenn diese Placebo-Tests ähnliche Ergebnisse (signifikante negative Schätzungen) wie die ursprüngliche Untersuchung liefern, könnte dies darauf hindeuten, dass die in Kapitel 9.5.2 geschätzten Effekte nicht kausal sind.
Wir replizieren diese Ergebnisse, indem wir die Schätzungen von (3A), (3B) und (3C) mit entsprechender Definition des Behandlungsindikators (group
) jeweils für modifizierte Datensätze mit sämtlichen \(3504\) Beobachtungen vor dem Anschlag (filter(monat <= "Juli (1 - 17)")
) wiederholen.
Die Ergebnisse für die Placebotest-Regression (4A) bis (4C) stützen die kausale Interpretation der Regressionen in @#sec-ditellaTWFE: Für keinen der fiktiven Zeitpunkte einer Intervention vor dem tatsächlichen Anschlag im Juli 1994 finden wir signifikante Unterschiede in der beobachteten Diebstahlrate zwischen Blocks mit einer jüdischen Einrichtung und Blocks ohne eine solche Einrichtung.
9.5.4 Weitere Robustness-Checks
Di Tella und Schargrodsky (2004) betrachten weitere Robustness-Checks. Die Autoren merken zunächst an, dass (positive) Korrelation innerhalb der Block-spezifischen Fehlerterme über die Zeit (und zwischen den Blocks eines Viertels) zu einer Unterschätzung der Unsicherheit der Treatment-Effekt-Schätzer in den DID-Regressionen mit herkömmlichen Standardfehler-Formeln führen kann. In DID-Designs kann dieses Problem durch die Korrelation der Behandlung über die Zeit noch verstärkt werden. Daher werden alternative Spezifikationen betrachtet, um die Robustheit der Interenzstatistiken in #sec-ditellaTWFE hinsichtlich Korrelation in den Fehlerterme zu überprüfen. Dies geschieht in den Regressionen (5A) bis (5C). Weitere Modelle kontrollieren für Stadtviertel-spezifische Effekte (5D), verwenden eine um Blocks ohne gemeldete Diebstähle reduzierten Datensatz (5E) und nutzen eine Poisson-Spezifikation. Wir fassen diese Ansätze kurz zusammen:
Regression (5A): Entfernen der Zeitvariation von \(\textit{totrob}_{i,t}\) innerhalb der Blocks durch Verwendung von Durchschnittswerten für die Monate vor und nach dem Anschlag. Regression dieser Durchschnittswerte auf die Behandlungsvariablen, wie in \(\eqref{eq:ppbaseC}\).
Regression (5B): Schätzung der Spezifikation \(\eqref{eq:ppbaseC}\) und Berechnung von Inferenzstatistiken mit cluster-robusten Standardfehlern (Clustering auf Block-Ebene).
Regression (5C): Um in Regression \(\eqref{eq:ppbaseC}\) möglicher Korrelation zwischen den Blocks innerhalb eines Standviertel und Korrelation Stadtviertel-spezifischer Schocks über die Zeit zu begegnen, clustern Di Tella und Schargrodsky (2004) Standardfehler auf Stadtviertel-Monats-Ebene.
Regression (5D): Diese Regression ersetzt in \(\eqref{eq:ppbaseC}\) die Fixed Effects für die Monate durch Stadtviertel-spezifische Zeit-Effekte (anhand von Indikatorvariablen zur Berechenung der geclusterten Standardfehler in 5C). Wenn keine Stadtviertel-spezifischen Einflüsse vorliegen, sollten die geschätzten Koeffizienten mit denen für das Modell \(\eqref{eq:ppbaseC}\) vergleichbar sein.
Regresion (5E): Regression \(\eqref{eq:ppbaseC}\) ohne Blocks in denen keine Diebstähle im Beobachtungszeitraum erfasst wurden. Auslassen dieser Beobachtungen sollte die Signifikanz des ATT-Schätzer nicht beeinflussen, jedoch zu einem stärkeren (negativen) Effekt führen, da die Kontrollgruppe dann ausschließlich aus Blocks mit gemeldeten Auto-Diebstählen besteht.
-
Regresion (5F): Die Daten erfassen das Aufkommen von Ereignissen (Diebstähle) innerhalb eines bestimmten Raum-Zeitbezugs (pro Block und Monat) beschreiben. Solche Daten können mit Modellen für Zählvariablen beschrieben werden. Di Tella und Schargrodsky (2004) schätzen eine Poisson-Regression. Hierbei wird der (log) Poisson-Parameter \(\lambda_{i,t}\) (die Inzidenzrate) durch die lineare Funktion in \(\eqref{eq:ppbaseC}\) modelliert, d.h.
\[\begin{align} \begin{split} \log(\lambda_{i,t}) =&\, \text{monat}_t + \text{block}_i \\ + &\, \alpha_0 \text{same}_{i,t} \\ + &\, \alpha_1 \text{oneblock}_{i,t} \\ + &\, \alpha_1 \text{twoblocks}_{i,t} \\ + &\, \epsilon_{i,t}. \end{split}\label{eq:pppois} \end{align}\]
Eine Schätzung des Behandlungseffekts anhand von Poisson-Regression sollte zu ähnlichen Schlussfolgerungen führen, wie die lineare Regression \(\eqref{eq:ppbaseC}\).
Für die Reproduktion der Robustness-Checks mit R erweitern wir dat_DID
um eine Indikatorvariable für den Zeitraum vor dem Anschlag (pre
) und eine kategorische Variable für Stadtviertel-Monat-Effekte mbc
.
Die Spezifikationen (5A) bis (5E) implementieren wir wie zuvor mit fixest::feols()
unter Anpassung des Datensatzes, sofern relevant. Für cluster-robuste Standardfehler kann das Argument vcov = ~ cluster
gesetzt werden, wobei cluster
die Für das Clustering zu verwendende Gruppierung der Datenpunkte ist. Die Poisson-Spezifikation \(\eqref{eq:pppois}\) in (5F) schätzen wir mit fixest::feglm()
.10
10 Der R-Befehl hierfür ist ähnlich wie für die Probit-Regressionen in Kapitel 9.4.2. Siehe Kapitel 4.3 für eine Einführung in Poisson-Regression.
Anhand der Ergebnisse in dieser Tabelle finden wir weitere Evidenz für die Robustheit der DID-Schätzung (3C) in Kapitel 9.5.2:
Die Schlussfolgerungen anhand der Inferenzstatistiken sind nicht sensibel gegenüber den unterschiedlichen Spezifikationen für die Berechnung der Standardfehler in (5A) bis (5C).
Die Alternative Spezifikation von Fixed Effects für Kombination von Stadtviertel und Monat (
mbc
) in (5D) beeinflusst den Koeffizientenschätzer vonsame
nur marginal. Auch hier ist der geschätzte ATT signifikant.Wie erwartet führt die Verkleinerung der Kontrollgruppe auf Blocks mit gemeldeten Diebstählen in (5E) zu einer größeren Schätzung des Effekts. Der Effekt bleibt signifikant.
In der Poisson-Regression in (5F) finden wir ebenfalls einen signifikanten Effekt von
same
. Beachte das dieser Koeffizient den multiplikativen Einfluss von Polizeipräsenz auf die Inzidenzrate (durchschnittliche Anzahl an Diebstählen pro Monat pro Block) angibt. Die Interpretation des Schätzwerts von etwa \(0.3\) bedeutet also eine Reduktion der Inzidenz um eta \(70\%\) in Blocks mit erhöhter Polizeipräsenz gegenüber der Kontrollgruppe (Blocks mit mehr als zwei Blocks Entfernung zur nächsten jüdischen Einrichtung). Diese Schätzung stimmt also gut überein mit unserer Interpretation der Ergebnisse in Kapitel 9.5.2.
9.6 Zusammenfassung
Der DID-Schätzer liefert uns eine Schätzung des ATT, indem er die Veränderung der Ergebnisse in der Behandlungsgruppe vor und nach der Intervention mit der entsprechenden Veränderung in der Kontrollgruppe vergleicht. Die Annahme paralleler Trends ist entscheidend: Nur wenn diese Annahme gilt, können wir sicher sein, dass die Differenz in den Differenzen tatsächlich den kausalen Effekt der Behandlung widerspiegelt und nicht durch andere zeitgleiche Faktoren beeinflusst wird.
Zusammenfassend bietet der DID-Ansatz im Potential Outcomes Framework eine robuste Methode zur Schätzung kausaler Effekte, insbesondere wenn randomisierte Experimente nicht durchführbar sind. Durch den Vergleich von Zeitverläufen in Behandlungs- und Kontrollgruppen unter der Annahme paralleler Trends können wir verlässliche Schätzungen des ATT erhalten.