Kausale Inferenz im Marketing: Über Korrelation hinaus mit Propensity Scores und Instrumentalvariablen

Einleitung: Warum Korrelation nicht genug ist

Einer der häufigsten Fehler, die ich in Marketing Analytics sehe, ist die Verwechslung von Korrelation mit Kausalität. Eine Kampagne läuft. Verkäufe steigen. Die natürliche Annahme ist, dass die Kampagne das Wachstum verursacht hat. Aber oft stimmt das nicht. Das Timing überlappt, aber die Ursache kann etwas ganz anderes sein. Und wenn du auf Basis falscher Annahmen optimierst, riskierst du Budget zu verschwenden, Credit falsch zuzuordnen und Strategie auf Sand zu bauen.

Wenn A/B Testing möglich ist, wird dieses Problem handhabbar. Aber viele Business Fragen können nicht experimentell getestet werden, aus legalen, operativen oder ethischen Gründen. Hier kommt kausale Inferenz ins Spiel. Kausale Inferenz gibt uns mathematische und statistische Tools, um zu schätzen, was passiert wäre, wenn wir etwas anders gemacht hätten. Sie erlaubt uns, Signal von Noise zu trennen und den echten Effekt zu messen, nicht nur Assoziation.

Dieser Artikel führt durch, wie ich Techniken wie Propensity Score Matching, Instrumentalvariablen und graphische Modelle (DAGs) nutze, um kausalen Impact in echter Marketing Arbeit zu schätzen.

Das kausale Problem: Was wir wissen wollen

Angenommen, ich führe eine Loyalty Email Kampagne an eine Gruppe bestehender Kunden durch. Am Ende der Woche gibt diese Gruppe mehr aus als die Gruppe, die die Email nicht bekommen hat. Aber war es die Email, die den Unterschied gemacht hat?

Vielleicht waren die aktiveren Kunden von vornherein wahrscheinlicher, die Email zu bekommen. Vielleicht haben sie sowieso vorgehabt zu kaufen. Vielleicht hat die Email sie angestupst, oder vielleicht hat sie nichts bewirkt. Der Unterschied in den Ausgaben könnte an zugrundeliegenden Unterschieden im Kundentyp liegen.

Das ist die fundamentale Frage der potentiellen Outcomes. Was wir schätzen wollen, ist:

\text{ATE} = E[Y(1)] - E[Y(0)]

Wobei:

$Y(1)$ das Outcome ist, wenn behandelt (z.B. Email bekommen)
$Y(0)$ das Outcome ist, wenn nicht behandelt
$E[\cdot]$ den Erwartungswert bezeichnet

Wir können eines davon für jedes Individuum beobachten, aber nie beide. Das ist das fundamentale Problem der kausalen Inferenz. Wir müssen das Kontrafaktische schätzen.

Rubin Causal Model: Das formale Framework

Das Rubin Causal Model bietet einen formalen Weg, darüber nachzudenken. Jede Einheit (z.B. Kunde) hat zwei potentielle Outcomes: eines unter Behandlung, eines unter Kontrolle. Der Treatment Effekt ist die Differenz, aber wir sehen nur ein Outcome pro Einheit.

Wenn die Behandlung zufällig ist, ist der durchschnittliche Treatment Effekt (ATE) einfach zu schätzen. Aber im Marketing ist Treatment selten zufällig. Kunden selektieren sich selbst, oder Marketer targeten basierend auf Verhalten. Also müssen wir diese nicht zufällige Zuweisung berücksichtigen.

Propensity Score Matching: Die Kovariaten balancieren

Eine Lösung ist, die Selektionswahrscheinlichkeit mit beobachtbaren Charakteristiken zu modellieren. Das ist bekannt als der Propensity Score.

Wir definieren:

e(x) = P(T = 1 \mid X = x)

Wobei:

$T$ die Treatment Zuweisung ist (1 wenn behandelt, 0 wenn Kontrolle)
$X$ der Vektor beobachteter Kovariaten ist (z.B. Frequenz, Ausgaben, Geographie)
$e(x)$ die geschätzte Wahrscheinlichkeit ist, behandelt zu werden

Ich schätze das mit logistischer Regression oder Machine Learning Modellen. Dann matche ich behandelte und unbehandelte Einheiten mit ähnlichen Propensity Scores. Das balanciert die Verteilung der Kovariaten über die Gruppen.

Ich check normalerweise die Balance vor und nach dem Matching, indem ich auf standardisierte Mittelwertdifferenzen schau. Eine gut gematchte Stichprobe sollte einem randomisierten Trial ähneln.

Der Treatment Effekt wird dann geschätzt als:

\hat{\text{ATE}} = \frac{1}{n} \sum_{i=1}^{n} (Y_i^T - Y_i^C)

Wobei $Y_i^T$ und $Y_i^C$ Outcomes gematchter Paare sind.

Praktisches Beispiel: eCommerce Email Kampagne

Für eine DTC Fashion Brand musste ich den echten Effekt einer Personalisierungs Email Kampagne messen. Die Rohdaten zeigten einen 22% Lift in Conversion für Email Empfänger. Aber Empfänger waren vorselektiert basierend auf vergangener Engagement.

Gruppe	Roh Conversion	Nach PSM Matching
Email bekommen	8,4%	6,1%
Keine Email	5,2%	5,3%
Scheinbarer Lift	+61%	+15%

Nach Propensity Score Matching war der echte Lift näher an 15%. Immer noch signifikant, aber der Rohvergleich hat den Effekt massiv überschätzt.

Instrumentalvariablen: Wenn Selection Bias versteckt ist

Manchmal reichen beobachtbare Kovariaten nicht aus. Was, wenn der Grund für die Behandlung auf etwas Unbeobachtbarem basiert (wie Motivation oder Absicht)? Das bricht den Matching Ansatz. In dem Fall such ich nach einer Instrumentalvariable (IV).

Eine IV ist eine Variable $Z$ , die Treatment Zuweisung $T$ beeinflusst, aber keinen direkten Effekt auf das Outcome $Y$ hat, außer durch $T$ .

Zum Beispiel, angenommen manche Kunden bekommen eine Promo Email nur, weil ihr Standort eine andere Email Versandzeit hat. Standort wird zum Instrument: es sagt Treatment vorher, sollte aber Kauf nicht direkt beeinflussen.

Ich nutze Two Stage Least Squares (2SLS):

Regrediere $T$ auf $Z$ : schätze vorhergesagtes Treatment $\hat{T}$
Regrediere $Y$ auf $\hat{T}$ : schätze Treatment Effekt nur mit der Variation, die durch $Z$ verursacht wird

Das isoliert den exogenen Teil des Treatments, den Teil, der nicht durch Selection Bias getrieben wird.

Praktisches Beispiel: SaaS Onboarding

Für einen SaaS Kunden hatten User, die das Onboarding abgeschlossen haben, höhere Retention. Aber war es, weil Onboarding funktioniert hat, oder weil motivierte User es abgeschlossen haben?

Ich hab Server Queue Timing als Instrument verwendet. Manche User haben Onboarding Prompts früher bekommen wegen Infrastruktur Timing, unabhängig von ihrer Absicht. Das hat enthüllt, dass der echte kausale Lift vom Onboarding etwa halb so hoch war wie der Rohvergleich suggeriert hat.

DAGs und graphisches Denken

Um diese Beziehungen zu verstehen, nutze ich Directed Acyclic Graphs (DAGs). Das sind visuelle Karten, wie Variablen zusammenhängen.

Pfeile repräsentieren kausale Beziehungen
Knoten repräsentieren Variablen
Keine Zyklen erlaubt

Ich nutze DAGs um zu entscheiden, wofür kontrolliert werden soll, was instrumentiert werden soll, und wo Bias reinkommen könnte. Ich nutze Software wie dagitty.net um bedingte Unabhängigkeiten zu erkunden.

Die drei Schlüsselfragen, die DAGs beantworten

Frage	Was sie enthüllt
Wofür soll ich kontrollieren?	Confounder, die sowohl Treatment als auch Outcome beeinflussen
Wofür soll ich NICHT kontrollieren?	Mediatoren oder Collider, die Bias einführen
Was könnte ein Instrument sein?	Variablen, die Treatment beeinflussen aber nicht Outcome direkt

Warum das für Growth Strategie wichtig ist

Wenn du Erfolg der falschen Taktik zuschreibst, wirst du auf das Falsche verdoppeln. Wenn du einen Channel untermisst, weil er sich mit anderer Aktivität überlappt, könntest du dein best performendes Asset cutten.

Kausale Inferenz hilft dir:

Budget und Ressourcen zu rechtfertigen
Smartere Interventionen zu designen
Genauer zu forecasten
False Positives zu vermeiden

Es ist nicht einfach. Aber es ist es wert. Ich nutze diese Techniken nicht um Analysten zu beeindrucken, sondern um Businesses zu helfen, bessere Wetten zu machen.

Abschließender Gedanke: Über Korrelation hinausgehen

Wenn deine Analytics große Zahlen zeigen, aber du nicht sicher bist, warum sie sich bewegen, ist es vielleicht Zeit, über Korrelation hinauszugehen.

Ich kann dir dabei helfen, ein Kontrafaktisches nach dem anderen.