Kausale Inferenz im Marketing: Über Korrelation hinaus mit Propensity Scores und Instrumentalvariablen
Einleitung: Warum Korrelation nicht genug ist
Einer der häufigsten Fehler, die ich in Marketing Analytics sehe, ist die Verwechslung von Korrelation mit Kausalität. Eine Kampagne läuft. Verkäufe steigen. Die natürliche Annahme ist, dass die Kampagne das Wachstum verursacht hat. Aber oft stimmt das nicht. Das Timing überlappt, aber die Ursache kann etwas ganz anderes sein. Und wenn du auf Basis falscher Annahmen optimierst, riskierst du Budget zu verschwenden, Credit falsch zuzuordnen und Strategie auf Sand zu bauen.
Wenn A/B Testing möglich ist, wird dieses Problem handhabbar. Aber viele Business Fragen können nicht experimentell getestet werden, aus legalen, operativen oder ethischen Gründen. Hier kommt kausale Inferenz ins Spiel. Kausale Inferenz gibt uns mathematische und statistische Tools, um zu schätzen, was passiert wäre, wenn wir etwas anders gemacht hätten. Sie erlaubt uns, Signal von Noise zu trennen und den echten Effekt zu messen, nicht nur Assoziation.
Dieser Artikel führt durch, wie ich Techniken wie Propensity Score Matching, Instrumentalvariablen und graphische Modelle (DAGs) nutze, um kausalen Impact in echter Marketing Arbeit zu schätzen.
Das kausale Problem: Was wir wissen wollen
Angenommen, ich führe eine Loyalty Email Kampagne an eine Gruppe bestehender Kunden durch. Am Ende der Woche gibt diese Gruppe mehr aus als die Gruppe, die die Email nicht bekommen hat. Aber war es die Email, die den Unterschied gemacht hat?
Vielleicht waren die aktiveren Kunden von vornherein wahrscheinlicher, die Email zu bekommen. Vielleicht haben sie sowieso vorgehabt zu kaufen. Vielleicht hat die Email sie angestupst, oder vielleicht hat sie nichts bewirkt. Der Unterschied in den Ausgaben könnte an zugrundeliegenden Unterschieden im Kundentyp liegen.
Das ist die fundamentale Frage der potentiellen Outcomes. Was wir schätzen wollen, ist:
Wobei:
- das Outcome ist, wenn behandelt (z.B. Email bekommen)
- das Outcome ist, wenn nicht behandelt
- den Erwartungswert bezeichnet
Wir können eines davon für jedes Individuum beobachten, aber nie beide. Das ist das fundamentale Problem der kausalen Inferenz. Wir müssen das Kontrafaktische schätzen.
Rubin Causal Model: Das formale Framework
Das Rubin Causal Model bietet einen formalen Weg, darüber nachzudenken. Jede Einheit (z.B. Kunde) hat zwei potentielle Outcomes: eines unter Behandlung, eines unter Kontrolle. Der Treatment Effekt ist die Differenz, aber wir sehen nur ein Outcome pro Einheit.
Wenn die Behandlung zufällig ist, ist der durchschnittliche Treatment Effekt (ATE) einfach zu schätzen. Aber im Marketing ist Treatment selten zufällig. Kunden selektieren sich selbst, oder Marketer targeten basierend auf Verhalten. Also müssen wir diese nicht zufällige Zuweisung berücksichtigen.
Propensity Score Matching: Die Kovariaten balancieren
Eine Lösung ist, die Selektionswahrscheinlichkeit mit beobachtbaren Charakteristiken zu modellieren. Das ist bekannt als der Propensity Score.
Wir definieren:
Wobei:
- die Treatment Zuweisung ist (1 wenn behandelt, 0 wenn Kontrolle)
- der Vektor beobachteter Kovariaten ist (z.B. Frequenz, Ausgaben, Geographie)
- die geschätzte Wahrscheinlichkeit ist, behandelt zu werden
Ich schätze das mit logistischer Regression oder Machine Learning Modellen. Dann matche ich behandelte und unbehandelte Einheiten mit ähnlichen Propensity Scores. Das balanciert die Verteilung der Kovariaten über die Gruppen.
Ich check normalerweise die Balance vor und nach dem Matching, indem ich auf standardisierte Mittelwertdifferenzen schau. Eine gut gematchte Stichprobe sollte einem randomisierten Trial ähneln.
Der Treatment Effekt wird dann geschätzt als:
Wobei und Outcomes gematchter Paare sind.
Praktisches Beispiel: eCommerce Email Kampagne
Für eine DTC Fashion Brand musste ich den echten Effekt einer Personalisierungs Email Kampagne messen. Die Rohdaten zeigten einen 22% Lift in Conversion für Email Empfänger. Aber Empfänger waren vorselektiert basierend auf vergangener Engagement.
| Gruppe | Roh Conversion | Nach PSM Matching |
|---|---|---|
| Email bekommen | 8,4% | 6,1% |
| Keine Email | 5,2% | 5,3% |
| Scheinbarer Lift | +61% | +15% |
Nach Propensity Score Matching war der echte Lift näher an 15%. Immer noch signifikant, aber der Rohvergleich hat den Effekt massiv überschätzt.
Instrumentalvariablen: Wenn Selection Bias versteckt ist
Manchmal reichen beobachtbare Kovariaten nicht aus. Was, wenn der Grund für die Behandlung auf etwas Unbeobachtbarem basiert (wie Motivation oder Absicht)? Das bricht den Matching Ansatz. In dem Fall such ich nach einer Instrumentalvariable (IV).
Eine IV ist eine Variable , die Treatment Zuweisung beeinflusst, aber keinen direkten Effekt auf das Outcome hat, außer durch .
Zum Beispiel, angenommen manche Kunden bekommen eine Promo Email nur, weil ihr Standort eine andere Email Versandzeit hat. Standort wird zum Instrument: es sagt Treatment vorher, sollte aber Kauf nicht direkt beeinflussen.
Ich nutze Two Stage Least Squares (2SLS):
- Regrediere auf : schätze vorhergesagtes Treatment
- Regrediere auf : schätze Treatment Effekt nur mit der Variation, die durch verursacht wird
Das isoliert den exogenen Teil des Treatments, den Teil, der nicht durch Selection Bias getrieben wird.
Praktisches Beispiel: SaaS Onboarding
Für einen SaaS Kunden hatten User, die das Onboarding abgeschlossen haben, höhere Retention. Aber war es, weil Onboarding funktioniert hat, oder weil motivierte User es abgeschlossen haben?
Ich hab Server Queue Timing als Instrument verwendet. Manche User haben Onboarding Prompts früher bekommen wegen Infrastruktur Timing, unabhängig von ihrer Absicht. Das hat enthüllt, dass der echte kausale Lift vom Onboarding etwa halb so hoch war wie der Rohvergleich suggeriert hat.
DAGs und graphisches Denken
Um diese Beziehungen zu verstehen, nutze ich Directed Acyclic Graphs (DAGs). Das sind visuelle Karten, wie Variablen zusammenhängen.
- Pfeile repräsentieren kausale Beziehungen
- Knoten repräsentieren Variablen
- Keine Zyklen erlaubt
Ich nutze DAGs um zu entscheiden, wofür kontrolliert werden soll, was instrumentiert werden soll, und wo Bias reinkommen könnte. Ich nutze Software wie dagitty.net um bedingte Unabhängigkeiten zu erkunden.
Die drei Schlüsselfragen, die DAGs beantworten
| Frage | Was sie enthüllt |
|---|---|
| Wofür soll ich kontrollieren? | Confounder, die sowohl Treatment als auch Outcome beeinflussen |
| Wofür soll ich NICHT kontrollieren? | Mediatoren oder Collider, die Bias einführen |
| Was könnte ein Instrument sein? | Variablen, die Treatment beeinflussen aber nicht Outcome direkt |
Warum das für Growth Strategie wichtig ist
Wenn du Erfolg der falschen Taktik zuschreibst, wirst du auf das Falsche verdoppeln. Wenn du einen Channel untermisst, weil er sich mit anderer Aktivität überlappt, könntest du dein best performendes Asset cutten.
Kausale Inferenz hilft dir:
- Budget und Ressourcen zu rechtfertigen
- Smartere Interventionen zu designen
- Genauer zu forecasten
- False Positives zu vermeiden
Es ist nicht einfach. Aber es ist es wert. Ich nutze diese Techniken nicht um Analysten zu beeindrucken, sondern um Businesses zu helfen, bessere Wetten zu machen.
Abschließender Gedanke: Über Korrelation hinausgehen
Wenn deine Analytics große Zahlen zeigen, aber du nicht sicher bist, warum sie sich bewegen, ist es vielleicht Zeit, über Korrelation hinauszugehen.
Ich kann dir dabei helfen, ein Kontrafaktisches nach dem anderen.