Erkenntnisse aus Daten gewinnen
Media-Entscheidungen werden zunehmend datenbasiert getroffen. Ökonometrisches Modelling ist dabei eine Möglichkeit, die Treiber für mehr Effektivität und Effizienz zu identifizieren. Die Projekte stellen Unternehmen in der Praxis aber vor Herausforderungen.
Heute stehen einem Unternehmen mehr Daten als je zuvor zur Verfügung. Über Scanner-Kassen wird jeder Kaufakt erfasst, jeder Kontakt mit einem Werbemittel im Internet wird gemessen. Darüber hinaus gibt es Daten, die Aufschlüsse über Preise sowie über Marketingaktivitäten wie Promotions und Werbung geben. Hinzu kommen weitere Daten, die Informationen zur Entwicklung der Branche, der Konjunktur oder zu saisonalen Faktoren abbilden. All diese Daten können entscheidende Informationen beinhalten, mit denen es m glich ist, Rückschlüsse auf das Verhalten der Konsumenten zu ziehen, das Verhalten bei veränderten Rahmenparametern zu simulieren oder die Entwicklung der Absätze zu prognostizieren.
Ein Verfahren, das es erlaubt, Einflüsse sowohl aus der Online- als auch aus der Offline-Welt zu berücksichtigen, ist das ökonometrische Modelling. Das ökonometrische Modelling ist ein Sammelbegriff, hinter dem sich mehrere, üblicherweise statistische Verfahren verbergen können. Das statistische Verfahren, das in den meisten Fällen zum Einsatz kommt, ist die multiple Regression, bei der in einem Modell mehr als nur eine unabh ngige Variable berücksichtigt werden kann. So können zum Beispiel Wirkungszusammenhänge dargestellt und quantifiziert sowie die Ausprägung der abhängigen Variable vorhergesagt werden. Unter Anwendung des ökonometrischen Modellings kann somit die Wirkung der wichtigsten Faktoren aus Marketing und Media bestimmt werden. Damit gelingt es, viele für Unternehmen praxisrelevante Fragen zu beantworten, zum Beispiel:
- Welche Faktoren beeinflussen den Absatz?
- Welche Wirkung hat der Preis?
- In welchen Medien soll geworben werden?
- Welcher Werbedruck ist erforderlich?
Wie entsteht so ein Datenmodell?
Im Gegensatz zu Analysen im rein digitalen Bereich werden im ökonometrischen Modelling typischerweise keine Daten auf personenebene oder für einzelne Kaufakte, sondern aggregierte Daten verwendet. Diese werden im Zeitverlauf betrachtet. Je nach Produkt und Datenverfügbarkeit werden sie über mehrere Jahre betrachtet. In der Praxis werden oft Daten für drei Jahre auf Wochenebene verwendet, was 156 Datenpunkten (Wochen) entspricht. Im Fall eines Absatz-Datenmodells müssen Daten aus unterschiedlichen Quellen zusammengetragen werden. Hierzu gehören Marketingdaten wie Absatz, Umsatz, Preis und Informationen zu Distribution und Promotions, Daten zum Mediaeinsatz, saisonale Daten wie Ferien, Feiertage, Wetterdaten und – je nach Fall – spezifische weitere Daten wie Daten über Produktneueinführungen, Relaunches oder auch Lieferprobleme.
Die Daten sollten – soweit verfügbar – für das jeweilige Produkt und für den relevanten Wettbewerb betrachtet werden, um auch entsprechende Wettbewerbseffekte darstellen zu können (z.B. die Effekte durch Werbung eines Wettbewerbes auf den Absatz des betrachteten Produkts). Um die Wirkung der einzelnen Faktoren realitätsnah berücksichtigen zu können, müssen für einige Variablen Transformationen durchgeführt werden, zum Beispiel zeitliche Transformationen der Mediavariablen: Während eine Preisaktion einen unmittelbaren Effekt hat (das Produkt wird, wenn es wegen der Preissenkung gekauft wird, zum Zeitpunkt der Preissenkung gekauft und nicht später), ist die direkte zeitliche Zuordnung bei der Wirkung der Mediavariablen nicht gegeben – hier kann ein durch Werbung ausgelöster Käufe auch noch Tage und Wochen nach dem Werbekontakt erfolgen. Um diesen Carry-Over zu berücksichtigen, werden die Mediavariablen in mehrere einzelne Variablen aufgeteilt, die unterschiedliche zeitliche Wirkverläufe aufweisen. Weiterhin sind Transformationen erforderlich, um Grenznutzenverläufe abzubilden (eine Verdoppelung der Werbekontakte bewirkt üblicherweise weniger als den doppelten Absatzeffekt). Da im Idealfall zusätzlich auch noch Wettbewerbsdaten hinzukommen, werden in einem typischen Projekt mehr als 2.000 Variablen untersucht.
Daten: Vielzahl an Kombinationsmöglichkeiten
Nun könnte man zunächst daran denken, einfach alle verfügbaren Daten zu verwenden und daraus ein entsprechendes Modell zu bilden. Leider ist dies nicht möglich. Aus statistischen Gründen kann die Zahl der verwendeten erklärenden Variablen die Zahl der Datenpunkte nicht übersteigen – bei wöchentlichen Daten für drei Jahre wären also wie erwähnt maximal 156 Variablen möglich. Aber auch die maximal möglichen Variablen sind schon viel zu viele für ein robustes Modell: Während die Modellgüte mit jeder zusätzlich aufgenommenen Variablen steigt, kommt es fast unweigerlich zu Problemen. Jede einzelne Variable muss statistisch signifikant sein, also einen sicher von Null verschiedenen Beitrag leisten, ansonsten kann ihre Wirkung – aber auch der der übrigen Variablen – falsch eingeschätzt werden. Bei Wochendaten für drei Jahre ist die Zahl der gleichzeitig signifikanten Variablen auf maximal 20 begrenzt.
Praktisch geht es also nun um die Frage, wie sich aus der Vielzahl von Variablen die bis zu 20 wichtigsten auswählen lassen, die im statistischen Sinn ein Modell mit hoher Erklärungskraft bilden, aber auch im praktischen Sinn plausibel sind. Bei 2.000 Variablen würde es ca. 1047 (Septilliarden) Möglichkeiten geben, jeweils 20 Variablen auszuwählen. Die Möglichkeiten, Modelle mit weniger als 20 Variablen zu bilden, kommen noch hinzu. Kein heutiger Computer ist in der Lage, alle Kombinationsmöglichkeiten in angemessener Zeit durchzuspielen.
Überprüfung des Modells
Im praktischen Einsatz ist es also erforderlich, eine Methode anzuwenden, die trotz der Unmöglichkeit, alle Varianten zu testen, zu einer vernünftigen Auswahl der Variablen kommt – und die sowohl im statistischen Sinn sicher ist als auch im praktischen Sinn plausibel erscheint. Um zu einem solchen Ergebnis zu gelangen, gibt es keinen Standard. Bewährt hat sich ein Weg, der daraus besteht, auf Basis von Hypothesen die wichtigsten Faktoren zu bestimmen (z.B. Preis, Saison) und das Modell dann Schritt für Schritt um weitere Variablen anzureichern, bis keine spürbare Verbesserung mehr erzielt werden kann. Dieses Vorgehen ist allerdings keine Einbahnstraße: Hier empfiehlt es sich wiederum, möglichst viele Varianten zu testen.
Es kommt ebenfalls häufig vor, dass zuvor signifikante Einflüsse wieder entfernt werden müssen, wenn weitere – inhaltlich wichtigere – Einflüsse in das Modell aufgenommen werden. Um zu inhaltlich sinnvollen Modellen zu gelangen, sollte die Wirkung und Stärke der Einflüsse auf Plausibilität überprüft werden, hier spielt auch die Erfahrung eine wichtige Rolle. Die härteste Überprüfung eines Modells besteht aber darin, es eine Prognose erstellen zu lassen – erst einmal für die Vergangenheit, im laufenden Betrieb dann auf Basis echter Daten. Zur Überprüfung der Prognosekraft eines Modells wird ein Teil der Zeitreihe ausgeschnitten und auf Basis des Modells, das für die restliche verkürzte Zeitreihe erneut erstellt wurde, prognostiziert (Holdout-Test). Die Überprüfung im laufenden Betrieb erfolgt dadurch, dass das Modell eine Prognose unter Anwendung von nun verfügbaren neuen Werten für die verwendeten Variablen erstellt und die Prognose mit den realen Werten abgeglichen wird. Es ist damit zu rechnen, dass Prognose und reale Werte nach einiger Zeit zunehmend stärker voneinander abweichen. Dies ist der richtige Zeitpunkt, das Modell zu aktualisieren.
Praktische Anwendungsmöglichkeiten
Das Modell hat viele Anwendungsmöglichkeiten. Diese lassen sich in zwei Bereiche unterteilen: Rückwirkende Beschreibung und Prognose. In der rückwirkenden Betrachtung lässt sich beispielsweise ermitteln, welchen Anteil die nachgewiesenen Faktoren an der Entwicklung des Absatzes haben (Sales Decomposition). Die Wirkung einzelner Faktoren kann bestimmt werden, zum Beispiel die Elastizität des Preises. Im Bereich Media interessiert vor allem, wie lange die Wirkung anhält, welcher Werbedruck optimal ist und welchen Umsatzbeitrag die bisherigen Medien erbracht haben (ROI). Der zweite wichtige Einsatzbereich für die Modelle besteht in der Möglichkeit, Simulationen und Prognosen durchführen zu können. So lässt sich etwa simulieren, welchen Effekt eine Preisanpassung oder eine Veränderung des Mediamixes und der Mediastrategie bewirken. Auf Basis des Modells können die optimale Mediastrategie sowie der optimale Mediamix für ein gegebenes Budget ermittelt oder umgekehrt das erforderliche Budget zum Erreichen bestimmter Absatzziele bestimmt werden. Schließlich können Prognosen für die Absatzentwicklung erstellt werden. In vielen Unternehmen unterschiedlicher Branchen kommen heutzutage Modelle zum Einsatz, um die Auswirkungen unterschiedlicher Marketingstrategien zu simulieren und strategische Entscheidungen datenbasiert zu unterstützen.
Statistische und methodische Standards
Während es für die hinter dem Modelling stehendenVerfahren diverse statistische Kennziffern gibt, die es zum Beispiel erlauben, die Modellgüte und die Sicherheit der verwendeten Daten zu beurteilen, gibt es für die Art, wie auf Basis des Modells weitere zentrale Ergebnisse abgeleitet werden, keinen einheitlichen methodischen Standard. Selbst, wenn zwei unterschiedliche Dienstleister dasselbe statistische Datenmodell verwenden, kann es bei der praktischen Aufbereitung zu Unterschieden kommen. So gibt es keinen Standard, wie die Absatz-Zusammensetzung (Sales Decomposition) ermittelt wird, um nur ein Beispiel zu nennen. Ein Problem ergibt sich dadurch, wie mit negativen Einflüssen, etwa dem Preis, umgegangen werden soll. So wäre der einfachste Weg, die durch die Modellierung gewonnenen Koeffizienten mit den jeweiligen Variablenwerten zu verrechnen, was bei Koeffizienten mit positivem und negativem Vorzeichen zu positiven und negativen Anteilen führt. Ein anderer Weg besteht darin, für jede Variable von einem Referenzpunkt auszugehen. Der Wert, der sich bei diesen Referenzpunkten ergibt, bildet die Baseline (vergleichbar mit dem Absatzanteil, der sich unter den ungünstigsten Bedingungen noch ergibt). Von den Variablen werden dann nur die Werte in die Sales Decomposition aufgenommen, die von diesem Punkt abweichen. Dieser Ansatz führt dazu, dass alle Anteile, auch die der ursprünglich negativ wirkenden Variablen, positiv werden. Beide Ansätze sind nachvollziehbar, führen aber zu unterschiedlichen Anteilen und damit verbunden zu unterschiedlichen Aussagen. Weitere zentrale Aussagen des Modells betreffen den ROI oder auch die genaue Wirkung der Kommunikationsvariablen. Die unterschiedlichen Ansätze für die Berechnung dieser Effekte darzustellen, würde aber den Rahmen dieses Artikels sprengen.
Dienstleister in die Pflicht nehmen
Das Datenmodell soll helfen, die Komplexität der realen Welt zu reduzieren und Marketingentscheidungen datenbasiert zu unterstützen. Um die Gefahr einer Fehlentscheidung zu minimieren, ist es jedoch sinnvoll, sich näher mit dem jeweiligen Modell zu beschäftigen. Da es keine einheitlichen Standards gibt, was die Darstellung der Methoden angeht, ist es umso wichtiger, dass der jeweilige Dienstleister die statistischen Kennziffern des Modells, aber auch die Art, wie die Ergebnisse zustande gekommen sind, dem Auftraggeber gegenüber offenlegt. Nur so kann das Zustandekommen der Ergebnisse überprüft werden und es ist m glich, sie richtig einordnen und interpretieren zu können.