Data Management Datenqualität

Friday afternoon measurement: die Tom Redman Challenge

Friday Afternoon Measurement

Wenn von schlechter Datenqualität die Rede ist, fehlen leider oft konkrete Fakten.

Das heißt nicht, dass Beschwerden über die Qualität der Daten aus der Luft gegriffen sind. Vielmehr handelt es sich jedoch um ein Bauchgefühl der Kollegys, die täglich mit den Daten arbeiten müssen. Verbunden mit viel Frustration, da das manuelle und zeitaufwendige Korrigieren einfach nervt und von den eigentlichen Aufgaben abhält.
Was ich sagen will: belastbare Zahlen zur Datenqualität müssen her!

Warum? Weil man mit Bauchgefühl und Stimmungslagen eher selten Zeit, Geld, Kollegys oder Tools bekommt, um das Problem zu lösen.

Wie kommt man nun zu Zahlen, ohne vorher Datenqualität-Tools zu kaufen, Regelwerke zu formulieren oder Dashboards bereit zu stellen?
Tom Redman hat einen praktikablen Vorschlag gemacht. Und zwar das „Friday Afternoon Measurement. Eigentlich ist es ganz einfach: an einem Freitagnachmittag schaut man sich mit zwei oder drei motivierten Kollegys die letzten 100 Datensätze an, die in ein System eingegeben wurden. Dann prüft man diese Datensätze auf Fehler und markiert die Datenfelder, deren Inhalte fehlerhaft sind und markiert am Ende, ob ein Datensatz über alle Felder betrachtet, Fehler hat oder nicht. Zum Schluss zählt man die Datensätze, die fehlerhaft waren und hat damit den Prozentsatz der fehlerhaften bzw. der korrekten Datensätze (denn man hat ja nur 100 angeschaut).

Nachlesen und nachschauen, wie es genau geht, könnt ihr auf YouTube und im HBR Artikel.
In dem Harvard Business Review Artikel gibt Tom Redman auch noch ein paar Hinweise, was schlechte Datenqualität kostet, und wie man diese Kosten errechnen kann.
Was ich noch ergänzen will: macht man dieses „Friday Afternoon Measurement“, bekommt man mindestens noch zwei weitere Erkenntnisse:

  1. Da die 100 Datensätze nur von einer Datenquelle ausgewertet werden, kann man auch genau sagen, aus welchem System diese kommen und macht damit eine differenzierte Aussage („alle Daten sind schlecht“ vs. „die letzten 100 Datensätze aus dem System x haben Probleme“).
  2. Man hat erste Ansätze für ein DQ Regelwerk. Denn die motivierten Kollegys, die bei der Auswertung der Datenqualität geholfen haben, haben ja alle nach den gleichen Merkmalen geschaut (und sich vorher darauf geeinigt). Und diese Regeln können dokumentiert werden und sind später, falls es zu einer Software-basierten Messung kommt, wiederverwendbar. 🙂

Wer von euch hat sich denn schon mal am Freitagnachmittag hingesetzt und das „Friday Afternoon Measurement“ durchgeführt? Und konntet ihr das als Initialzünder für weitere Datenqualitäts-Initiativen nutzen?

Der Artikel wurde ursprünglich auf LinkedIn publiziert. Kommentare gerne dort.