Machine Learning Readyness Assessment

Dezember 22, 2017 / Azure / Bots, AI, Cognition / Power BI December 12, 2018


Datenqualität in 4 Schritten

Um qualitativ hochwertige Aussagen mit Machine Learning (ML) treffen zu können, müssen verschiedene Voraussetzungen geschaffen werden. Eine dieser Voraussetzungen ist die qualitative Aufbereitung von Daten.

Worauf muss man bei Daten also achten?

  1. Daten müssen zur Fragestellung relevant sein
  2. Daten müssen lückenlos und vollständig sein
  3. Daten müssen genau* sein
  4. Daten müssen in ausreichender Menge verfügbar sein.

*genau: relevante Daten gruppieren sich exakt um eine spezifische Fragestellung. Ist die Streuung rund um einen Kern gross, so spricht man von unpräzisen Daten.

Wann sind Daten zur Fragestellung relevant?

Da wir aus den Daten maschinell Erkenntnisse ziehen wollen, müssen Datenattribute  in sinnvollem Bezug zueinander stehen, so dass Rückschlüsse auf zu erwartende Ergebnisse in anderen Datenattributen möglich werden. 

In der nachfolgenden Tabellen ist es in der linken Tabelle leicht möglich, aus Menge und Preis Rückschlüsse auf den Bestellwert zu ziehen. Diese Daten sind relevant.

In der rechten Tabelle hingegen lassen sich aus keiner der Attributekombinationen Rückschlüsse auf eine andere Spalte treffen. Diese Daten bezeichnet man als nicht relevant.

Wann sind Daten lückenlos und vollständig?

Wenn Ihre Daten wie in der rechten Tabelle an Schweizer Käse erinnern, ist es in den „löchrigen Zeilen“ nicht möglich, das Ergebnis abzuleiten, obwohl die Daten relevant sind. Diesen zustand nennt man unvollständig. Die linke Tabelle bezeichnet man als vollständig.

Wann sind Daten genau?

Von genauen Daten spricht man, wenn sowohl die Form als auch der Inhalt aller Daten eines Attributs denselben Regeln folgen und dem Leser die Regel zur Interpretation der Daten bekannt sind. 

In der Tabelle sieht man, dass die Form des Datums in allen Zeilen korrekt ist, wenn man von einer Notation „DD/MM/YYYY“ ausgeht.

In Zeile 1 stimmt aber der Wert nicht, denn die Veranstaltung findet am 14/01/2018 – nicht am 13/01/2018 statt. In Zeile 2 wäre der Wert korrekt, entspricht aber der US-Notation für Datumswerte und somit nicht den erwarteten Formatregeln.

Nur in Zeile 3 stimmen Form, Inhalt und das erwartete Regelset überein. Nur hier sind die Daten genau.

Was bedeutet „ausreichende Menge“?

DataScience und Machine Learning basieren auf statistischen Verfahren und benötigen deshalb möglichst viele Daten, um repräsentative Ergebnisse liefern zu können. Je mehr relevante, lückenlose und genaue Daten zur Verfügung stehen, umso genauer werden die zu erwartenden Ergebnisse.

Tipp: Sammeln Sie Daten, auch wenn Sie noch nicht genau wissen, wozu sie diese später brauchen werden.

Operative Quelle oder Datalake?

Wie immer sind natürlich alle zuvor genannten Schritte völlig logisch und man sollte annehmen, dass Daten aus IT Systemen schon immer so aussehen wie gefordert.

In der Praxis werden Daten jedoch meist in transaktionalen Systemen oder durch technische Endgeräten (IoT-Devices, Roboter, Maschinen) erzeugt, die einen speziellen Zweck erfüllen müssen und in keiner Form eine spätere Weiterverarbeitung der Daten mit ML oder Business Intelligence Tools vorbereiten.

Mindestens aus diesem Grund macht es Sinn, Daten über ETL-Tools (Extract-Transform-Load) in eigenständige Datenhaltungssysteme (Big Data) zu überführen, die gezielt zu analytischen Zwecken genutzt werden.

Weitere Gründe sind natürlich die Entlastung der operativen Systeme von lastintensiven Abfragen und der steigende Bedarf, Daten unabhängig von Ihrer Quelle maschinell kombinieren und auswerten zu können.

Sind Sie bereit?

Wenn Sie schon jetzt die genannten Voraussetzungen erfüllen, dann sind meisten Sie Ihr „Machine Learning Readyness Assessment“ mit Bravour.

Im anderen Fall kennen Sie nun die Ansatzpunkte, an denen Sie noch arbeiten müssen, um selbst mit Machine Learning durchstarten zu können.

Wenn Sie selbst Ideen für den Einsatz der Azure AI, Azure Cognition oder für intelligente Bots haben. Oder gerne von uns wüßten, wo Ihnen das hilft, stehen Ihnen unsere Experten gerne zu einem unverbindlichen Erstgespräch zur Verfügung.