Blog

KI nutzen. Kosten senken. Klima schützen.

In den letzten Jahren sind die Energiepreise erheblich gestiegen und werden trotz der markttypischen Preisschwankungen auch künftig weiter steigen. Doch auch die Anforderungen, die der Klimaschutz an Industrie und Handel stellt, mahnen uns, den Stromverbrauch zu mindern.

Um also die laufenden Energiekosten zu optimieren, wird eine effektive und automatisierte Überwachung des Energieverbrauchs immer wichtiger, in den nächsten Jahren sogar unverzichtbar.

Ein effektiver Weg zur Reduktion des Energieverbrauchs ist seine ständige Überwachen durch digitale Zähler und das Erkennen unnötiger Mehrverbräuche: z. B. unkritische Beleuchtung bei Nacht, Heizen im Sommer, Leckagen in Druckluftanlagen, tropfende Wasserhähne usw. Denn davon sind nicht nur Privathaushalte, sondern auch große Fertigungsanlagen betroffen.

Energie sparen mit Data Science

Für die Smart Factories eines großen Kunden aus der Automotivebranche haben wir zum Zweck der Energieeinsparung eine datengetriebene IoT-Lösung realisiert: eine automatisierte Mehrverbrauchs- bzw. Anomalieerkennung, welche derartige Verbräuche erkennt und Möglichkeiten bietet, diese abzustellen. Methoden der Künstlichen Intelligenz bzw. des Maschinellen Lernens erlauben es uns dabei, Muster in den Verbrauchsdaten verschiedener Verbraucher zu erkennen und Abweichungen vom normalen Verbrauch festzustellen.

Die Erkennung und Behebung solcher Anomalien reduziert nicht nur im IoT-Umfeld langfristig den Energiebedarf und führt nicht nur zu finanziellen Einsparungen beim Energieverbrauch, sondern auch bei den CO2-Emissionen.

Für diesen Beitrag fokussieren wir uns auf Daten bestehender IoT-Messgeräte (Zähler) und geben einen Einblick in verschiedene Methoden der Datenanalyse zur Erkennung von Anomalien. Dabei widmen wir uns zunächst dem Finden von Datenfehlern und gehen anschließend genauer auf die Anomalieerkennung ein.

Dr. Stefan Jakob

Softwareentwicklung und Data Science

Wir verbessern die Qualität von IoT-Daten

Das Verhalten von Zählern ist eigentlich simpel: Wird Strom verbraucht, erhöht sich der Zählwert. Wird kein Strom verbraucht, bleibt der Zähler auf dem aktuellen Stand. In der Theorie also ganz einfach. Zähler sollten eigentlich monoton wachsenden Daten liefern.

In der Praxis ist dies jedoch häufig anders, denn Zähler können Messfehler aufweisen. Das mindert die Datenqualität teils erheblich, senkt die Qualität der Anomalieerkennung und reduziert damit auch die positiven Auswirkungen der getroffenen Behebungsmaßnahmen.

Zu den häufigsten Messfehlern in einer Smart Factory zählen etwa Maximalwerte (Spitze in den Messwerten), falsche Zählrichtung (fallende Messwerte), Kommunikationsfehler (fehlende Messwerte) oder auch Nullungen (keine Messwerte über längeren Zeitraum). Zusätzlich können diese Fehler geräteabhängig sein und somit je nach verwendetem Zähler häufiger oder auch gar nicht auftreten.

Daher ist eine umfangreiche Analyse der Daten oft unabdingbar, um zum einen die Qualität der genutzten Geräte abschätzen zu können und zum anderen, um ein Gefühl für die Daten und ihre Aussagekraft zu bekommen. Sollte beispielsweise ein bestimmter Zähler häufig Messfehler aufweisen, deutet dies auf einen Defekt hin und im schlimmsten Fall muss der Zähler getauscht werden.

Bei der Beurteilung der Datenqualität hilft uns das Wissen, dass Zähler monoton wachsende Messwerte liefern sollten. Wenn Werte statistisch signifikant vom angenommenen Verlauf abweichen, stellen sie mit hoher Wahrscheinlichkeit einen Mess- oder Kommunikationsfehler dar. Zur Behebung dieser Fehler können unterschiedliche Methoden in Betracht gezogen werden.

Lineare Interpolation und Fehlermarkierung

Eine Möglichkeit ist lineare Interpolation (lineare Regression). Dabei werden fehlende Messwerte bestimmt, indem eine Gerade zwischen den bekannten Messwerten gebildet wird. Anhand dieser Geraden können dann die fehlenden Messwerte anhand bekannter Messwerten approximiert werden.

Dies eignet sich aus unserer Erfahrung besonders bei kleinen Lücken, da nicht zu viele Werte geschätzt werden müssen. Es können natürlich auch andere Arten der Interpolation angewendet werden, beispielsweise eine polynomiale Interpolation, falls dies besser zu den betrachteten Daten passt.

Eine weitere Möglichkeit ist die Markierung von Fehlern – ohne deren direkte Behebung. Das hat den Vorteil, dass die Rohdaten als Ground Truth bestehen bleiben und Fehler gerätespezifisch behandelt werden können. Als Ground Truth bezeichnen wir in der Data Science solche Daten, die als Referenz oder Standard verwendet werden, um Modelle oder Algorithmen zu validieren und zu bewerten.

Nachdem der erste Schritt der Datenanalyse abgeschlossen ist, beginnen wir mit der eigentlichen Anomalieerkennung.

Erkennung von Anomalien in Verbrauchsdaten

Bei der Auswertung der Zählerwerte haben wir uns für eine von den Rohdaten abweichende Repräsentation entschieden. Anstatt der Zählerwerte, die monoton steigen sollten, haben wir uns für Verbrauchswerte entschieden.

Verbrauchswerte sind die Änderung zwischen 2 Zählerständen. Liefert beispielsweise ein Zähler um 12:00 Uhr den Wert 100 und um 12:15 Uhr den Wert 125, so ist der Verbrauch in diesem Zeitraum 25. Dies ermöglicht eine bessere Visualisierung der Daten, da so Schwankungen leichter zu erkennen sind.

Verbrauchsdaten haben den Vorteil, dass die eigentliche Höhe des Zählerstands keine Rolle spielt, sondern nur die Änderung der Werte betrachtet wird. Das macht die Verbrauchsdaten unterschiedlicher Zähler vergleichbar. Daher empfehlen wir die Nutzung von Verbrauchsdaten anstelle der eigentlichen Messwerte. Hier kommt es aber wiederum auf den individuellen Anwendungsfall an und sollte daher in jeder Datenanalyse separat betrachtet werden.

Anwendung Analytischer KI

Nach der Entscheidung, welche Daten in welcher Repräsentation genutzt werden sollen, findet der zweite Teil der Datenanalyse statt. Als Beispiel setzen wir hier auf so genannte unüberwachte, analytische KI-Verfahren. Der Auswahl der Algorithmen ist jedoch keine Grenze gesetzt, sie kann in jedem Datenanalyseprojekt unterschiedlich sein und sollte immer auf die zugrundeliegenden Daten angepasst werden. Es können beispielsweise Neuronale Netze, andere Maschinelle Lernverfahren oder statistische Verfahren zum Einsatz kommen. Der resultierende Entscheidungsprozess wird als Modell bezeichnet, also eine reduzierte Abbildung der Realität anhand der Trainingsdaten.

Ungelabelte vs. gelabelte Trainingsdaten

Bei unüberwachten KI-Methoden werden ungelabelte Trainingsdaten verwendet. Das sind Trainingsdaten, bei denen bestehende Anomalien nicht schon vorher durch Experten markiert worden sind. Wir setzen hier bewusst auf unüberwachte Methoden, um die benötigten Ressourcen zur Erstellung eines gelabelten Trainingsdatensatzes zu reduzieren. Denn Letzteres ist meist mit Zusatzaufwand verbunden, da die Anomalien erst durch menschliche Expertise gefunden, bewertet und markiert werden müssen.

Zusätzlich muss der Trainingsdatensatz ausreichend groß sein, damit das resultierende Modell in der Lage ist, zu generalisieren. Dies bedeutet, dass das Modell sogar Anomalien erkennen kann, die nicht in den Trainingsdaten vorhanden, also für das Modell bisher unbekannt sind.

Aus den Trainingsdaten berechnen wir nun Features und Eigenschaften, um daraus Anomalien abzuleiten. Auch hier existiert wieder eine Vielzahl von Möglichkeiten: Durchschnitte, Varianz, Minimal- und Maximalwerte, Trends oder auch Ergebnisse von Clustering- oder Klassifikationsverfahren. Um anhand dieser Features eine bestmögliche Erkennung von Anomalien zu ermöglichen, setzen wir auf eine Kombination aus mehreren Methoden, die in den nächsten Abschnitten kurz erläutert werden.

  • K-Means-Clustering sucht nach K (z. B. fünf) Clustern in den Trainingsdaten. Dazu werden zunächst K Trainingsdatenpunkte als initiale Clusterzentren ausgewählt. Diese Clusterzentren werden dann sukzessive verschoben, bis die Abstände der Trainingsdaten zu den Clusterzentren minimal sind. Zur Erkennung von Anomalien werden verschiedene Werte für K genutzt und anschließend bestimmt, welches K das beste Ergebnis liefert. Hierfür nutzen wir z. B. den Silhouettenkoeffizient. Dieser betrachtet zum einen den Abstand der Datenpunkte in einem Cluster zueinander und den Abstand der Cluster selbst. Sollten die Datenpunkte dicht beieinander und die Cluster weit voneinander entfernt sein, ist der Silhouettenkoeffizient hoch, andernfalls ist er niedrig. Sollte das K, welches den höchsten Silhouettenkoeffizient erzeugt, von dem erwarteten Wert abweichen, könnte es sich um eine Anomalie handeln.
  • DBSCAN: Der Algorithmus Density-Based Spatial Clustering of Applications with Noise (DBSCAN) sucht in Daten zusammenhängende Gruppen, so genannte Cluster, auf. Und zwar basierend auf dem Abstand der Trainingsdatenpunkte zueinander. Neue Cluster werden dann gefunden, wenn genügend Datenpunkte vorhanden sind, deren maximale Distanz zueinander einen definierten Grenzwert nicht übersteigt. Dies hat den Vorteil, dass Cluster verschiedenster Formen gefunden werden können. Sollte die Anzahl der gefundenen Cluster von der erwarteten Anzahl abweichen, kann es sich um eine Anomalie handeln.

Zur eigentlichen Detektion einer Anomalie werden die Ergebnisse der Algorithmen ausgewertet und anhand eines Entscheidungsbaumes bestimmt, ob es sich bei dem geprüften Abschnitt in den Trainingsdaten um eine Anomalie handelt.

Fazit

Die Energieeinsparungen im hier beschriebenen IoT-Projekt sind erheblich, konkrete Zahlen indes Betriebsgeheimnis. Die Bedeutung der Erkennung unnötiger Mehrverbräuche (Anomalien) im Energiemanagement kann grundsätzlich nicht genug betont werden. Die KI-getriebene automatisierte Erkennung von Datenfehlern und unnötigen Mehrverbräuchen ermöglicht es Unternehmen, Kosten zu reduzieren und endliche Ressourcen zu schonen. In einer Zeit, in der ökologische Faktoren mehr und mehr an Bedeutung gewinnen, eröffnet KI neue Möglichkeiten zur Steigerung der Nachhaltigkeit und bereitet den Weg in eine ressourcenschonende und effiziente Zukunft.

Zusätzlich ist das Feld der Datenanalyse ein extrem spannender Bereich. Durch die quasi unendliche Kombination aus potenziellen Features und anzuwendenden Algorithmen kann für jedes Datenanalyseprojekt die passende Kombination gefunden werden, um das bestmögliche aus den Daten herauszuholen. Diese Resultate fördern dann datengetriebene Entscheidungen und führen z. B., wie im Fall der Auswertung von Zählerdaten zu einer Reduzierung der Energiekosten und zum Einsparen von CO2-Emissionen.

Wollen auch Sie ihren Energieverbrauch mit modernen digitalen Mitteln verringern? Wir beantworten gern Ihre Fragen und loten gemeinsam mit Ihnen eine für Sie passende Lösung aus.