Blog

KI nutzen. Kosten senken. Klima schĂŒtzen.

In den letzten Jahren sind die Energiepreise erheblich gestiegen und werden trotz der markttypischen Preisschwankungen auch kĂŒnftig weiter steigen. Doch auch die Anforderungen, die der Klimaschutz an Industrie und Handel stellt, mahnen uns, den Stromverbrauch zu mindern.

Um also die laufenden Energiekosten zu optimieren, wird eine effektive und automatisierte Überwachung des Energieverbrauchs immer wichtiger, in den nĂ€chsten Jahren sogar unverzichtbar.

Ein effektiver Weg zur Reduktion des Energieverbrauchs ist seine stĂ€ndige Überwachen durch digitale ZĂ€hler und das Erkennen unnötiger MehrverbrĂ€uche: z. B. unkritische Beleuchtung bei Nacht, Heizen im Sommer, Leckagen in Druckluftanlagen, tropfende WasserhĂ€hne usw. Denn davon sind nicht nur Privathaushalte, sondern auch große Fertigungsanlagen betroffen.

Energie sparen mit Data Science

FĂŒr die Smart Factories eines großen Kunden aus der Automotivebranche haben wir zum Zweck der Energieeinsparung eine datengetriebene IoT-Lösung realisiert: eine automatisierte Mehrverbrauchs- bzw. Anomalieerkennung, welche derartige VerbrĂ€uche erkennt und Möglichkeiten bietet, diese abzustellen. Methoden der KĂŒnstlichen Intelligenz bzw. des Maschinellen Lernens erlauben es uns dabei, Muster in den Verbrauchsdaten verschiedener Verbraucher zu erkennen und Abweichungen vom normalen Verbrauch festzustellen.

Die Erkennung und Behebung solcher Anomalien reduziert nicht nur im IoT-Umfeld langfristig den Energiebedarf und fĂŒhrt nicht nur zu finanziellen Einsparungen beim Energieverbrauch, sondern auch bei den CO2-Emissionen.

FĂŒr diesen Beitrag fokussieren wir uns auf Daten bestehender IoT-MessgerĂ€te (ZĂ€hler) und geben einen Einblick in verschiedene Methoden der Datenanalyse zur Erkennung von Anomalien. Dabei widmen wir uns zunĂ€chst dem Finden von Datenfehlern und gehen anschließend genauer auf die Anomalieerkennung ein.

Dr. Stefan Jakob

Softwareentwicklung und Data Science

Wir verbessern die QualitÀt von IoT-Daten

Das Verhalten von ZÀhlern ist eigentlich simpel: Wird Strom verbraucht, erhöht sich der ZÀhlwert. Wird kein Strom verbraucht, bleibt der ZÀhler auf dem aktuellen Stand. In der Theorie also ganz einfach. ZÀhler sollten eigentlich monoton wachsenden Daten liefern.

In der Praxis ist dies jedoch hĂ€ufig anders, denn ZĂ€hler können Messfehler aufweisen. Das mindert die DatenqualitĂ€t teils erheblich, senkt die QualitĂ€t der Anomalieerkennung und reduziert damit auch die positiven Auswirkungen der getroffenen Behebungsmaßnahmen.

Zu den hĂ€ufigsten Messfehlern in einer Smart Factory zĂ€hlen etwa Maximalwerte (Spitze in den Messwerten), falsche ZĂ€hlrichtung (fallende Messwerte), Kommunikationsfehler (fehlende Messwerte) oder auch Nullungen (keine Messwerte ĂŒber lĂ€ngeren Zeitraum). ZusĂ€tzlich können diese Fehler gerĂ€teabhĂ€ngig sein und somit je nach verwendetem ZĂ€hler hĂ€ufiger oder auch gar nicht auftreten.

Daher ist eine umfangreiche Analyse der Daten oft unabdingbar, um zum einen die QualitĂ€t der genutzten GerĂ€te abschĂ€tzen zu können und zum anderen, um ein GefĂŒhl fĂŒr die Daten und ihre Aussagekraft zu bekommen. Sollte beispielsweise ein bestimmter ZĂ€hler hĂ€ufig Messfehler aufweisen, deutet dies auf einen Defekt hin und im schlimmsten Fall muss der ZĂ€hler getauscht werden.

Bei der Beurteilung der DatenqualitÀt hilft uns das Wissen, dass ZÀhler monoton wachsende Messwerte liefern sollten. Wenn Werte statistisch signifikant vom angenommenen Verlauf abweichen, stellen sie mit hoher Wahrscheinlichkeit einen Mess- oder Kommunikationsfehler dar. Zur Behebung dieser Fehler können unterschiedliche Methoden in Betracht gezogen werden.

Lineare Interpolation und Fehlermarkierung

Eine Möglichkeit ist lineare Interpolation (lineare Regression). Dabei werden fehlende Messwerte bestimmt, indem eine Gerade zwischen den bekannten Messwerten gebildet wird. Anhand dieser Geraden können dann die fehlenden Messwerte anhand bekannter Messwerten approximiert werden.

Dies eignet sich aus unserer Erfahrung besonders bei kleinen LĂŒcken, da nicht zu viele Werte geschĂ€tzt werden mĂŒssen. Es können natĂŒrlich auch andere Arten der Interpolation angewendet werden, beispielsweise eine polynomiale Interpolation, falls dies besser zu den betrachteten Daten passt.

Eine weitere Möglichkeit ist die Markierung von Fehlern – ohne deren direkte Behebung. Das hat den Vorteil, dass die Rohdaten als Ground Truth bestehen bleiben und Fehler gerĂ€tespezifisch behandelt werden können. Als Ground Truth bezeichnen wir in der Data Science solche Daten, die als Referenz oder Standard verwendet werden, um Modelle oder Algorithmen zu validieren und zu bewerten.

Nachdem der erste Schritt der Datenanalyse abgeschlossen ist, beginnen wir mit der eigentlichen Anomalieerkennung.

Erkennung von Anomalien in Verbrauchsdaten

Bei der Auswertung der ZĂ€hlerwerte haben wir uns fĂŒr eine von den Rohdaten abweichende ReprĂ€sentation entschieden. Anstatt der ZĂ€hlerwerte, die monoton steigen sollten, haben wir uns fĂŒr Verbrauchswerte entschieden.

Verbrauchswerte sind die Änderung zwischen 2 ZĂ€hlerstĂ€nden. Liefert beispielsweise ein ZĂ€hler um 12:00 Uhr den Wert 100 und um 12:15 Uhr den Wert 125, so ist der Verbrauch in diesem Zeitraum 25. Dies ermöglicht eine bessere Visualisierung der Daten, da so Schwankungen leichter zu erkennen sind.

Verbrauchsdaten haben den Vorteil, dass die eigentliche Höhe des ZĂ€hlerstands keine Rolle spielt, sondern nur die Änderung der Werte betrachtet wird. Das macht die Verbrauchsdaten unterschiedlicher ZĂ€hler vergleichbar. Daher empfehlen wir die Nutzung von Verbrauchsdaten anstelle der eigentlichen Messwerte. Hier kommt es aber wiederum auf den individuellen Anwendungsfall an und sollte daher in jeder Datenanalyse separat betrachtet werden.

Anwendung Analytischer KI

Nach der Entscheidung, welche Daten in welcher ReprĂ€sentation genutzt werden sollen, findet der zweite Teil der Datenanalyse statt. Als Beispiel setzen wir hier auf so genannte unĂŒberwachte, analytische KI-Verfahren. Der Auswahl der Algorithmen ist jedoch keine Grenze gesetzt, sie kann in jedem Datenanalyseprojekt unterschiedlich sein und sollte immer auf die zugrundeliegenden Daten angepasst werden. Es können beispielsweise Neuronale Netze, andere Maschinelle Lernverfahren oder statistische Verfahren zum Einsatz kommen. Der resultierende Entscheidungsprozess wird als Modell bezeichnet, also eine reduzierte Abbildung der RealitĂ€t anhand der Trainingsdaten.

Ungelabelte vs. gelabelte Trainingsdaten

Bei unĂŒberwachten KI-Methoden werden ungelabelte Trainingsdaten verwendet. Das sind Trainingsdaten, bei denen bestehende Anomalien nicht schon vorher durch Experten markiert worden sind. Wir setzen hier bewusst auf unĂŒberwachte Methoden, um die benötigten Ressourcen zur Erstellung eines gelabelten Trainingsdatensatzes zu reduzieren. Denn Letzteres ist meist mit Zusatzaufwand verbunden, da die Anomalien erst durch menschliche Expertise gefunden, bewertet und markiert werden mĂŒssen.

ZusĂ€tzlich muss der Trainingsdatensatz ausreichend groß sein, damit das resultierende Modell in der Lage ist, zu generalisieren. Dies bedeutet, dass das Modell sogar Anomalien erkennen kann, die nicht in den Trainingsdaten vorhanden, also fĂŒr das Modell bisher unbekannt sind.

Aus den Trainingsdaten berechnen wir nun Features und Eigenschaften, um daraus Anomalien abzuleiten. Auch hier existiert wieder eine Vielzahl von Möglichkeiten: Durchschnitte, Varianz, Minimal- und Maximalwerte, Trends oder auch Ergebnisse von Clustering- oder Klassifikationsverfahren. Um anhand dieser Features eine bestmögliche Erkennung von Anomalien zu ermöglichen, setzen wir auf eine Kombination aus mehreren Methoden, die in den nÀchsten Abschnitten kurz erlÀutert werden.

  • K-Means-Clustering sucht nach K (z. B. fĂŒnf) Clustern in den Trainingsdaten. Dazu werden zunĂ€chst K Trainingsdatenpunkte als initiale Clusterzentren ausgewĂ€hlt. Diese Clusterzentren werden dann sukzessive verschoben, bis die AbstĂ€nde der Trainingsdaten zu den Clusterzentren minimal sind. Zur Erkennung von Anomalien werden verschiedene Werte fĂŒr K genutzt und anschließend bestimmt, welches K das beste Ergebnis liefert. HierfĂŒr nutzen wir z. B. den Silhouettenkoeffizient. Dieser betrachtet zum einen den Abstand der Datenpunkte in einem Cluster zueinander und den Abstand der Cluster selbst. Sollten die Datenpunkte dicht beieinander und die Cluster weit voneinander entfernt sein, ist der Silhouettenkoeffizient hoch, andernfalls ist er niedrig. Sollte das K, welches den höchsten Silhouettenkoeffizient erzeugt, von dem erwarteten Wert abweichen, könnte es sich um eine Anomalie handeln.
  • DBSCAN: Der Algorithmus Density-Based Spatial Clustering of Applications with Noise (DBSCAN) sucht in Daten zusammenhĂ€ngende Gruppen, so genannte Cluster, auf. Und zwar basierend auf dem Abstand der Trainingsdatenpunkte zueinander. Neue Cluster werden dann gefunden, wenn genĂŒgend Datenpunkte vorhanden sind, deren maximale Distanz zueinander einen definierten Grenzwert nicht ĂŒbersteigt. Dies hat den Vorteil, dass Cluster verschiedenster Formen gefunden werden können. Sollte die Anzahl der gefundenen Cluster von der erwarteten Anzahl abweichen, kann es sich um eine Anomalie handeln.

Zur eigentlichen Detektion einer Anomalie werden die Ergebnisse der Algorithmen ausgewertet und anhand eines Entscheidungsbaumes bestimmt, ob es sich bei dem geprĂŒften Abschnitt in den Trainingsdaten um eine Anomalie handelt.

Fazit

Die Energieeinsparungen im hier beschriebenen IoT-Projekt sind erheblich, konkrete Zahlen indes Betriebsgeheimnis. Die Bedeutung der Erkennung unnötiger MehrverbrÀuche (Anomalien) im Energiemanagement kann grundsÀtzlich nicht genug betont werden. Die KI-getriebene automatisierte Erkennung von Datenfehlern und unnötigen MehrverbrÀuchen ermöglicht es Unternehmen, Kosten zu reduzieren und endliche Ressourcen zu schonen. In einer Zeit, in der ökologische Faktoren mehr und mehr an Bedeutung gewinnen, eröffnet KI neue Möglichkeiten zur Steigerung der Nachhaltigkeit und bereitet den Weg in eine ressourcenschonende und effiziente Zukunft.

ZusĂ€tzlich ist das Feld der Datenanalyse ein extrem spannender Bereich. Durch die quasi unendliche Kombination aus potenziellen Features und anzuwendenden Algorithmen kann fĂŒr jedes Datenanalyseprojekt die passende Kombination gefunden werden, um das bestmögliche aus den Daten herauszuholen. Diese Resultate fördern dann datengetriebene Entscheidungen und fĂŒhren z. B., wie im Fall der Auswertung von ZĂ€hlerdaten zu einer Reduzierung der Energiekosten und zum Einsparen von CO2-Emissionen.

Wollen auch Sie ihren Energieverbrauch mit modernen digitalen Mitteln verringern? Wir beantworten gern Ihre Fragen und loten gemeinsam mit Ihnen eine fĂŒr Sie passende Lösung aus.