White Paper

8 Schritte bei der Analyse von Fertigungsdaten für bessere KI-Ergebnisse

Einführung

Fertigungsdaten treten in verschiedensten Formen auf. Manche Daten sind für eine einfache Analyse geeignet, beispielsweise die Suche nach statistischen Ausreißern beim Bohrungsdurchmesser einer Unterlegscheibe. Die Analyse anderer Datentypen kann hingegen schwieriger ausfallen, beispielsweise die menschliche Kategorisierung von Motoren, die unerwünschte Geräusche erzeugen.

Machine-Learning- und KI-Modelle können den Umgang mit diesen komplizierteren Daten erleichtern. Doch manchmal führen Projekte zu enttäuschenden Resultaten, insbesondere wenn man versucht, die menschliche Interpretation und Kategorisierung zu ersetzen. Erste KI-Ergebnisse können auf den ersten Blick vielversprechend wirken, bleiben jedoch nicht dauerhaft nützlich. Häufig ist dies auf eine Diskrepanz zwischen Datenanalysen, Fachwissen und störenden Signalen zurückzuführen, die dazu führt, dass die Daten nicht richtig verstanden werden.

Diese Probleme können durch die folgenden Fragen reduziert werden:

  • Gibt es in den Daten Störfaktoren?
  • Liegen die Daten in einer Form vor, die sich gut für das KI-Modell eignet?
  • Beinhalten die Daten die nötigen Informationen für das Training eines Machine-Learning-/KI-Modells?
  • Enthalten die Eingabedaten Signale, die nur zeitweise mit den Ausgabedaten korrelieren?
  • Decken die Trainingsdaten den gesamten Betriebsbereich des Messsystems ab?
  • Gibt es Bedingungen, unter denen die Trainingsdaten nicht die nötige Variabilität aufweisen?
  • Wie genau ist mein aktueller Klassifizierungs- oder Regressionsprozess und welche Genauigkeit kann ich von einem KI-Modell erwarten?

In diesem Whitepaper werden acht Best Practices behandelt, die Ingenieuren mit wenig Vorwissen im Bereich Machine Learning/KI dabei helfen, die oben aufgeführten Fragen zu beantworten, ihre Rohdaten besser zu verstehen und so bessere Ergebnisse zu erzielen. Enthalten sind auch Informationen zu den MATLAB®-Funktionen, mit denen diese Probleme untersucht und behoben werden können. Die Best Practices werden in drei Szenarien mit Audiodaten, Bilddaten und Zeitreihendaten illustriert.

Diese acht Schritte bieten Ihnen Ansätze, mit denen Sie Ihre Daten besser verstehen und nutzen können. Sie sind in vier Phasen unterteilt:

  • Verstehen der Art der Daten
  • Verstehen der Einschränkungen der erfassten Daten
  • Vorverarbeiten von Daten und Trainieren von Modellen
  • Bewerten der Ergebnisse
Abschnitt

Verstehen der Art der Daten

1. Einholen von Expertenmeinungen

Sammeln Sie Informationen über die physikalischen Mechanismen, die zu dem gemessenen und zu erkennenden Merkmal führen, sowie über alle empirisch ermittelten Merkmale. Dies hilft Ihnen dabei, Strategien zur Vorverarbeitung und zur Kategorisierung der Daten zu formulieren, indem Sie folgende Fragen stellen:

  • Müssen die Daten mithilfe des Mittelwerts und der Standardabweichung normalisiert werden oder würde sich das Signal durch eine solche Normalisierung verschlechtern? Ist eine andere Normalisierungsmethode besser geeignet?
  • Würde eine Frequenzanalyse oder eine Transformation der Daten mithilfe anderer mathematischer Relationen einem Menschen – und somit der KI – die Kategorisierung erleichtern?
  • Würde eine statistische Methode oder grafische Visualisierung die Klassentrennung für einen Menschen klar genug machen, um die Merkmalsauswahl für das Training eines KI-Modells zu unterstützen?
  • Welche Arten von Signalverhalten und Signalpegeln sind zu erwarten? Welche Annahmen begründen die Erwartung? Wie können Signalpegel mithilfe eines Experiments verifiziert werden?
Ablaufdiagramm, das Ursache, Physik, Wirkung und erwartete Daten miteinander verbindet.

In einem idealen Szenario manifestiert sich die Ursache des Signals physikalisch als Wirkung und wird dann in den Daten erfasst, ohne dass das Signal durch Rauschen oder andere unerwünschte oder unbeabsichtigte Faktoren beeinträchtigt wird.

2. Verstehen der Annahmen hinter der Datenerfassung

Das Wissen, welche Faktoren sich auf den Prozess der Datenerfassung auswirken können, kann Ihnen bei der Formulierung von Datenerfassungs- und -vorverarbeitungsstrategien helfen. Damit können mögliche Artefakte reduziert werden, die andernfalls den Fehlschlag eines Machine-Learning-/KI-Ansatzes bewirken können, sofern sie nicht kontrolliert werden. Beispielfragen, die Sie sich bei der Datenerfassung stellen können:

  • Gilt die Annahme, dass ein menschlicher Bediener Mängel nur anhand von Audiosignalen erkennt, obwohl er möglicherweise auch visuelle Hinweise erhält, die Ihnen nicht bekannt sind?
  • Gilt die Annahme, dass die Geschwindigkeit eines Förderbands konstant ist oder dass die Kalibrierung einer Maschine immer konsistent durchgeführt wird?
  • Gilt die Annahme, dass zwei Audioverstärker den gleichen Frequenzgang oder zwei Kameras die gleiche RGB-Reaktion auf die gleiche Bildszene haben werden?
  • Gilt die Annahme, dass zwei Bediener die Maschinen auf die gleiche Art und Weise bedienen oder dass die Temperatur keine Auswirkungen auf Ihre Daten hat?
Ablaufdiagramm mit Blöcken für Ursache, Physik, Wirkung und tatsächliche Daten sowie störender Variabilität für die Physik und Erfassungsartefakten für die tatsächlichen Daten.

In einem realen Szenario wirken sich störende Variablen in der Physik und der Hardware zur Datenerfassung darauf aus, wie sich die Ursache des Signals physikalisch als Wirkung manifestiert und anschließend in den Daten erfasst wird.

Abschnitt

Verstehen der Einschränkungen der erfassten Daten

3. Erfassen reproduzierbarer Daten

Erfassen Sie Daten so, dass die Detektion der physikalischen Mechanismen hinter der gewünschten gemessenen Menge verbessert und eine mögliche störende Variabilität so weit wie möglich gemindert werden. Stellen Sie sich hierzu die folgenden Fragen:

  • Ist es möglich, Messungen unter den gleichen Bedingungen zu wiederholen, um die Reproduzierbarkeit der Daten zu gewährleisten?
  • Verhält sich die Variabilität auf Signalebene vergleichbar, wenn ein Durchlauf wiederholt wird?
  • Wie können Sie sicherstellen, dass die Änderung sich nicht auf die für die Prognose erforderlichen Informationen in den Daten auswirkt, wenn ein Prozess geändert wird, um die Nutzung des Machine-Learning-/KI-Systems zu ermöglichen, beispielsweise bei einem neuen Datenerfassungsprotokoll?
MATLAB-Diagramm mit Zeit auf der x-Achse und Signal auf der y-Achse. Mehrere Messungen überlagern sich.

Beispiel für mehrere Messungen auf der gleichen Stichprobe unter den gleichen Bedingungen. In diesem Fall scheinen die Daten innerhalb eines gewissen Rauschbereichs reproduzierbar zu sein.

4. Experimente zur Überprüfung der Daten

Führen Sie Experimente durch, um die Auswirkungen der Faktoren einer unkontrollierten Datenerfassung auf das Machine-Learning-/KI-Training zu bewerten. Bewerten Sie anhand von Tests das mögliche Ausmaß der Auswirkungen dieser andernfalls unkontrollierten Faktoren und beantworten Sie die folgenden Fragen:

  • Wie können Sie ein Experiment zur Überprüfung der Annahme durchführen, dass eine Variable sich nicht auf die Daten auswirken wird, wenn diese Variable in Ihren Daten nicht kontrolliert oder dargestellt wird?
  • Ist eine bekannte und stabile physische Standardstichprobe möglich, um das System regelmäßig auf Systemabweichungen zu überprüfen, die sich auf die Genauigkeit des Machine Learnings/der KI auswirken können?
  • Wie können Sie nicht überwachtes Lernen (Clustering) einsetzen, um neue Cluster zu suchen, die im Laufe der Zeit erscheinen, und so unkontrollierte Variabilität zu erkennen, die sich auf das endgültige Modell auswirken kann?
  • Wie können Sie die übergroßen Auswirkungen stark korrelierter Signale durch den Einsatz von Hauptkomponenten oder sonstigen Datenreduktionsansätzen zur Dimensionalitätsreduktion verringern?
Ein MATLAB-Diagramm mit Zeit auf der x-Achse und Signal auf der y-Achse mit einer größeren Abweichung zwischen den Messungen als im vorherigen Diagramm.

Das gleiche Diagramm wie oben, allerdings wird die Messung mit einer weit außerhalb des Bereichs liegenden Temperatur wiederholt. Diese Extremtemperaturdaten können Ingenieuren dabei helfen, die Auswirkungen von Temperaturschwankungen unter normalen Betriebsbedingungen zu beurteilen. Der gleiche Ansatz kann auch für EM-Störungen, Rauschen oder andere Faktoren genutzt werden, deren Kombination ein trainiertes KI-/Machine-Learning-Modell beeinträchtigen kann.

Abschnitt

Vorverarbeiten von Daten und Trainieren von Modellen

5. Datenvorverarbeitung

  1. Führen Sie die Vorverarbeitung der Daten idealerweise bis zu einem Zustand durch, in dem ein Mensch die Detektion oder Klassifizierung durchführen könnte. Diese vorverarbeiteten Daten eignen sich mit höherer Wahrscheinlichkeit für das Training eines genauen Machine-Learning-/KI-Modells. Stellen Sie sich die Frage, wie Sie anhand der Lektionen aus Schritt 1–4 ihre Vorverarbeitungsstrategie gestalten können. Je leichter der Trend für einen Menschen in den vorverarbeiteten Daten zu erkennen ist, desto einfacher wird diese Aufgabe für das Machine-Learning-/KI-Modell.
  2. Wenn es bei extremen Experimentbedingungen (z. B. extremen Temperaturen) unmöglich ist, ein Signal zu erkennen, obwohl ein Signal erkennbar sein sollte, beinhalten die Daten möglicherweise nicht die erforderlichen Informationen für eine Machine-Learning-/KI-Detektion oder -Messung.
  3. Nutzen Sie nicht überwachtes Lernen, um nach Anzeichen für erwartetes Clustering zu suchen, und erkennen Sie so unerwartetes Clustering. Dieses kann auf Faktoren hindeuten, die das endgültige Modell verfälschen können.

6. Training

Führen Sie als Erstes ein exploratives Training mit simplen Modellen auf den Daten durch und bewerten Sie anhand der Testdaten, wo sich das vermutete gute Modell befinden sollte. Damit schaffen Sie einen Ausgangswert. Führen Sie anschließend eine Optimierung durch:

  1. Beurteilen Sie in kurzen Trainingssitzungen verschiedene Machine-Learning-/KI-Modelle, um die besten Modelle in Erfahrung zu bringen. Beginnen Sie mit dem einfachsten Modelltyp. Haben Sie einen Modelltyp ausgewählt, optimieren Sie dann die Trainingsoptionen und erkennen Sie Überanpassungen mithilfe der Validierungsdaten. Mithilfe des Testsatzes können Sie überprüfen, ob das Modell auch auf unbekannte Daten gut verallgemeinert werden kann.
  2. Ermitteln Sie anhand der Einblicke aus den Ergebnissen einfacherer Modelle den bestmöglichen Ansatz für die Implementierung komplexerer Modelle.
Abschnitt

Bewerten der Ergebnisse

7. Blindstudie

Vergleichen Sie mittels einer Blindstudie die aktuellen Best Practices für Detektion/Kategorisierung mit dem neuen Machine-Learning-/KI-Modell.

  1. Vergleichen Sie das Machine-Learning-/KI-Verhalten mithilfe einer Blindstudie mit den aktuellen Best Practices. Stellen Sie sicher, dass die Studie sowohl für den bisherigen Ansatz als auch für den Machine-Learning-/KI-Ansatz blind ist. Wenn das Machine Learning/die KI die Aufgaben eines Menschen übernimmt, stellen Sie zudem sicher, dass die Ergebnisse auch für den Menschen blind sind.
  2. Achten Sie bei menschlichen Vergleichen darauf, Signale aus anderen Quellen zu kontrollieren, beispielsweise eine Seriennummer mit einer falschen Reihenfolge oder Markierungen oder Etiketten, die dem menschlichen Bediener zusätzliche Hinweise liefern können. Ziehen Sie geeignete Metriken heran, z. B. Genauigkeit, Trefferquote, Konfusionsmatrizen usw.

8. Überprüfen, Überarbeiten und Wiederholung nach Bedarf

  1. Überprüfen Sie die Ergebnisse der Schritte 5–6. Wenn die Daten nicht so vorverarbeitet werden können, dass die zu erkennenden Merkmale hervorgehoben werden und die Trainingsergebnisse aus Schritt 6 nicht ausreichen:
    1. Überarbeiten Sie die Schritte 1–4 (wenn das Fazit der Überprüfung nicht gut ist), um die Signalpegel und Faktoren zu bewerten, die die zu erkennenden Merkmale verbergen. Versuchen Sie dann, einen besseren Datenerfassungs- oder -vorverarbeitungsansatz zu entwickeln, um die zu erkennenden Merkmale hervorzuheben.
    2. Wiederholen Sie die Schritte 5–7 nach der Überarbeitung der Schritte 1–4, um zu bestimmen, ob längere Testzeiten angemessen sind oder eine weitere Optimierung erforderlich ist.
Abschnitt

Beispielszenarien

In diesen drei hypothetischen Szenarien zu Audiodaten, Bilddaten und Zeitreihendaten wenden fiktionale Anwender die folgenden Best Practices auf ihre Machine-Learning-/KI-Projekte an. Bei vielen Schritten nutzen sie MATLAB.

Audiodaten in der Maschinenproduktion: Erkennen lärmender Bohrer in einer Produktionslinie

Ken leitet ein Team, das Bohrer am Ende einer Produktionslinie testet, indem es die Bohrer einsteckt und von Hand bedient, um ungewöhnliche Geräusche zu erkennen. Kenn möchte diesen Prozess automatisieren und mithilfe eines KI-Modells bestimmen, ob ungewöhnliche Geräusche vorhanden sind. Er möchte die Kosten senken, muss allerdings mehr als 99 % der mangelhaften Bohrer erfassen, um einen ausreichenden geschäftlichen Nutzen nachzuweisen.

Ken befolgt diese Best Practices:

  1. Einholen von Expertenmeinungen
  2. Ken lässt sich von einem Kollegen beraten, der an der Minimierung von Vibrationen arbeitet. Dieser Kollege gibt Ken den Tipp, dass das Geräusch von Bohrern sich je nachdem verändert, wie sie gehalten werden. Kens Kollege verfügt über ein spezielles Gestell, das Ken ausleihen kann, um dieses potenzielle Problem zu verringern, und als standardisierte Plattform nutzen kann.

  3. Verstehen der Annahmen hinter der Datenerfassung
  4. Ken erfasst Daten zu mangelhaften Bohrern während der Stillstandzeit der Produktionslinie. Ein Kollege merkt an, dass die normalen Daten durch Geräusche der Fertigungsanlage verunreinigt werden. Mittels der Detektion von Anomalien bestätigt Ken, dass Maschinengeräusche als Anomalie erkennbar sind und die KI übermäßig beeinflussen können. Ken aktualisiert die Datenerfassungsstrategie, um sicherzustellen, dass Maschinengeräusche gleichermaßen in guten Daten (OK) ohne Mängel und in mangelhaften/schlechten Daten (NG) vorhanden sind. Ebenso kann er Unterschiede in den Hauptkomponenten der guten und der mangelhaften Bohrer erkennen. Er möchte überprüfen, ob dieser Unterschied real ist, und entscheidet sich für eine Überprüfung der Reproduzierbarkeit der Daten.

  5. Erfassen reproduzierbarer Daten
  6. Ken erfasst die Fertigungsgeräusche zur Ergänzung seiner NG-Daten ohne Hintergrundgeräusche aus der Fertigung. Mithilfe des Bohrergestells und anhand der Erkenntnisse aus Schritt 1 und 2 erfasst er neue Daten von seinem Satz von mangelhaften Bohrern mit vorhandenen Fertigungsgeräuschen. Außerdem erfasst er einen guten Bohrer und einen mangelhaften Bohrer mehrfach, um die Wiederholbarkeit oder Veränderungen des Bohrergeräuschs zu überprüfen, da NG-Bohrer in der Regel mehrfach eingeschaltet werden, OK-Bohrer hingegen nur einmalig.

  7. Experimente zur Überprüfung der Daten
  8. Ken vergewissert sich mithilfe der Wavelet Time-Frequency Analyzer-App, dass die Unterschiede zwischen mehreren Aufzeichnungen desselben Bohrers minimal sind, kann aber auch den Unterschied zwischen guten und mangelhaften Bohrern visualisieren. Er probiert verschiedene Ansätze für die Extraktion von Audiomerkmalen aus und trainiert einen Support-Vector-Machine-Klassifikator (SVM), der eine gute Genauigkeit bei der Klassifizierung erzielt. Er könnte versuchen, die Genauigkeit der Klassifizierung mithilfe von fitcauto() oder der Classification Learner-App zu verbessern, um unterschiedliche Machine-Learning-Modelle und Hyperparameter zu evaluieren.

  9. Datenvorverarbeitung
  10. Ken standardisiert die Datenverarbeitung und erweitert seine Daten mithilfe von audioDataAugmenter um zusätzliche Variation. Anschließend nutzt er die Wavelet Time-Frequency Analyzer-App zur Untersuchung unter Verwendung von Wavelets mit den besten Parametern und verarbeitet mit cwt() die Daten im Code für das Training.

  11. Training
  12. Mit cvpartition teilt Ken die Daten in Trainings-, Validierungs- und Testdatensätze auf. Anschließend nutzt er die Experiment Manager-App , um Convolutional Neural Networks (CNNs) mit unterschiedlichen Parametern zu trainieren. Er experimentiert mit den Trainingsparametern des CNN und der Wavelet-Transformation zur Vorverarbeitung der Daten, um Bilder zu formen. Er modifiziert eine vortrainierte KI mithilfe von Transfer Learning, um die Daten für Trainingszwecke zu nutzen. Mithilfe von Visualisierungs- und Erklärbarkeitsmethoden kann er die Prognosen des KI-Modells weiter verifizieren und debuggen.

  13. Blindstudie
  14. Ken erfasst einige neue Daten, anonymisiert sie und lässt sein Team die Daten anhören, um sie als gut oder mangelhaft zu klassifizieren. Kens Team schneidet allein anhand der Audiodaten schlechter ab, und er stellt fest, dass die Teammitglieder die Bohrer einer Sichtprüfung unterziehen, wodurch ihre Entscheidungen bezüglich guter/mangelhafter Bohrer beeinflusst werden.

  15. Überprüfen, Überarbeiten und Wiederholung nach Bedarf
  16. Ken stellt fest, dass das CNN allein anhand der Audiodaten genauso gut abschneidet wie sein Team, obwohl sich die Leistung seines Teams dank der Möglichkeit einer Sichtprüfung verbessert. Für künftige Verbesserungen kann Ken in Betracht ziehen, eine visuelle Überprüfung zur KI hinzuzufügen.

Bilddaten für Medizinprodukte: Erkennen von Verunreinigungen in vorgefüllten Spritzen

Jen wird mit der Entwicklung einer KI zur Erkennung von Verunreinigungen in vorgefüllten Insulinspritzen beauftragt. Sie erhält Bilder von mangelhaften Spritzen mit Anmerkungen zum Mangeltyp. Sie kann einige Mängel nicht erkennen, weil sie nicht dafür geschult ist. Das Unternehmen stellt Spritzen in großen Mengen her, und eine 100%ige manuelle Inspektion ist nicht machbar. Durch eine Erfassung solcher Mängel könnten Probleme mit Rückrufen reduziert werden.

Jen befolgt diese Best Practices:

  1. Einholen von Expertenmeinungen
  2. Jen lässt die Mängel auf den Bildern einkreisen. Bei den Mängeln kann es sich um Partikel, Kratzer oder Verschmutzungen auf der Innen- oder Außenseite der Spritze handeln. Daher muss sie die gesamte Nadel einbeziehen. Einige Bilder weisen Lampenspiegelungen auf, und sie rät dem Kunden, dieses Problem durch Polarisatoren bestmöglich zu beheben.

  3. Verstehen der Annahmen hinter der Datenerfassung
  4. Jen standardisiert die Bilder durch Drehung, Zuschnitt und Normalisierung. Sie sendet die vorverarbeiteten und anonymisierten Bilder zurück an den Kunden. In der Rückmeldung wird bestätigt, dass die Informationen, die für die Klassifizierung durch einen geschulten Techniker benötigt werden, durch die Vorverarbeitung nicht entfernt wurden.

  5. Erfassen reproduzierbarer Daten
  6. Jen fordert vom Kunden weitere Beispiele für gute Bilder an, um besser zu verstehen, was kein Mangel ist und so zu einer höheren Zahl möglicher Bilder führt.

  7. Experimente zur Überprüfung der Daten
  8. Jen verarbeitet die Bilder mithilfe von imageDatastore. Um die Unterschiede besser nachzuvollziehen, legt sie die Spritzen übereinander und sucht mithilfe der Registration Estimator-App sowie mit Bildregistrierung und imsubtract() nach Unterschieden. Sie trainiert das KI-Modell, um Bildanomalien zu erkennen. Anhand der Anomalie-Heatmap kann Jen besser verstehen, an welcher Stelle die Spritzenmängel auftreten können.

  9. Datenvorverarbeitung
  10. Anhand der ersten drei Schritte erarbeitet Jen eine Vorverarbeitungsstrategie. Mithilfe von createMask() entfernt sie den Hintergrund (Tischoberfläche), der vom Training des KI-Modells ausgeschlossen sein sollte. Mithilfe von Image Labeler erstellt sie einen boxLabelDatastore zum Trainieren der KI auf die verschiedenen Mangeltypen. Sie vergrößert die Trainingsbilder mithilfe von Bildaugmentation, um die Bilder zu verändern und einen größeren Trainingsdatensatz zu erzeugen, und passt die Begrenzungsrahmen für die veränderten Bilder mit bboxwarp() an.

  11. Training
  12. Jen verwendet einen YOLOX-Objektdetektor zur Erkennung der Mangeltypen. Nach der vorläufigen Klassifizierung bemerkt sie, dass eine der Klassen häufiger falsch klassifiziert wird. Sie fügt dieser Klasse weitere Trainingsdaten hinzu und beobachtet eine Reduzierung des Aufkommens des Klassifizierungsfehlers.

  13. Blindstudie
  14. Jen paketiert die KI mithilfe von App Designer und kompiliert sie mit MATLAB Compiler™, um sie dem Kunden für Tests zur Verfügung zu stellen. Für die kompilierte App ist keine MATLAB-Lizenz erforderlich.

  15. Überprüfen, Überarbeiten und Wiederholung nach Bedarf
  16. Der Kunde testet die App und schickt Jen Beispiele für falsch klassifizierte Bilder, damit sie ein zweites Training durchführen kann.

Prognose von Frühausfällen von Ventilen in einer Gasturbine

Ben wird beauftragt, mithilfe von Machine Learning/KI anhand von Prüfstanddaten vor der Auslieferung zu prognostizieren, ob es zu einem Frühausfall kommen wird, nachdem die Mikroturbinen (MTs) seines Unternehmens ausgeliefert wurden. Trotz einer großen Menge von Prüfstanddaten steht ihm nur ein Datensatz für die Zeit direkt vor und während eines Ausfallsereignisses zur Verfügung. Ausfälle treten zwar selten auf, haben aber ernsthafte Konsequenzen für die Kunden von Bens Unternehmen.

Ben befolgt diese Best Practices:

  1. Einholen von Expertenmeinungen
  2. Ben erfährt, dass der Ausfall offenbar mit Ablagerungen in Verbindung steht, die nach 100 bis 200 Betriebsstunden einen Lagerschaden im Kompressor verursachen. Die Ursache dieses Problems ist allerdings unbekannt.

  3. Verstehen der Annahmen hinter der Datenerfassung
  4. Es wurde großer Aufwand betrieben, um die Konsistenz des Prüfstandtests zu gewährleisten. Die verbleibenden Abweichungen bei der Datenerfassung sind durch weniger kontrollierbare Faktoren wie Umgebungstemperatur, Druck, Öl- und Kraftstoffzusammensetzung sowie das menschliche Bedienpersonal bedingt.

  5. Erfassen reproduzierbarer Daten
  6. Ben liegt nur ein Beispiel für Daten zu einem Ausfall vor, daher erstellt er einen digitalen Zwilling. Er beginnt mit dem Gasturbinenmodell in Simulink®, aktualisiert es mit dem Lagerverhalten mit Ablagerungen und stimmt es mithilfe der Parameter Estimator-App (8:37) ab, um die echte Gasturbine nachzuahmen.

  7. Experimente zur Überprüfung der Daten
  8. Ben simuliert Schäden an den Lagern. Das Modell basiert dabei auf guten Daten sowie seinem Beispiel für Ausfalldaten. Die Signale, die 100 Stunden vor dem Ausfall in den Daten des Simulationsmodells auf einen Ausfall hindeuten, sind laut der Prognose kleiner als das Rauschen in den realen Daten. Ben fügt synthetisches Rauschen hinzu und stellt dann fest, dass ein erweiterter Kalman-Filter Mangeltrends erkennen kann.

  9. Datenvorverarbeitung
  10. Ben untersucht die Modelldaten mithilfe von Vibrationssignalen und Änderungen der Frequenz-Drehzahl-Karte, um zu erkennen, wie sich Lagerschäden im Gesamtsystem bemerkbar machen, und besser zu verstehen, worauf er bei den realen Daten achten muss. Die realen Daten erfordern eine Umwandlung der Signaleinheiten von Zeitraum (Sekunden) in Frequenz (Hz). Die Daten weisen zahlreiche kollineare Signale auf. Ben verwendet die Hauptkomponenten zur Datenreduktion.

  11. Training
  12. Es ist zu erwarten, dass das hochfrequente Rauschen über kurze Zeiträume das Signal verdecken wird, aber die niederfrequente Verschiebung im Laufe der Zeit den Mangel offenbart. Daher entscheidet sich Ben für ein LSTM, das den längerfristigen Trend erkennen kann. Anhand der verlängerten Testzeiträume scheint das LSTM die kleine Verschiebung (Verschlechterung) zu erkennen, die auf Basis der Modelldaten auf ein Problem hindeutet.

  13. Blindstudie
  14. Ben trainiert ein LSTM auf einem größeren Datensatz und richtet eine Blindstudie ein, in der anhand der Modelldaten die wahrscheinlichen Detektionsbereiche auf einem realen System bewertet werden.

  15. Überprüfen, Überarbeiten und Wiederholung nach Bedarf
  16. Ben stellt fest, dass er die Testzeit der Turbine auf dem Prüfstand verlängern muss, um kleine Verschiebungen im Zusammenhang mit Ausfällen erkennen zu können, und stellt eine Kosten-Nutzen-Analyse zusammen, um die Kosten der längeren Turbinentests im Sinne dieser Erkennung zu rechtfertigen.

Ben wendet das Tool zur Detektion von Anomalien auf die guten Rohdaten an und erkennt, dass höhere Umgebungstemperaturen und ein bestimmter Bediener mit höherer Wahrscheinlichkeit mit Ausreißern außerhalb des Schwellenwerts des Anomaliedetektors im Zusammenhang stehen und daher mit Frühausfällen in Verbindung gebracht werden können. Dies verlangt nach weiteren Untersuchungen.

Erfahren Sie mehr – mit Tipps, die über die Datenbereinigung und -vorverarbeitung für Deep Learning und Machine Learning für Signalverarbeitungsanwendungen hinausgehen.

Abschnitt

Fazit

Machine-Learning-/KI-Modelle können langwierige und fehleranfällige manuelle Tests und Qualitätssicherungsvorgänge in Produktionsumgebungen ersetzen. Ausfälle in der Produktion haben zwar ernste Folgen, treten allerdings selten auf, sodass ihre Ursachen nicht immer verstanden werden.

Daher kann es schwierig erscheinen, Machine-Learning-/KI-Lösungen auf eine zuverlässige Art und Weise zu implementieren. Mit einem guten Verständnis der Daten können Sie allerdings gute Datensätze für das Training generieren.

Mithilfe der oben geschilderten acht Schritte und der Beispielszenarien können Sie die Datenqualität systematischer angehen und die Lücke zwischen einem Machine-Learning-/KI-Konzept und seiner erfolgreichen Implementierung schließen.

MATLAB kann Ihnen dabei behilflich sein.

Ein Screenshot mit einer Auswahl von Apps aus der MATLAB-Werkzeugleiste: Data Cleaner, Image Labeler, Classification Learner, Signal Analyzer, Wavelet Time-Frequency Analyzer, Audio Labeler und Wavelet Analyzer.

MATLAB-Apps für Machine Learning und die Arbeit mit Audio-, Bild- und Zeitreihendaten.

Über den Autor

Mike Simcock ist Senior Consultant bei MathWorks und arbeitet an Projekten mit realen Daten, die die Datenverarbeitung für KI und andere Anwendungen voraussetzen. Vor seiner Arbeit bei MathWorks war Mike Simrock als Senior Consultant bei Altran und als Principal R&D Scientist bei Malvern Instruments, Halliburton und Ometric tätig. Er hat einen B.Sc.-Abschluss in Chemie und einen Doktortitel in Halbleitermaterialien von der University of Salford. Er hat zahlreiche extern begutachtete Publikationen mit experimentellen Daten veröffentlicht und besitzt etwa 20 Patente im Zusammenhang mit der Herstellung von Dünnschicht-Optik und der Anwendung optischer Instrumente. Der Einsatz von MATLAB ist eine Gemeinsamkeit dieser Tätigkeiten.