Cyberangriffe mit KI stoppen

Mathematik plus Machine Learning erkennt bösartigen Datenverkehr sofort und wehrt ihn ab

Forschung mit MATLAB und Simulink

Der Krieg in der Ukraine hat weltweit zu einem dramatischen Anstieg von DDoS-Angriffen (Distributed Denial of Service) geführt. Dies sind digitale Angriffe, die Websites zum Absturz bringen können, indem sie den angegriffenen Server mit einer Flut von Internetdaten überschwemmen. Jedes Jahr kommt es zu Millionen Fällen, deren Anzahl und Umfang weiter zunehmen. Etwa ein Drittel der Ausfallzeiten von Websites ist auf DDoS-Angriffe zurückzuführen.

„DDoS-Cyberangriffe sollen Chaos stiften, Institutionen stören und natürlich finanzielle Verluste verursachen“, erklärt Michał Karpowicz, Informatiker und Forschungsleiter am NASK‬, dem polnischen nationalen Forschungsinstitut für Cybersicherheit und KI. „Dazu kommt, dass sie sehr verbreitet sind, weil sie relativ leicht zu erzeugen sind.“

Bei einem typischen DDoS-Angriff nutzt ein Täter viele Computer und Online-Geräte, die mit speziell entwickelter Malware infiziert sind. Zu diesen Geräten können Gadgets im Internet der Dinge (IoT) gehören – Küchengeräte, Sicherheitskameras und Thermostate –, deren Anzahl täglich wächst. Aktuell umfasst das IoT mehr als 10 Milliarden Geräte – eine riesige Armee, die nur darauf wartet, rekrutiert zu werden. Die Angriffe erfolgen in der Regel auf eine von zwei Arten oder eine Kombination von beiden. Bei volumetrischen Angriffen überschwemmen infizierte Geräte das Zielnetzwerk gleichzeitig mit einem extremen Verkehrsaufkommen und überlasten die Kapazitäten für seine normalen Nutzer. Hingegen stellen sie bei einem Anwendungsangriff Anfragen, die dem Server umfangreiche Berechnungen abverlangen und ihn damit letztendlich überlasten.

Karpowicz beschreibt das Problem mithilfe eines allgemein vertrauten Szenarios. Stellen Sie sich vor, dass Sie zur Bank fahren. Es ist kaum Verkehr und alles verläuft reibungslos, bis Sie die letzte Kreuzung erreichen. Plötzlich staut sich alles und Sie müssen warten. Das versteht man unter einem volumetrischen Angriff. Stellen Sie sich nun vor, dass Sie endlich in der Bank angekommen sind und in der Schlange vor dem Schalter stehen. Sie bemerken, dass der Kunde vor Ihnen ein ungewöhnliches Problem hat, das die Aufmerksamkeit aller Bankangestellten erfordert. Und wieder müssen Sie warten. Das ist ein Anwendungsangriff.

„DDoS-Cyberangriffe sollen Chaos stiften, Institutionen stören und natürlich finanzielle Verluste verursachen. Dazu kommt, dass sie sehr verbreitet sind, weil sie relativ leicht zu erzeugen sind.“

Illustration einer städtischen Kreuzung: Auf allen vier Straßen staut sich der Verkehr und ein Fahrzeug wartet auf die Überquerung der Kreuzung. — Bei einem volumetrischen Angriff wird das Netz mit einem extremen Verkehrsaufkommen überflutet, sodass es überlastet wird, ähnlich wie der Autoverkehr die Straßen einer Stadt überlasten kann.

Illustration von Menschen, die hinter einem Kunden an einem Bankschalter Schlange stehen, während alle Bankangestellten einen Kunden bedienen. — Ein Anwendungsangriff überlastet den Server mit umfangreichen Berechnungen, die alle anderen Aktivitäten zum Stillstand bringen.

Malware kann die Quelle der Anfragen verbergen, sodass Angriffe schwer zu stoppen sind. Außerdem gibt es Dienste, von denen solche Angriffe gemietet werden können und die damit einem breiten Publikum zugänglich werden. Solche Dienste werden von verärgerten Angestellten, Aktivisten, Marktkonkurrenten und Nationen ins Leben gerufen. Karpowicz merkt an, dass NASK während der Lockdowns in der Pandemie mehrere Angriffe entdeckte, die von Studierenden-Netzwerken zu Beginn der Vorlesungen gestartet wurden, um die Online-Prüfungen zu verhindern.

Vor Kurzem hat Karpowicz jedoch verschiedene mathematische Methoden entwickelt, um diese bösartigen Anfragen zu erkennen, zu stoppen oder umzuleiten. „Wenn man mit einem in der Realität verwurzelten Problem konfrontiert wird“, erklärt er, „verleiht das eine Menge Inspiration“.

Fingerabdrücke ohne Vorbereitung

Informationen im Internet, einschließlich der Anfragen an Websites, bestehen aus Datenpaketen. Jedes Paket hat einen Header, der als eindeutige Kennung fungiert und die Größe, die Herkunft und das Ziel des Pakets beschreibt. Typische Abwehrmaßnahmen sehen sich diese Header an und gleichen sie mit einer Verbotsliste ab. Die Abwehrsysteme leiten dann die schädlichen Pakete an harmlose Ziele um.

Das Problem ist, dass diese Liste vorab vorhanden sein muss und dass Angreifer häufig die Header ändern, um ihrer Entdeckung zu entgehen. Die Lösung von Karpowicz erkennt stattdessen die Muster des Netzwerkverkehrs in Echtzeit.

Stellen Sie sich eine Reihe von Verkehrskameras an städtischen Kreuzungen vor. Wenn man sich eine zufällige Auswahl diverser Videoclips ansieht, fällt eine plötzliche Häufung von blauen Cabriolets an einem bestimmten Ort auf. Verdächtig. So können Sie sich die Autos genauer ansehen, mehr über sie erfahren und möglicherweise mehr von ihnen anhalten.

Die Methode nimmt Netzwerkdaten und übersetzt sie in Signaldaten. Die Aufgabe besteht dann darin, die verschiedenen Signalquellen voneinander zu trennen. Karpowicz vergleicht das mit dem Cocktailparty-Problem (auch bekannt als: selektives Hören), bei dem man auf einer Party von Gesprächen umgeben ist und die Worte der Person, die mit einem spricht, herausfiltern muss.

Hierfür nutzt er lineare Algebra. Die Signale, oder Header der Pakete, füllen dabei Matrizen. In einer Matrix repräsentiert im Laufe der Zeit jede Zeile Pakete eines bestimmten Typs, der durch die Paketgröße, die Quelle oder einen anderen Faktor definiert wird.

Die Autos in der Metapher für den Fahrzeugverkehr könnten also Zeilen für blaue Fahrzeuge, Minivans und Autos aus Kalifornien darstellen. Die Werte, die die Zellen in einer bestimmten Matrix füllen, zeigen etwas an, das für die Identifizierung eines Angriffs relevant sein könnte. In einer der Matrizen könnte jede Zelle die Anzahl der Flags, in einer anderen die Anzahl der Bits pro Sekunde enthalten. Karpowicz entschlüsselt daraufhin, welche Merkmalskombinationen bei diesen Metriken besonders häufig sind. Nicht nur blaue Autos oder Cabriolets, sondern blaue Cabriolets.

Liniendiagramm, das einen großen Strom von Paketen von einer Quell-IP-Adresse auf der linken Seite zu einer Zielanwendung auf der rechten Seite zeigt. — Ein volumetrischer Angriff wurde im FLDX-System entdeckt. (Bildquelle: Michał Karpowicz)

Sobald er diese Kombinationen von Merkmalen gefunden hat, überträgt er sie zurück in die Netzwerkwelt und erstellt Regeln für Firewalls. Übertragen auf die Fahrzeug-Metapher bedeutet das: Wenn er weiß, dass blaue Autos einer bestimmten Marke und eines bestimmten Modells das Problem verursachen, erstellt er Kamerafilter, die diese Autos sofort erkennen. Er nennt seine auf linearer Algebra basierende Methode daher Meta-Faktorisierung. Eine Fachveröffentlichung zur Meta-Faktorisierung wird derzeit überprüft.

Karpowicz implementiert diese Berechnungen in MATLAB^®. „Lineare-Algebra-Algorithmen sind die schnellsten bekannten Algorithmen in der Wissenschaft“, erläutert er, „das macht diese Methode sehr effizient.“

Verkehrsstopps

Die Erkennung bösartiger Pakete ist nur ein Teil des Problems – die Verteidiger müssen sie auch kontrollieren. Zu der Lösung, sagt Karpowicz, sei er durch Zufall gekommen. Vor etwa zehn Jahren arbeitete er an einem Projekt zur Steigerung der Energieeffizienz von Netzwerkgeräten. Er wollte das Verkehrsaufkommen vorhersagen und die Paketströme auf Routen umleiten, die sie bewältigen konnten. Als er das Projekt mit einem Kollegen besprach, der sich mit Cybersicherheit befasste, meinte dieser, dass es auch zur Bekämpfung von DDoS-Angriffen eingesetzt werden könnte. „Wir haben mit der Idee gespielt“, erinnert sich Karpowicz, „und nach und nach wurde daraus eine neue Technologie entwickelt.“

In einem Fachartikel, der letztes Jahr im European Journal of Control veröffentlicht wurde, beschreibt Karpowicz das Ergebnis: eine Methode, die als Adaptive Tuning bezeichnet wird. Typische Kontrollsysteme für den Netzwerkverkehr erhalten keine Rückmeldung über ihre Leistung. Sie wehren Angriffe ab, indem sie den gesamten Verkehr stoppen, der in irgendeiner Weise mit dem Angriff in Verbindung steht. Das ist häufig zu überzogen, da es auch den rechtmäßigen Verkehr stoppen kann. Karpowicz schlägt vor, Verkehrssteuerungen mit Rückmeldung zu verwenden, damit sie erkennen, ob sie die richtigen Pakete umleiten.

„Die Cybersicherheit stellte mich vor große wissenschaftliche und vor allem mathematische Herausforderungen“, stellt er fest. Theorie und Praxis ergänzten sich dabei gegenseitig. „Genau das hat mich angetrieben. Ich hatte das Gefühl, dass da etwas dran ist und dass es ein Problem gibt, für das es Lösungen braucht.“ Zusammen bilden die Erkennungs- und Kontrollsysteme die Grundlage für einen von NASK angebotenen Dienst namens FLDX, der inzwischen patentiert wurde. Er kann Angriffe innerhalb von 5 Sekunden erkennen und in nur 10 Sekunden entschärfen.

„Das ist Machine Learning in seiner besten Form. Wir müssen nicht erst riesige Datensätze sammeln, um das System zu optimieren, bevor es in Betrieb geht. Sobald es installiert ist, ist es einsatzbereit.“

Die grafische Benutzeroberfläche von FLDX, die ein Dashboard zur Verkehrsüberwachung anzeigt. Das obere Diagramm zeigt den Datenverkehr in Bits pro Sekunde, das untere Diagramm den Datenverkehr in Paketen pro Sekunde an. — Das FLDX-System erkennt DDoS-Angriffe in Echtzeit. (Bildquelle: Michał Karpowicz)

NASK setzt FLDX in ganz Polen ein und schützt landesweite Netzwerke mithilfe eines verteilten Clusters aus virtuellen Maschinen. „Das Besondere an der gesamten Lösung ist, dass es sich nicht nur um ein Cybersicherheitssystem, sondern auch um eine Forschungsplattform handelt“, erläutert Karpowicz. „Sie ermöglicht die Programmierung eigener Algorithmen zur Erkennung und Unterdrückung von Angriffen in MATLAB. Sie ermöglicht den Zugriff auf Daten, die wir in MATLAB sammeln, und man kann alle Vorteile dieser Technologie nutzen, um die Daten- und Signalverarbeitung, das Machine Learning und künstliche Intelligenz (KI) auf der Grundlage der von uns bereitgestellten Verkehrsmuster einzusetzen.“

Sowohl die Erkennungs- als auch die adaptiven Abstimmungsalgorithmen nutzen Machine Learning, insbesondere eine Art des sogenannten teilüberwachten Lernens, bei dem nicht viele manuell gekennzeichnete Daten für das Training benötigt werden. „Wir kodieren ein wenig Expertenwissen in die Lernalgorithmen und lassen sie dann ihre Arbeit machen“, führt Karpowicz aus. „Und ihre Aufgabe ist, herauszufinden, was in der Welt vor sich geht.“

Sie finden statistische Regelmäßigkeiten in großen Datenmengen und erkennen z. B. clusterartige Häufungen eines bestimmten Fahrzeugtyps. „Das ist Machine Learning in seiner besten Form“, verdeutlicht er. „Wir müssen nicht erst riesige Datensätze sammeln, um das System zu optimieren, bevor es in Betrieb geht. Es ist sofort nach der Installation einsatzbereit.“

Der Detektor verwendet ein „Abstimmungssystem“, um anomale Datenströme zu identifizieren. Es optimiert zudem Matrizen durch das Lösen von Gleichungen. Selbst wenn das Netzwerkverhalten nichtlinear ist, d. h. wenn einige Faktoren überproportionale Auswirkungen haben, können lineare Gleichungen den Großteil der Muster erfassen.

Wissenschaftler und Ingenieure können mit MATLAB auf den NASK-Datensatz zugreifen – und da bereits viele technische Universitäten diese Software verwenden, „ist das überaus praktisch“. Der NASK-Datensatz ist einzigartig, weil er aus Verkehrsdaten aus dem ganzen Land besteht und eine hohe Stichprobenrate aufweist.

Die grafische Benutzeroberfläche von FLDX zeigt pro Tag ein Liniendiagramm des Datenverkehrs von 0 Gb/s bis 60 Gb/s auf der y-Achse und 0 bis 24 Stunden auf der x-Achse an. — FLDX mit Anzeige getrennter Verkehrsströme. (Bildquelle: Michał Karpowicz)

Die Forschungsarbeiten des NASK befassen sich mit der Dynamik des Datenverkehrs, den Schwachstellen der Ziele sowie den Quellen, der Häufigkeit und den Methoden der Angriffe. FLDX wird zum Schutz öffentlicher und gewerblicher Kunden, darunter Schulen und Impfstellen, eingesetzt. „Das Vertrauen seiner Kollegen im Bereich der Cybersicherheit zu gewinnen, war eine große Überraschung“, merkt Karpowicz an. „Es dauert seine Zeit, bis Wissenschaftler in der Abteilung für Cybersicherheitstechnik respektiert werden. Sie müssen zeigen, dass Sie deren Arbeit verstehen, und dass Sie etwas Nützliches tun. Aber mit FLDX „erhält man Zugang zu diesem Spielfeld, auf dem man tatsächlich etwas bewirken kann. Und das ist etwas ganz Besonderes am NASK. Wir haben einen sehr kurzen Weg vom Labor zur Technologie und zum Einsatz.“

Karpowicz arbeitet inzwischen auch mit anderen Institutionen zusammen, darunter das MIT und die University of Technology Sydney. „Ich wünsche mir, dass das NASK weltweit für Cybersicherheit und KI bekannt wird“, fügt er an. Es ist auf dem Weg dorthin.

Forschung mit MATLAB und Simulink

Weitere Informationen

Weitere Berichte lesen

INTERNET DER DINGE (IOT)

Cyberangriffe mit KI stoppen

Mathematik plus Machine Learning erkennt bösartigen Datenverkehr sofort und wehrt ihn ab

Forschung mit MATLAB und Simulink

Fingerabdrücke ohne Vorbereitung

Verkehrsstopps

Forschung mit MATLAB und Simulink

Weitere Berichte lesen

Mehr Sicherheit vor Cyberangriffen durch moderne statische Codeanalysen

Visionär denkende Unternehmerinnen entwickeln einzigartige Kommunikationslösungen

Luftschiff versorgt ländliche Gebiete mit mobilem Breitband