Eingabehilfen öffnen

  • Inhaltsskalierung 100%
  • Schriftgröße 100%
  • Zeilenhöhe 100%
  • Buchstabenabstand 100%

KI-Blog

Adversarial Attacks: Angriffe auf AI-basierte Systeme – Fiktion oder Realität?

Ein Beitrag von Andreas Strunz

Ein hochspannendes und vergleichsweise junges Thema ist die Frage, ob und wie Systeme, die Künstliche Intelligenz einsetzen, angreifbar sind und wie man diese Angriffe entdecken bzw. sich davor schützen kann. In den letzten Jahren hat die wissenschaftliche Forschung hierzu einige Beiträge geliefert und nicht zuletzt durch die zunehmende Verbreitung von KI-Systemen beginnt auch die Praxis, sich damit zu beschäftigen.

Versuch einer Definition

Adversarial Attacks sind bewusste Angriffe, die mit Hilfe von modifiziertem Dateninput ("adversarial examples") Machine Learning und i.e.S. Deep Learning-Modelle so im Interesse eines Angreifers manipulieren, dass die Modelle entweder nicht mehr gut funktionieren oder sie so umfunktioniert werden, dass sie den Zwecken des Angreifers dienen. Die Motive dahinter sind vielfältiger Natur. Das könnten betrügerische Zwecke sein, Sabotageakte oder schlicht die Lust am Hacking.

Zu betonen ist allerdings, dass der Angreifer in irgendeiner Art und Weise Zugriff auf das System haben muss, sei es durch Up-/Download-Möglichkeiten, eine API (Application Programming Interface) oder real existierende Objekte (z.B. bei der Bilderkennung). Systeme innerhalb von Unternehmen und Organisationen, sei es on premise oder in der Cloud, müssen zwar auch geschützt werden, aber die Angriffsmöglichkeiten sind hier deutlich geringer, als in Systemen, in denen KI als Service außerhalb eines geschlossenen Bereichs einer größeren Zahl von Anwendern zugänglich ist.

Evasion Attacks zielen beispielsweise darauf ab, einen von der KI gewünschten Effekt zu vermeiden oder zu umgehen, etwa ein KI-gestützter Spam-Filter. Von Poisoning spricht man generell, wenn es darum geht saubere Datenbestände zu kontaminieren. Und schließlich zielen Privacy Attacks darauf ab, digitale Identitäten zu manipulieren, wie etwa bei Zugangskontrollen.

Darüber hinaus unterscheidet man zwischen White Box- und Black Box-Attacks. Bei Ersteren kennt der Angreifer den Datenbestand und / oder das verwendete KI-Modell, bei Letzteren ist dies nicht der Fall. Der Angreifer kann allerdings aus den gelieferten Ergebnissen Rückschlüsse auf das Modell ziehen und so mit weiteren Angriffen seine Treffgenauigkeit Stück für Stück verfeinern. Die Forschung hat gezeigt, dass sich derartige Angriffe auf verschiedene Gegenstände wie Text, Audio, Bilder, Video und Steuerungssysteme beziehen können und ebenfalls im Grundsatz auf alle Arten von KI-Modellen.

 

Ein paar Beispiele aus der Forschung

Durch Hinzufügen eines wohlkomponierten Bildrauschens lassen sich Bilder, die als Input verwendet werden, dahingehend manipulieren, dass die KI nun statt eines Pandas das Bild als Gibbon klassifiziert. Setzt man einem Menschen, der zuvor im Wege der Image Recognition korrekt erkannt wurde, eine Spezialbrille auf, so klassifiziert die KI ihn nun als berühmte Schauspielerin. Und schließlich wurden Versuche unternommen, ein Stopp-Schild mit Markern zu versehen, so dass die KI dieses nun als Geschwindigkeitsbegrenzung eingestuft hat. Dies sind Beispiele aus der Bildverarbeitung, aber auch Audio- und Videosequenzen lassen sich dahingehend manipulieren, dass bereits mit wenigen realen Beispielen ganze sogenannten Deep Fake Videos erzeugt werden können.

Am stark vereinfachten Beispiel eines neuronalen Netzes sieht das so aus: Im Normalfall wird ein NN im Input Layer mit einem Vektor an Zahlenwerten (z.B. die RGB-Werte eines Bildes) gespeist. Jedes dieser Neuronen wird dann, mit einer Gewichtung versehen, an einen oder mehrere Hidden Layer übermittelt und dort neu berechnet bis schließlich im Output Layer die KI zu einer Klassifizierung führt, also z.B. die Einordnung als Panda. Das wird beim ersten Mal noch nicht gut funktionieren, aber wenn man Trainingsdaten hat, bei denen man im Voraus schon das Ergebnis kennt, versucht man über eine Rückrechnung (Backpropagation) schrittweise die Gewichte und einen hinzugefügten Grenzwert, ab dem ein Neuron „feuert“, so zu optimieren, dass die KI im Training einen möglichst großen Prozentsatz der eingespeisten Bilder richtig klassifiziert. Zwischen dem gelieferten und dem erwarteten Ergebnis liegt ein Fehler dessen Wert, beispielsweise über die sogenannte Stochastic Gradient Descent-Methode schrittweise in Richtung eines lokalen oder absoluten Minimums optimiert wird. Das kann man sich so vorstellen, als würde eine Kugel einen Abhang ins Tal herunterrollen.

Bei einem Adversarial Attack hingegen versucht der Angreifer, die Kugel in eine andere Richtung rollen zu lassen, so dass dann Pandas eben als solche schlechter erkannt werden und stattdessen Gibbons daraus werden. Das geschieht dadurch, dass man einem Bild ein Rauschen hinzufügt, also eine geringfüge Veränderung der RGB-Werte. Diese Abweichung, auch als Epsilon-Wert bezeichnet, ist für das menschliche Auge kaum erkennbar, aber für eine hochsensible KI eben schon. Dadurch entsteht ein Zielkonflikt zwischen Robustheit und Genauigkeit. Die Auswertung der Ergebnisse verschiedener Modelle der sogenannten ImageNet-Challenge hat gezeigt, dass ein Modell zwar hochgenau getrimmt werden kann, dadurch aber sensibler auf Veränderungen der Input-Daten reagiert, was zu Lasten der Robustheit geht. Das ist etwa so, als würde man ein Rennpferd mit einem Brauereiross hinsichtlich der beiden Dimensionen Robustheit und Geschwindigkeit vergleichen.

 

Denkbare Fälle

Von Zugangskontrollen, Identitätsdiebstahl und Digital Fingerprints war oben schon die Rede. Aber auch VoiceBots oder Voice Assistants wie Alexa, Siri und Cortana könnten theoretisch mit gefakten Stimmen manipuliert werden. Autonomes Fahren oder die Funktion von Überwachungskameras könnten ebenso durch physische Manipulationen wie Marker oder sogenannte Stealth Streetware beeinträchtigt werden. Auch Textmanipulationen sind denkbar, die sich dann auf Spamfilter oder SEO Boosting (Website Ranking) auswirken. Ein Beispiel für Social Media Trolling ereignete sich bereits 2016, als Microsoft den AI-gesteuerten Avatar Tay auf Twitter veröffentlichte um sich über diesen ChatBot zu unterhalten und personalisierte Profile zu erstellen. Durch gezielte Troll-Attacken verwandelte sich der Avatar in einen Hate-Speech-Bot, so dass Micosoft bereits nach etwa 16 Stunden und 96.000 Tweets den Avatar wieder vom Netz nehmen musste.

 

Ist das nun das Ende von KI?

Um es gleich vorwegzunehmen. Die Antwort lautet: „Nein, aber…“ .

Viele dieser Beispiele sind im Forschungsumfeld angesiedelt, in dem besondere experimentelle Bedingungen herrschen. Auch braucht es schon ein gehöriges Maß an Spezialwissen, um Adversarial Attacks zu fahren, was allerdings etwa bei Geheimdiensten oder erfahrenen Hackern nicht ausgeschlossen ist. Darüber hinaus haben sich parallel zu den Forschungsergebnissen eine Reihe von Frameworks und Libraries wie etwa cleverhans oder IBM Clever Robustness Score etabliert, die Robustheitsanalysen von AI-Systemen durchführen und die AI-Sicherheit evaluieren können. Dies ist wichtig, um das Erkennen eines Adversarial Attacks zu ermöglichen. Und schließlich lassen sich Abwehrstrategien entwickeln, etwa die zeitliche oder quantitative Limitierung des Inputs, eine vorherige Validierung desselben und das Vorab-Training von AI-Modellen mit antizipierten Adversarial Examples. Auch die Verwendung mehrerer Modelle, von denen der Angreifer nicht weiß, welches zum Zuge kommt, erschwert Attacken. Letztlich läuft das auf ein Katz-und-Maus-Spiel zwischen Angreifern und Verteidigern hinaus. Das „Aber“ führt uns nun direkt zu einem vorläufigen Fazit.

Fazit

Die Forschung hat gezeigt, dass Adversarial Attacks keineswegs Fiktion, sondern machbar sind. In dem Maße, wie KI-Systeme Dritten zugänglich sind, sind sie auch anfällig dafür. Mit einer zunehmenden Verbreitung von KI-Systemen im Alltag könnten sie daher auch Realität werden. KI ist allerdings bereits so weit in viele unserer Lebensbereiche vorgedrungen, dass wir diesen Aspekt der Digitalisierung nicht mehr aufhalten können. Wir müssen uns daher den Herausforderungen stellen und – ähnlich wie bei anderen sicherheitsrelevanten Themen auch – geeignete Erkennungs- und Abwehrmaßnahmen entwickeln. Sicherheitsbehörden und Gesetzgeber werden auf diesem Feld ebenso tätig werden müssen wie Unternehmen und Organisationen. Daraus erwachsen andererseits interessante Zukunftschancen für Lösungsanbieter. Neue Berufsbilder, wie das eines KI-Security-Experten werden entstehen. Es bleibt also spannend.

Andreas Strunz msg

Über den Autor

Andreas Strunz ist Director im Bereich Change & Transformation bei msg for banking ag. Im Business Consulting beschäftigt er sich neben den Einsatzmöglichkeiten künstlicher Intelligenz im Finanzwesen mit strategischen Zukunftsthemen der Branche.

Versuch einer Definition

Adversarial Attacks sind bewusste Angriffe, die mit Hilfe von modifiziertem Dateninput ("adversarial examples") Machine Learning und i.e.S. Deep Learning-Modelle so im Interesse eines Angreifers manipulieren, dass die Modelle entweder nicht mehr gut funktionieren oder sie so umfunktioniert werden, dass sie den Zwecken des Angreifers dienen. Die Motive dahinter sind vielfältiger Natur. Das könnten betrügerische Zwecke sein, Sabotageakte oder schlicht die Lust am Hacking.

Zu betonen ist allerdings, dass der Angreifer in irgendeiner Art und Weise Zugriff auf das System haben muss, sei es durch Up-/Download-Möglichkeiten, eine API (Application Programming Interface) oder real existierende Objekte (z.B. bei der Bilderkennung). Systeme innerhalb von Unternehmen und Organisationen, sei es on premise oder in der Cloud, müssen zwar auch geschützt werden, aber die Angriffsmöglichkeiten sind hier deutlich geringer, als in Systemen, in denen KI als Service außerhalb eines geschlossenen Bereichs einer größeren Zahl von Anwendern zugänglich ist.

Evasion Attacks zielen beispielsweise darauf ab, einen von der KI gewünschten Effekt zu vermeiden oder zu umgehen, etwa ein KI-gestützter Spam-Filter. Von Poisoning spricht man generell, wenn es darum geht saubere Datenbestände zu kontaminieren. Und schließlich zielen Privacy Attacks darauf ab, digitale Identitäten zu manipulieren, wie etwa bei Zugangskontrollen.

Darüber hinaus unterscheidet man zwischen White Box- und Black Box-Attacks. Bei Ersteren kennt der Angreifer den Datenbestand und / oder das verwendete KI-Modell, bei Letzteren ist dies nicht der Fall. Der Angreifer kann allerdings aus den gelieferten Ergebnissen Rückschlüsse auf das Modell ziehen und so mit weiteren Angriffen seine Treffgenauigkeit Stück für Stück verfeinern. Die Forschung hat gezeigt, dass sich derartige Angriffe auf verschiedene Gegenstände wie Text, Audio, Bilder, Video und Steuerungssysteme beziehen können und ebenfalls im Grundsatz auf alle Arten von KI-Modellen.

 

Ein paar Beispiele aus der Forschung

Durch Hinzufügen eines wohlkomponierten Bildrauschens lassen sich Bilder, die als Input verwendet werden, dahingehend manipulieren, dass die KI nun statt eines Pandas das Bild als Gibbon klassifiziert. Setzt man einem Menschen, der zuvor im Wege der Image Recognition korrekt erkannt wurde, eine Spezialbrille auf, so klassifiziert die KI ihn nun als berühmte Schauspielerin. Und schließlich wurden Versuche unternommen, ein Stopp-Schild mit Markern zu versehen, so dass die KI dieses nun als Geschwindigkeitsbegrenzung eingestuft hat. Dies sind Beispiele aus der Bildverarbeitung, aber auch Audio- und Videosequenzen lassen sich dahingehend manipulieren, dass bereits mit wenigen realen Beispielen ganze sogenannten Deep Fake Videos erzeugt werden können.

Am stark vereinfachten Beispiel eines neuronalen Netzes sieht das so aus: Im Normalfall wird ein NN im Input Layer mit einem Vektor an Zahlenwerten (z.B. die RGB-Werte eines Bildes) gespeist. Jedes dieser Neuronen wird dann, mit einer Gewichtung versehen, an einen oder mehrere Hidden Layer übermittelt und dort neu berechnet bis schließlich im Output Layer die KI zu einer Klassifizierung führt, also z.B. die Einordnung als Panda. Das wird beim ersten Mal noch nicht gut funktionieren, aber wenn man Trainingsdaten hat, bei denen man im Voraus schon das Ergebnis kennt, versucht man über eine Rückrechnung (Backpropagation) schrittweise die Gewichte und einen hinzugefügten Grenzwert, ab dem ein Neuron „feuert“, so zu optimieren, dass die KI im Training einen möglichst großen Prozentsatz der eingespeisten Bilder richtig klassifiziert. Zwischen dem gelieferten und dem erwarteten Ergebnis liegt ein Fehler dessen Wert, beispielsweise über die sogenannte Stochastic Gradient Descent-Methode schrittweise in Richtung eines lokalen oder absoluten Minimums optimiert wird. Das kann man sich so vorstellen, als würde eine Kugel einen Abhang ins Tal herunterrollen.

Bei einem Adversarial Attack hingegen versucht der Angreifer, die Kugel in eine andere Richtung rollen zu lassen, so dass dann Pandas eben als solche schlechter erkannt werden und stattdessen Gibbons daraus werden. Das geschieht dadurch, dass man einem Bild ein Rauschen hinzufügt, also eine geringfüge Veränderung der RGB-Werte. Diese Abweichung, auch als Epsilon-Wert bezeichnet, ist für das menschliche Auge kaum erkennbar, aber für eine hochsensible KI eben schon. Dadurch entsteht ein Zielkonflikt zwischen Robustheit und Genauigkeit. Die Auswertung der Ergebnisse verschiedener Modelle der sogenannten ImageNet-Challenge hat gezeigt, dass ein Modell zwar hochgenau getrimmt werden kann, dadurch aber sensibler auf Veränderungen der Input-Daten reagiert, was zu Lasten der Robustheit geht. Das ist etwa so, als würde man ein Rennpferd mit einem Brauereiross hinsichtlich der beiden Dimensionen Robustheit und Geschwindigkeit vergleichen.

 

Denkbare Fälle

Von Zugangskontrollen, Identitätsdiebstahl und Digital Fingerprints war oben schon die Rede. Aber auch VoiceBots oder Voice Assistants wie Alexa, Siri und Cortana könnten theoretisch mit gefakten Stimmen manipuliert werden. Autonomes Fahren oder die Funktion von Überwachungskameras könnten ebenso durch physische Manipulationen wie Marker oder sogenannte Stealth Streetware beeinträchtigt werden. Auch Textmanipulationen sind denkbar, die sich dann auf Spamfilter oder SEO Boosting (Website Ranking) auswirken. Ein Beispiel für Social Media Trolling ereignete sich bereits 2016, als Microsoft den AI-gesteuerten Avatar Tay auf Twitter veröffentlichte um sich über diesen ChatBot zu unterhalten und personalisierte Profile zu erstellen. Durch gezielte Troll-Attacken verwandelte sich der Avatar in einen Hate-Speech-Bot, so dass Micosoft bereits nach etwa 16 Stunden und 96.000 Tweets den Avatar wieder vom Netz nehmen musste.

 

Ist das nun das Ende von KI?

Um es gleich vorwegzunehmen. Die Antwort lautet: „Nein, aber…“ .

Viele dieser Beispiele sind im Forschungsumfeld angesiedelt, in dem besondere experimentelle Bedingungen herrschen. Auch braucht es schon ein gehöriges Maß an Spezialwissen, um Adversarial Attacks zu fahren, was allerdings etwa bei Geheimdiensten oder erfahrenen Hackern nicht ausgeschlossen ist. Darüber hinaus haben sich parallel zu den Forschungsergebnissen eine Reihe von Frameworks und Libraries wie etwa cleverhans oder IBM Clever Robustness Score etabliert, die Robustheitsanalysen von AI-Systemen durchführen und die AI-Sicherheit evaluieren können. Dies ist wichtig, um das Erkennen eines Adversarial Attacks zu ermöglichen. Und schließlich lassen sich Abwehrstrategien entwickeln, etwa die zeitliche oder quantitative Limitierung des Inputs, eine vorherige Validierung desselben und das Vorab-Training von AI-Modellen mit antizipierten Adversarial Examples. Auch die Verwendung mehrerer Modelle, von denen der Angreifer nicht weiß, welches zum Zuge kommt, erschwert Attacken. Letztlich läuft das auf ein Katz-und-Maus-Spiel zwischen Angreifern und Verteidigern hinaus. Das „Aber“ führt uns nun direkt zu einem vorläufigen Fazit.

Fazit

Die Forschung hat gezeigt, dass Adversarial Attacks keineswegs Fiktion, sondern machbar sind. In dem Maße, wie KI-Systeme Dritten zugänglich sind, sind sie auch anfällig dafür. Mit einer zunehmenden Verbreitung von KI-Systemen im Alltag könnten sie daher auch Realität werden. KI ist allerdings bereits so weit in viele unserer Lebensbereiche vorgedrungen, dass wir diesen Aspekt der Digitalisierung nicht mehr aufhalten können. Wir müssen uns daher den Herausforderungen stellen und – ähnlich wie bei anderen sicherheitsrelevanten Themen auch – geeignete Erkennungs- und Abwehrmaßnahmen entwickeln. Sicherheitsbehörden und Gesetzgeber werden auf diesem Feld ebenso tätig werden müssen wie Unternehmen und Organisationen. Daraus erwachsen andererseits interessante Zukunftschancen für Lösungsanbieter. Neue Berufsbilder, wie das eines KI-Security-Experten werden entstehen. Es bleibt also spannend.

Andreas Strunz msg

Über den Autor

Andreas Strunz ist Director im Bereich Change & Transformation bei msg for banking ag. Im Business Consulting beschäftigt er sich neben den Einsatzmöglichkeiten künstlicher Intelligenz im Finanzwesen mit strategischen Zukunftsthemen der Branche.