12.09.2018

Interessanter Ansatz: Skill Squatting mit Amazon Echo

Etwas beim Hören falsch zu verstehen ist menschlich. Insofern hat Amazon Echo durchaus menschenähnliche Züge, denn auch der smarte Lautsprecher „Echo“ hat dieses Problem. Ein Forscherteam der University of Illinois hat sich eingehend mit Echo, Alexa und dem böswilligen Besetzen von Alexa Skills beschäftigt und die Erkenntnisse auf der Usenix-Konferenz präsentiert.

Empfindliche Mikrofone sind ein wichtiger Bestandteil des Alexa-Systems (Symbolbild)

Auf der diesjährigen Usenix-Konferenz hat ein Forscherteam der University of Illinois einen Bericht mit dem Titel "Skill Squatting Attacks on Amazon Alexa" (Link öffnet sich in einem neuem Fenster - Text in englischer Sprache) vorgestellt, der die Möglichkeiten des so genannten „Skill Squatting“ beleuchtet. Das Resultat ist ein bisher theoretisches Angriffsmodell, welches die Tatsache ausnutzt, dass bestimmte gesprochene Worte häufiger missverstanden werden als andere. Die Aktivierung unerwünschter Funktionen durch den Nutzer ist eines der Risiken.

Was sind „Skills“ und was bedeutet „Skill Squatting“?

Ein „Skill“ ist – vereinfacht gesagt – eine Funktion, die durch Alexa ausgeführt werden soll, wenn ein bestimmter Sprachbefehl gegeben wird. So gibt es zahlreiche Skills, die fest in Amazon Echo verdrahtet sind: „lauter“ und „leiser“ sind zwei davon. Sagt der Nutzer also „Alexa, Lauter!“, dann „weiß“ die Plattform, dass der Benutzer die Wiedergabelautstärke erhöhen möchte. Drittanbieter haben ebenfalls die Möglichkeit, die Alexa--Plattform für die Veröffentlichung eigener Skills zu nutzen. So kann man sich beispielsweise mit dem entsprechenden Skill morgens die neuesten Nachrichten oder den Wetterbericht vorlesen lassen – oder auch sein Smarthome steuern.
Im Englischen bedeutet „squatting“ soviel wie „besetzen, um eine Nutzung durch andere zu verhindern“. Hausbesetzer werden ebenfalls als „squatter“ bezeichnet.

Skill Squatting bedeutet, dass ein bestimmter Befehl „besetzt“ wird, der einem bestimmten Wort klanglich sehr ähnlich ist – selbst wenn es sich bei diesem Wort nicht um einen Befehl handelt, den der Nutzer geben will. Somit wird das Risiko erhöht, dass ein Skill angesprochen wird, dessen Funktion vom Nutzer nicht gewünscht ist. Etwas Ähnliches existiert schon seit Jahren: beim so genannten „Typo Squatting“ registrieren Kriminelle bestimmte Domains, die eine gewisse Ähnlichkeit mit legitimen Domains haben, allerdings mit oft vorkommenden Vertippern – wie etwa „feacbook.com“ oder „youtiube.com“. Ahnungslose Surfer, die sich vertippt haben, landen so schlimmstenfalls auf einer infizierten Webseite.

„Da muss ich mich verhört haben“ - wie komplex ist der Angriff?

Bestimmte Dinge akustisch falsch zu verstehen kennt fast jeder. So wird aus dem Neunziger-Hit „I got the power“ schnell „Agathe Bauer“. Alexa steht vor dem gleichen Problem.

Hier wird klar, dass mehr zu erfolgreichem Skill Squatting gehört, als das bloße Definieren eines bestimmten Wortes als Auslöser für einen Alexa-Skill. Zum einen müsste ein Angreifer ein Wort wählen, von dem er einerseits sicher sein kann, dass es von einem Opfer gesprochen wird – zum anderen muss es ein Wort sein, das mit einer gewissen Wahrscheinlichkeit von Alexa falsch interpretiert wird. Diese Wahrscheinlichkeit macht sich fest am phonetischen Aufbau bestimmter Wörter. Einsilbige Wörter, die sich klanglich ähneln, haben hier eine wesentlich höhere Fehlerquote als mehrsilbige Wörter. Für ihre Tests verwendeten die Forscher insgesamt 188 sowohl ein- als auch mehrsilbige Wörter, die jeweils 50 mal von 60 verschiedenen Sprechern unterschiedlichen Geschlechts aus unterschiedlichen Regionen gesprochen wurden. Nur zwei Prozent der Einzelwörter, mit denen die Versuche durchgeführt wurden, hat Alexa immer korrekt verstanden. Dagegen hat Alexa neun Prozent des Wortschatzes immer falsch interpretiert. Die Forschungsarbeit bezieht sich jedoch nur auf die englische Sprache, daher sind die von den Wissenschaftlern ermittelten Werte nur mit Einschränkungen auf die deutsche Sprache übertragbar. Die grundlegenden Prinzipien dürften allerdings identisch sein.

So geraten sowohl Menschen als auch maschinelle Sprachassistenten wie Alexa ins Schleudern, wenn es um homophone (gleichklingende) Wörter geht. Im Englischen seien hier zum Beispiel „sale“ und „sail“ genannt. Deutsche Pendants wären zum Beispiel „Mein“ und „Main“. Auch Wortpaare, die phonetisch große Ähnlichkeit haben, sind hier betroffen: im Englischen wären dies zum Beispiel „Fax“ und „Facts“.

Wie wahrscheinlich ist ein solcher Angriff in der Realität?

Die Wahrscheinlichkeit einer Fehlinterpretation variiert jedoch mit der Herkunft des Sprechers und sogar mit dessen Geschlecht. Ein Skill-Squatting, das in Hamburg funktioniert, hat unter Umständen keine Chance auf Erfolg in München, Leipzig oder Wien. Dort wiederum funktionieren vielleicht andere. Oder, wenn man im Englischen bleiben möchte, bestehen große Unterschiede in den Aussprachen bestimmter Wörter zum Beispiel in London, Edinburgh und Leeds. Es wäre schwierig, ein „Universal“-Skill-Squat zu finden, der in allen deutschsprachigen Gebieten gleichermaßen funktioniert, aber definitiv nicht unmöglich: denkbare Kandidaten wären hier Wortpaare wie „Alle“ und „Anne“.
Bereits heute gibt es unterschiedliche Alexa-Skills, die zwar unterschiedliche Funktionen haben, aber durch sehr ähnliche Worte ausgelöst werden – das „Facts / Fax“-Beispiel von oben ist ein solcher Skill, der auch im Forschungsbericht explizit genannt wird (S. 41, Kap. 5.4). In Versuchen ist es sogar gelungen, einen Phishing-Angriff mittels Skill Squatting durchzuführen – allerdings ist unklar, ob dies auch außerhalb der Versuchsanordnung tatsächlich funktioniert.
Insgesamt muss man jedoch realistisch bleiben: Es handelt sich hier um eine Machbarkeitsstudie, in der ein möglicher Angriffsweg aufgezeigt wurde. Ob und inwieweit dieser auch von Kriminellen genutzt wird, hängt nicht zuletzt auch von wirtschaftlichen Faktoren ab. Da Internetkriminalität ein weltweites Geschäft ist, für das Ländergrenzen keine Rolle spielen, sind Kriminelle auf Angriffe bedacht, mit denen man möglichst viele potenzielle Opfer erreicht. Somit würden sich die kriminellen Akteure zunächst auf Sprachen mit vielen Sprechern konzentrieren.

Wie funktioniert Alexa eigentlich?

Die Funktion der Amazon Echo-Lautsprecher ist in mehrere Bereicht unterteilt. Die Aktivierung von Alexa und die Verarbeitung der Befehle sind zwei unterschiedliche Stufen des Prozesses. Die insgesamt sieben Mikrofone von Amazon Echo horchen auf das "Wake Word" (Aufwach-Wort). Diese Aufgabe führt das Gerät selbständig aus, auch ohne Internetverbindung. Aus diesem Grund lassen sie die Aktivierungswörter auch nicht beliebig festlegen. Darin erschöpft sich allerdings die Selbständigkeit des smarten Lautsprechers. Nimmt eines der Mikrofone dieses Wort auf, wird einerseits dem Benutzer signalisiert, dass Echo nun aktiv ist (der blaue LED-Ring beginnt zu leuchten), zum anderen wird das nun Gesprochene automatisch über die bestehende Internetverbindung an die Alexa-Cloudplattform weitergegeben und auch von dieser interpretiert. Alexa sucht hier in der gesprochenen Phrase nach dem so genannten "Intent" (dt. "Absicht"), wie zum Beispiel "Kalender" so wie nach möglichen Aktionen, wie "Lies vor". Der Befehl "Alexa, was steht heute in meinem Kalender?" kann so verarbeitet werden. Durch das Auslagern dieser Aufgabe können einerseits die Endgeräte preiswerter verkauft werden und andererseits können so neue Funktionen - die so genannten "Skills" - schnell für alle Nutzer zugänglich gemacht werden. Egal, ob Alexa, Siri, Watson, Google oder Cortana - all diese Dienste funktionieren nach einem ähnlichen Prinzip.

Derzeit können Englisch, Chinesisch, Spanisch und Französisch insgesamt über drei Milliarden Sprecher weltweit auf sich vereinen. Dagegen wird Deutsch nur von höchstens etwa 130 Millionen Menschen auf der Welt gesprochen. Die höchste Wahrscheinlichkeit für erste Testläufe besteht im englischsprachigen Raum. Wenn sich das Modell als lukrativ herausstellt, wird es auch auf andere Länder übertragen werden, genau wie seinerzeit beim Phishing.
Es ist bei all dem wichtig zu wissen, dass alle Angriffe, die der Forschungsbericht beschreibt, in einer isolierten Testumgebung stattfanden. Einerseits sollten so die übrigen Dienste von Amazon nicht über Gebühr strapaziert werden, zum anderen wollten die Forscher das Risiko ausschließen, dass ein unbeteiligter Nutzer versehentlich Aktionen zu seinem Nachteil auslöst, die die Versuchsergebnisse verzerren könnten.

Mögliche Gegenmaßnahmen

Auch die Forscher, die die Experimente durchgeführt haben, mussten sich früher oder später die Frage stellen, wie Amazon gegen diese Art der Manipulation vorgehen könnte. Eine der Möglichkeiten bestünde in einer zusätzlichen Prüfung auf phonetische Ähnlichkeiten mit bestehenden Skills.

Insgesamt handelt es sich bei diesem Forschungsbericht über eine Grundlage, basierend auf der ein praktikabler Angriff entwickelt werden könnte. Die Autoren unterstreichen jedoch explizit die Tatsache, dass deren Versuche keine Aussagekraft über die Anwendbarkeit in einem praktischen Szenario besitzen. Wie viele andere Angriffsmöglichkeiten ist diese bisher noch rein akademisch. Noch.

Interessanter Ansatz: Skill Squatting mit Amazon Echo

Was sind „Skills“ und was bedeutet „Skill Squatting“?

„Da muss ich mich verhört haben“ - wie komplex ist der Angriff?

Wie wahrscheinlich ist ein solcher Angriff in der Realität?

Wie funktioniert Alexa eigentlich?

Mögliche Gegenmaßnahmen

Artikel teilen

Artikel teilen

Themen

Wichtige IT-Security-News per E-Mail

Interessanter Ansatz: Skill Squatting mit Amazon Echo

Folgende Artikel könnten Sie auch interessieren:

Amazon Echo - Faszination und Risiken des sprachgesteuerten Lautsprechers

Artikel teilen

Artikel teilen

Themen

Wichtige IT-Security-News per E-Mail

Alle wichtigen IT-Security-News bequem per E‑Mail

Vielen Dank für Ihr Interesse.