Problemy komunikacyjne są częstą przypadłością wielu ludzi, a każdemu z nas raz na jakiś czas zdarza się coś źle usłyszeć. Podczas tegorocznej konferencji Usenix, zespół badawczy z Uniwersytetu Illinois zaprezentował raport zatytułowany "Skill Squatting Attacks on Amazon Alexa". Naukowcy przeanalizowali możliwości działania „skill squattingu” na urządzeniu Amazon Echo, a w efekcie powstał teoretyczny model ataku wykorzystujący fakt, iż są takie słowa, które mylą nam się częściej, niż pozostałe, zwiększa ryzyko przypadkowej aktywacji niechcianych funkcji przez użytkownika. 

Czym są „Skille”, a czym „Skill Squatting" w Amazon Echo?

W uproszczeniu: „skill” to funkcja, którą platforma Alexa aktywuje po usłyszeniu danego słowa. Niektóre skille są domyślnie zaprogramowane w Amazon Echo. Jest to na przykład funkcja „głośniej” i „ciszej”. Gdy użytkownik powie „Alexa, głośniej”, platforma sama „wie”, że użytkownik chce zwiększyć głośność. Zewnętrzni deweloperzy mogą także wykorzystywać platformę Alexa do tworzenia spersonalizowanych skillów. W ten sposób użytkownik może wysłuchać czytanych dla niego wiadomości bądź planu dnia – zakładając oczywiście, że uruchomił odpowiedni „skill”.

Skill Squatting to zatem technika wiążąca fonetycznie podobne słowo z daną funkcją, nawet jeśli rzeczone słowo nigdy nie miało zostać użyte jako właściwa komenda aktywująca daną funkcję. Skuteczny skill squatting uruchamia komendę, której użytkownik wcale nie wywoływał. Podobna technika jest wykorzystywana od lat w modelu zwanym „Typo Squatting”, w którego ramach przestępcy rejestrują domeny bardzo zbliżone do prawdziwych stron internetowych, jednak zawierające powszechnie występujące literówki. W ten sposób, gdy wpiszemy „faecbook.com” lub „youtiube.com”, możemy zostać przekierowani na zainfekowaną stronę internetową bądź stać się ofiarami phishingu.

Amazon Echo
Urządzenie Amazon Echo może źle interpretować polecenia i przyczynić się do ataku.

Jak skomplikowany jest scenariusz ataku?

Niemal każdemu z nas zdarza się źle usłyszeć pojedyncze słowo lub całe zdanie. Z Alexą dzieje się to samo. Oczywiste jest, że skill squatting to nie tylko zdefiniowanie przypadkowego słowa jako wektora funkcji oprogramowania Alexa. Z jednej strony atakujący musi wybrać słowo, co do którego ma pewność, że prędzej czy później zostanie wypowiedziane przez użytkownika. Z drugiej strony, słowo to musi wykazywać pewne prawdopodobieństwo niepoprawnej interpretacji.

Prawdopodobieństwo to jest ściśle związane z brzmieniem niektórych wyrazów. Z wyrazami jednosylabowymi zawierającymi podobny dźwięk wiąże się większa ilość pomyłek niż w przypadku wyrazów wielosylabowych. W swoich testach naukowcy wzięli na warsztat 188 wyrazów jednosylabowych i wielosylabowych. Każdy z nich został wypowiedziany 50 razy przez 60 różnych osób z różnych rejonów świata, kobiet i mężczyzn. Zaledwie dwa procent z tych wyrazów było zawsze poprawnie interpretowanych przez oprogramowanie Alexa, a dziewięć procent było za każdym razem interpretowane błędnie.

Zarówno dla ludzi, jak i dla aplikacji głosowych wyzwanie stanowią homofony, a więc wyrazy, które prawie identycznie się wymawia, ale inaczej zapisuje i które różnią się znaczeniem. Inne równie problematyczne pary wyrazów to te oparte na podobieństwie dźwięków, na przykład „czat” i „czad”.

Musimy zakładać, że jest to realne, a to, co prezentują badacze, to dowód uwiarygodniający koncepcję potencjalnego ataku. Nie mają oni na celu odpowiedzieć na pytanie, czy przestępcy w jakimkolwiek momencie zdecydują się na przeprowadzenie ataku w oparciu o taki model. Kluczową rolę odgrywają w tym miejscu również inne czynniki, w tym kwestie ekonomiczne. Jako że przestępczość internetowa to biznes na skalę światową niezależnie od kraju, przestępcy będą starali się dotrzeć do jak największej liczby ofiar. W tym celu najprawdopodobniej wezmą na warsztat te języki, którymi posługuje się na świecie najwięcej ludzi.

Komentuje Robert Dziemianko z firmy G DATA, zajmującej się bezpieczeństwem w sieci.

Na ile prawdopodobny jest tego rodzaju atak?

Prawdopodobieństwo błędnej interpretacji zależy od płci oraz pochodzenia mówcy. Dlatego tez, by atak typu skill squatting mógł okazać się skuteczny, należy wziąć pod uwagę regionalne wersje wyrazów. To, co zadziała w Londynie, nie musi wcale okazać się skuteczne w Leeds czy w Edynburgu – lub to, co jest skuteczne w USA, może zawieść w Nowej Zelandii czy Australii.

W trakcie testów możliwe okazało się nawet przeprowadzenie ataku phishingowego z wykorzystaniem techniki skill squattingu. Nadal pozostaje jednak niejasne, czy takie postępowanie zadziałałoby w rzeczywistości.

Jak działa Alexa?

Działanie Amazon Echo można podzielić na dwie części. Aktywacja Alexy oraz przetwarzanie poleceń to oddzielne składowe procesu. Urządzenie wyposażone jest w siedem mikrofonów, które nasłuchują „słowa-klucza”. Jest to funkcja wbudowana w oprogramowanie Echo, która nie wymaga połączenia z Internetem. Ta cecha sprawia także, że użytkownik nie ma możliwości zdefiniowania własnego słowa-klucza. Przy braku połączenia z Internetem Echo reaguje wyłącznie na zdefiniowane słowa-klucze. Po wychwyceniu takiego wyrazu oprogramowanie powiadamia o tym użytkownika (zapala się niebieskie kółko u góry urządzenia) i łączy się z platformą Alexa, która interpretuje poszczególne komendy. Alexa koncentruje się w szczególności na typowych zwrotach, takich jak „kalendarz” i dalsze związane z nim działania, na przykład „czytaj”. Polecenie „Alexa, co mam dziś zapisane w kalendarzu?” może zostać zinterpretowane w ten sposób, że oprogramowanie odczyta użytkownikowi plan jego dnia. Przetwarzanie poleceń poza urządzeniem lokalnym ma kilka zalet: urządzenia można produkować i sprzedawać po niższej cenie, a platformę da się rozszerzyć tak, by bez większego nakładu wyposażać ją w nowe funkcje. Siro, Alexa, Watson, Google czy Cortana – wszystkie te usługi działają na podobnej zasadzie.

Około trzech miliardów osób na całym świecie mówią po angielsku, chińsku, francusku i hiszpańsku. Dlatego też, jeśli przestępcy zdecydują się na wykorzystanie tego modelu, na pierwszy ogień mogą pójść właśnie te języki. Jeśli model okaże się wystarczająco skuteczny i opłacalny, w dalszej kolejności obejmie następne języki. Atakiem, który miał już miejsce w oparciu o tę zasadę jest phishing – pierwsze ataki tego typu były w języku angielskim.

Mając to wszystko na względzie, należy zauważyć, że żaden z ataków przedstawionych w opracowaniu nie wyszedł poza zamknięte środowisko testowe. Takie działanie podjęto, by wyeliminować niepotrzebny stres wśród środowiska produkującego oprogramowanie Alexa oraz po to, aby niczego niepodejrzewający użytkownicy wywołujące niechciane funkcje nie zafałszowali wyników eksperymentu.

AUTOR:

Adrian Ścibor

Podziel się

Dodaj komentarz