Sztuczna inteligencja jest głupsza od trzylatka [ORLIŃSKI]

Sieć neuronowa uczy się ludzkich języków, imitując to, jak uczą się ich sami ludzie. Interlingua to język, w jakim myśli komputer. Z Barakiem Turovskym rozmawia Wojciech Orliński.

WOJCIECH ORLIŃSKI: Kieruje pan projektem obejmującym tłumaczenie na prawie wszystkie języki świata. Czy przy tej okazji odkrył pan coś na temat natury ludzkiej?

BARAK TUROVSKY*: Tak. I nawet chętnie się tym podzielę. Najczęściej tłumaczone zwroty to „jak się masz?” i „kocham cię”. Jeśli spojrzeć na to, o czym rozmawiają ze sobą ludzie w językach, których nie znają, to najczęściej próbują sobie wyznać miłość.

Przywraca mi pan wiarę w ludzkość. Na pewno miłość, nie nienawiść?

– Na pewno, i to niezależnie od tego, jak to liczymy. Dla każdego języka świata zwrot „kocham cię” będzie w pierwszej trójce. Z kolei jeżeli weźmiemy pierwszą setkę, to zobaczymy frazy związane z romansem, czyli na przykład „masz piękne oczy”.

A czy istnieją języki, w których brakuje odpowiedników dla takich zasadniczych słów jak miłość albo nienawiść?

– Nic mi o tym nie wiadomo. Ale skoro tak, to chyba jednak nie ma, bo brak słowa „miłość” na pewno byśmy zauważyli. Obsługujemy 103 języki, którymi posługuje się 99 proc. populacji internautów. Przypuszczam, że jeśli w ogóle istnieje jakiś język, w którym nie ma słowa „miłość”, to posługuje się nim jakaś odizolowana społeczność, która nie korzysta z internetu.

Co do natury ludzkiej, to czytałem niedawno książkę Yuvala Harariego „Homo sapiens. Krótka historia ludzkości”. Jej teza wydaje mi się przekonująca. Język nie jest czymś, co mają tylko ludzie – szympansy też mają języki. Ale tylko ludzie mają język tak obszerny, że można w nim omawiać kwestie tak abstrakcyjne jak religia.

Otóż jeśli można rozmawiać na takie tematy, to można rozmawiać o wszystkim. Dlatego tylko ludzie są w stanie nawiązać kooperację na większą skalę. To nas odróżnia od innych gatunków, potrafimy współpracować przy nieskończenie złożonych projektach. Ale to nie jest moje zdanie, sam się nie czuję kompetentny.

Jak to, pan ma dostęp do tego, o czym rozmawia ze sobą 99 proc. populacji! Wie pan o nas tyle, co sam Pan Bóg!

– Ha, ha! Na podstawie statystyk naszego systemu mogę powtórzyć to, co mówiłem na początku. Ludzie najczęściej starają się powiedzieć sobie coś miłego. Na podstawie tych statystyk mam ogólnie dobre wrażenie o ludzkości.

Języki często tworzy się na zamówienie polityków – różnice między urdu a hindi czy czeskim a słowackim są często sztucznie wymyślane, żeby podkreślić polityczną niezależność narodu. Czy spotykacie się z naciskami politycznymi, żebyście dodali lub usunęli jakiś język z serwisu?

– Ciągle, ale my się tym nie zajmujemy. Czy jakiś język jest w naszym serwisie, zależy od dwóch rzeczy. Po pierwsze, czy dołączenie go do serwisu w ogóle jest możliwe technicznie – czasami po prostu mamy na to za mało danych – a po drugie, czy na tę usługę jest zapotrzebowanie.

A czy udało się wam niechcący udowodnić, że jakieś języki są do siebie bardziej podobne, niżby tego chcieli politycy?

– W ogóle wszystkie języki są do siebie trochę podobne. Jeśli system nakarmimy danymi na temat dwóch całkowicie niezwiązanych ze sobą języków – inne kontynenty, inne kultury, zero wspólnej historii – to ubocznym skutkiem będzie też poprawa jakości tłumaczenia na jeszcze inne języki. Czasami te powiązania są zdumiewające. Kiedyś na przykład zobaczyliśmy skokowy wzrost jakości w języku tureckim, bo nakarmiliśmy system nowymi danymi o chińskim, japońskim i koreańskim.

To mi przypomina hipotezę Chomsky’ego, że istnieje pierwotna, uniwersalna gramatyka...

– Nie jestem lingwistą, w naszym zespole nie ma żadnego lingwisty. Zatrudniamy głównie inżynierów i naukowców specjalizujących się w statystyce i sztucznej inteligencji.

Jak można się zajmować językiem bez udziału lingwistów?

– Żeby odpowiedzieć, muszę wyjaśnić panu historię tłumaczenia maszynowego. Dzielimy ją na trzy generacje. Pierwszą było tłumaczenie na podstawie reguł („rule based”). Zaczęto to rozwijać w USA jeszcze w czasach zimnej wojny, żeby szybko tłumaczyć na angielski dokumenty rosyjskie czy chińskie. Wtedy rzeczywiście niezbędni byli lingwiści. Przygotowywali korpus wiedzy o danym języku, czyli słownik i ogólne zasady gramatyki, a programiści ten korpus przekładali na program komputerowy.

Druga generacja, w dużym stopniu zapoczątkowana przez Google’a, opiera się na analizie statystycznej. Przeglądamy internet pod kątem tych samych tekstów w różnych językach, na przykład patrzymy, jak tłumaczone są dokumenty ONZ, i zauważamy statystyczne prawidłowości. Przy takim podejściu za najlepszy przekład uważa się ten, który ma największe statystyczne szanse na trafienie.

Problem jest taki, że języki dramatycznie się różnią między sobą pod względem dostępności materiałów w internecie. Najwięcej będzie oczywiście materiałów po angielsku, nieźle jest też z hiszpańskim czy portugalskim, a nawet japońskim. Dramat zaczyna się w przypadku języków takich, jak arabski, pendżabski czy bengalski. Posługują się nimi miliony ludzi, ale w internecie brakuje materiałów, więc jakość przekładów jest niska.

Wadą tłumaczeń drugiej generacji jest konieczność rozbijania zdań na fragmenty. Największy fragment, jaki ten system może analizować, to pięć słów naraz. To często nie wystarczy nawet na całe zdanie! A przecież jedno słowo potrafi całkiem zmienić sens pozostałych w zdaniu.

I wreszcie trzecia generacja wykorzystuje sieci neuronowe i uczenie maszynowe. Sieć neuronowa uczy się ludzkich języków, imitując to, jak uczą się ich sami ludzie. Buduje sobie wewnętrzny model danego języka i analizuje zdania jako całość. Tu ciągle mamy ten problem, że następne zdanie może zmienić kontekst akapitu, ale i tak postęp jest ogromny.

Czytałem, że ten model języka opisujecie jako interlingua, jakby to był język, w jakim myśli komputer. To jak średniowieczne poszukiwania języka, którym Bóg rozmawia z aniołami...

– Ha, ha. Owszem, używamy pojęcia „interlingua”, ale zawsze w cudzysłowie. Musieliśmy zastosować takie coś z trzech powodów. Pierwszym jest coś, co nazywamy „transfer learning” (nauką transferową). Staramy się wykorzystywać podobieństwa między językami. Ludzie się uczą w podobny sposób, jeśli opanowałeś jeden język słowiański, z następnymi będzie już łatwiej. W ten sposób częściowo możemy radzić sobie z problemem braku materiałów i na przykład dzięki udoskonaleniu tłumaczeń w języku hindi przenosić to na poprawę jakości tłumaczeń w urdu.

Przede wszystkim chodziło nam o inny powód, czysto techniczny. Dopóki trzymamy się tradycyjnych metod, dodanie 104. języka oznacza zwiększenie obciążenia naszych serwerów 103 razy.

To rośnie wykładniczo?

– Tak. Stąd poszukiwanie uniwersalnego modelu, w którym tłumaczymy już nie bezpośrednio z angielskiego na japoński, tylko najpierw sprowadzamy badany tekst do pewnego modelu, a potem tłumaczymy z tego modelu na japoński, chiński czy jakikolwiek, który mamy w systemie.

Uniwersalny model ludzkiej mowy – to brzmi jak zadanie przerastające obecną wiedzę...

– Sami byliśmy zaskoczeni, jak łatwo nam poszło. Planowaliśmy to zadanie na trzy lata. Wstępne rozmowy prowadzono w 2015 r., na serio zaczęliśmy pracować na początku 2016 i po dziewięciu miesiącach mieliśmy prototyp, który działał szokująco dobrze. Nie idealnie, ale ludzkie tłumaczenia też nie są idealne. Jeśli weźmiemy pięciu najwybitniejszych tłumaczy, okaże się, że ten sam tekst przełożą inaczej, a do tego nawzajem będą sobie wytykać błędy.

Wiedzieliśmy już więc, że to jest właściwa droga do osiągnięcia tych trzech zalet, o których mówiłem przedtem. Tylko że ja jeszcze raz uprzedzam, żeby nie wyobrażać sobie „interlingua” jako osobnego języka. Człowiek nie może się go nauczyć. Wyobraźmy to sobie po prostu jako nową umiejętność maszyn. Chodzi o to, że jeśli je nauczymy tłumaczyć z angielskiego na hindi i z hindi na pendżabski, to one na tej podstawie same będą potrafiły tłumaczyć z angielskiego na pendżabski.

Czy mógłby mi pan to wyjaśnić jako laikowi, na ile porównania takiej sztucznej inteligencji do ludzkiego mózgu są trafne? Czy „sieci neuronowe” naprawdę przypominają nasz mózg?

– Do pewnego stopnia tak. Ich architektura imituje pewną cechę naszego mózgu. Nie ma w nim jednego centralnego procesora, tylko miliardy węzłów przetwarzających informację równolegle. Inżynierowie z Google’a rozwinęli specjalny rodzaj komputera nazywany TPU – Tensor Processing Unit (jednostka przetwarzania tensorowego), który działa w podobny sposób.

Nie boicie się tego?

– Nie ma czego. Akurat mam szczególną sytuację, bo z jednej strony obserwuję, jak się uczy sieć neuronowa, a z drugiej patrzę na rozwój swojego trzyletniego syna. Wychowujemy go dwujęzycznie – po angielsku i po rosyjsku. Często robi błędy. Wystarczy mu raz wytłumaczyć, gdzie się pomylił – i już go więcej nie zrobi.

Ze sztuczną inteligencją tak nie jest. Uczy się niewyobrażalnie powoli i działa też wolno. Nasz pierwszy prototyp był sto razy wolniejszy od tego, co mamy dzisiaj, ale dalej szybkość działania jest naszym głównym problemem. Moja praca byłaby dużo łatwiejsza, gdyby sztuczna inteligencja była tak bystra jak trzylatek!

Mózg ludzki ma przewagę nad sztuczną inteligencją w jednej kwestii. Człowiek, nawet trzyletni, od razu dostrzega cały obraz, a komputer, nawet jeśli to najnowocześniejsza sieć neuronowa, musi go rozebrać na fragmenty.

Najłatwiej to wyjaśnić na przykładzie z medycyny. Radiolog, patrząc na zdjęcie, od razu zauważy nieprawidłowość. Maszyna tak nie potrafi, musi analizować zdjęcie kawałek po kawałku. To zresztą czasami sprawia, że człowiek się myli, bo raz na kilkadziesiąt przypadków przegapi jakiś detal. Maszyna nie przegapi szczegółu, ale z kolei nie zawsze widzi ogólny obraz.

Przed sztuczną inteligencją ostrzegają jednak poważni ludzie – Bill Gates, Stephen Hawking...

– Rozumiem, skąd się biorą te obawy. Sieci neuronowe działają jak czarna skrzynka. Czasami wiemy, dlaczego system coś zrobił, a czasami nie mamy zielonego pojęcia. Ale z punktu widzenia kogoś, kto pracuje z tymi czarnymi skrzynkami, one nie wyglądają jak potężna siła, której się trzeba bać, tylko wprost przeciwnie, jak maszyny głupsze od trzylatka. No i tak jak tradycyjny system komputerowy w razie awarii można było zrestartować, tak sieć neuronową można wyczyścić i zacząć uczenie od nowa.

Skoro pan jednak mówi, że wasz system analizuje zdanie jako całość, z pełnym kontekstem, to musi oznaczać, że on rozumie emocje. Wie, czy ktoś chce być arogancki albo ironiczny. To krok do maszyny, która może udawać człowieka...

– Mówię tylko, że obecny system rozumie kontekst lepiej niż poprzedni. Na razie borykamy się z dużo prostszymi problemami. Podam panu przykład: w języku hiszpańskim typowe jest, że płeć podmiotu wyrażona jest tylko w jednym zdaniu, a w pozostałych już nie. Co z nimi? Ponieważ komputer kieruje się statystyką, zadaje sobie pytanie: jakie jest prawdopodobieństwo, że chodzi o mężczyznę? I jeśli mu wyjdzie, że na 51 proc. o mężczyznę, to tak tłumaczy. To jest bardzo racjonalna decyzja z punktu widzenia komputera, ale oczywiście w 49 proc. przypadków doprowadzi to do błędu.

Czy sztuczna inteligencja będzie mogła przekonująco udawać człowieka – nie wiem. To nie jest pytanie dla mnie. Tym się zajmują futurolodzy tacy jak Ray Kurzweil, który zresztą pracuje w tym samym budynku. Ja tylko kieruję zespołem inżynierów, który stara się dostarczyć jak najlepszy produkt.

Osiągnęliśmy wielki sukces, przechodząc od tłumaczenia pojedynczych słów do tłumaczenia zdań – teraz następne zadanie to tłumaczenie całego akapitu.

Jako dziennikarz zwykle straszę złymi skutkami technologii, ale chyba akurat do waszego projektu pasuje ten nadużywany w Dolinie Krzemowej frazes o „zmienianiu świata na lepsze”.

– Dziękuję, też tak uważam. Około 50 proc. treści w internecie jest po angielsku, a tylko 20 proc. populacji mówi po angielsku. To znaczy, że dla 80 proc. populacji internet jest raczej nieprzyjaznym miejscem. Dla nich na pewno zmieniamy go na lepsze.

*Barak Turovsky - ukończył Uniwersytet w Tel Awiwie i Berkeley. Od 2014 r. szef projektu Google Translate. W zeszłym roku kierował specjalnym projektem zmiany automatycznego tłumaczenia ze statystycznego na wykorzystujące sztuczną inteligencję. Na razie objęte są nim najpopularniejsze języki świata. W nadchodzącym tygodniu dojdzie język polski