Dlaczego wirtualni asystenci mają coraz naturalniejsze głosy? Pozwólmy robotom być robotami

W niemal każdym znanym mi filmie sci-fi, w którym występuje sztuczna inteligencja, głos wirtualnych bytów ma wyraźnie robotyczne zabarwienie. Bynajmniej nie z przymusu, bo przecież w AI nie wcielają się maszyny, lecz prawdziwi ludzie.

Przykładowo w filmach o "Iron-Manie" głosu Jarvisowi udziela brytyjski aktor Paul Bettany. A jednak twórcy zatroszczyli się o to, by barwa jego głosu była metaliczna. Dlaczego? Prawdopodobnie dlatego, że w przypadku AI nienaturalny głos jest paradoksalnie bardziej naturalny. Cyfrowa modulacja sprawia, że widz podświadomie kojarzy dany głos z robotem. Wydaje mu się przy okazji bardziej futurystyczny.

Z jakiegoś powodu firmy technologiczne starają się prześcignąć rzeczywistość znaną z filmów sci-fi

Podczas premiery systemu iOS 13 Apple poświęcił sporą część prezentacji na pochwalenie się udoskonalonym głosem Siri. Technologia zwana neural TTS ma sprawić, by głos brzmiał bardziej naturalnie.

Wszystko zmierza ku temu, by głosu wirtualnego asystenta nie dało się odróżnić od głosu prawdziwego człowieka. Zresztą o to już teraz coraz trudniej.

Amerykański Asystent Google uzbrojony jest w technologię Duplex, która odpowiada za wykonywanie połączeń głosowych w imieniu użytkownika. Wówczas wirtualny pomagier stara się naśladować człowieka tak bardzo, że udaje zastanowienie, robi pauzy, przeciąga głoski czy wtrąca przerywniki typu "hmm".

The Google Assistant can help you get things done over the phone

Szczęśliwie Asystent jeszcze się nie jąka, nie kicha, a w sobotnie wieczory nie bełkocze zapijaczonym głosem, ale boję się, że to tylko kwestia czasu.

Czy to nie mija się z celem?

Widzicie - Asystent Google'a, jakkolwiek zaawansowanym kawałkiem technologii by nie był, pod względem intelektu jest bytem bardzo prymitywnym. W dużej mierze to tylko zbiór ściśle określonych akcji wykonywanych po usłyszeniu tylko trochę mniej ściśle określonych komend.

"OK Google, zamów taksówkę pod mój dom" - mówię do mojego głośnika. "Przykro mi, nie rozumiem" - słyszę w odpowiedzi. Ja natomiast nie rozumiem, dlaczego maszyna, która generuje tę odpowiedź, została zaprojektowana w taki sposób, by udawać człowieka. Czy nie byłoby lepiej, gdyby przemawiała głosem, który na każdym kroku przypominałby użytkownikowi, że nie rozmawia z rozumną istotą? Głosem, który usprawiedliwiałby jej prymitywność?

Nie wykluczam możliwości, że Google przeprowadził badania, które wykazały, że naturalna barwa głosu sprawdza się lepiej. Osobiście wolałbym jednak, by robot zachowywał się jak robot i mówił głosem robota. Poza tym znam przypadki osób, dla których rozmawianie z telefonem czy głośnikiem jest krępujące. Być może właśnie dlatego, że ludzki głos jest na nich onieśmielający.

Mam wrażenie, że rozwój wirtualnych asystentów przebiega w złym kierunku. Firmy technologiczne zdają się więcej wysiłku wkładać w to, by ich boty umiały odpowiedzieć naturalnym głosem "nie umiem ci pomóc" niż w to, by po prostu umiały pomóc.