Rozwiązanie Google'a sprawi, że wirtualni asystenci będą bardziej ludzcy
Tacotron 2 to najnowszy system do przetwarzania tekstu na mowę, któremu warto przyjrzeć się bliżej. Rozwiązanie Google'a ma bowiem "wypowiadać się" głosem, którego użytkownicy nie odróżnią od ludzkiego, a jego możliwości robią wrażenie.
Tacotron 2, czyli przetwarzanie tekstu na mowę oparte na sztucznej inteligencji
Systemy przetwarzania tekstu na mowę, które wykorzystywane są inteligentnych wirtualnych asystentach jak Siri, Cortana czy Google Assisstant, są coraz lepsze, ale oferowany przez nie głos wciąż daleki jest od ludzkiego. Apple i Microsoft nie widzą w tym nic złego. Tym bardziej, że głosy asystentów są charakterystyczne.
Google jest jednak innego zdania. Firma opracowała oprogramowanie Tacotron 2 do przetwarzania tekstu na mowę, które oparte jest na algorytmach sztucznej inteligencji. Ma ono "oferować" dźwięk zbliżony do ludzkiego, a jego jakość ma być porównywalna do najlepszych nagrań lektorów. Potwierdzeniem ma być wysoki wynik w teście MOS (Mean Opinion Score).
Subiektywny współczynnik jakości dźwięku cyfrowo nagranych/przetworzonych nagrań w przypadku Tacotron 2 to aż 4,53. Niewiele brakuje więc do jakości profesjonalnie nagranych ścieżek dźwiękowych z głosem lektorów (4,58 w skali MOS). Robi wrażenie. Szczególnie, że chodzi tu o uniwersalne oprogramowanie, które ma być szeroko wykorzystywane.
Tacotron 2 ma naprawdę spore możliwości
Dźwięk, który jest w stanie generować nowe oprogramowanie giganta z Mountain View, rzeczywiście nie brzmi sztucznie. Po wsłuchaniu się od razu można wyczuć, że nie był on wypowiadany ludzkim głosem, ale nie ma też mowy o brzmieniu rodem z digitizerów robotów znanych z filmów science fiction.
Google przyłożył sporo uwagi do dobrego oddania sposobu wypowiadania słów. Wykorzystanie algorytmów sztucznej inteligencji znacznie usprawniło rozpoznawanie poprawnej semantyki - zmiana wymowy słów w zależności od danego czasu czy rozróżnienia na czasowniki i rzeczowniki. Dobrze oddają to przykłady poniżej i powyżej.
Tworząc Tacotron 2 sporo uwagi poświęcono analizowaniu interpunkcji w zdaniach oraz intonacji. Potwierdzać mają to poniższe przykłady.
Algorytmy SI mają ponadto zadbać o poprawne interpretowanie zdań, na których użytkownicy mogliby połamać sobie języki, a nawet dobrze radzić sobie z korektą błędów, które powstały przy wpisywaniu tekstu.
Oprogramowanie, a może głos profesjonalnego lektora?
To, czy Tacotron 2 jest tak dobry, jak twierdzi to Google, można sprawdzić samodzielnie. Poniżej znajdziecie cztery przygotowane przez firmę z Mountain View pary nagrań. Jedno wykonane jest przez profesjonalnego lektora, a drugie - przez oprogramowanie do zmiany tekstu na mowę. Zgadniecie, które to które?
- "That girl did a video about Star Wars lipstick.”
- “She earned a doctorate in sociology at Columbia University.”
- "George Washington was the first President of the United States.”
- “I'm too busy for romance.”
Różnice między materiałami ciężko wychwycić słuchając ich jeden raz, ale jest to możliwe, gdy zwraca się uwagę na dokładność wypowiadanych słów. Tacotron 2 utrzymuje tę samą głośność, nie ma żadnych drgań dźwięku, a słowa za każdy razem brzmią tak samo.
Wirtualni asystenci będą bardziej ludzcy
Tacotron 2 nie jest rozwiązaniem, które zrewolucjonizuje rynek, ale pewnością sprawi, że użytkownicy będą komunikować się z wirtualnymi asystentami w sposób bardziej naturalny (mniejsze odczucie, że rozmawia się z programem). Nowość będzie jednak z pewnością wykorzystywana w szeregu innych aplikacji, niemal pewna jest jej integracja z Tłumaczem Google'a.
Gigant z Mountain View wykonał krok w dobrą stronę i ciekawe jak w przyszłości odpowiedzą na niego Apple i Microsoft. Szkoda jedynie, że przez brak obsługi języka polskiego (i polskich usług) inteligentni asystenci głosowi są dla nas wciąż melodią przyszłości.
PS. Dla tych, którzy mieli trudności z doszukaniem się różnic i poprawnym określeniem głosu:
Przykład #1:
- Materiał #1 - lektor
- Materiał #2 - Tacotron 2
Przykład #2:
- Materiał #1 - Tacotron 2
- Materiał #2 - lektor
Przykład #3:
- Materiał #1 - Tacotron 2
- Materiał #2 - lektor
Przykład #4:
- Materiał #1 - lektor
- Materiał #2 - Tacotron 2