Czy maszyny będą z nami rozmawiać? Dawniej takie pytanie było zadawane w powieściach i filmach z gatunku sci-fi, dziś codziennie słyszmy kogoś mówiącego do telefonu, nawigacji lub innego urządzenia. Jak wygląda uczenie maszyn, by potrafiły zrozumieć nasze słowa?
W dzisiejszych czasach maszyny i komputery towarzyszą nam na każdym kroku i pomagają przy codziennych czynnościach w pracy i w domu. Nikt z nas nie wyobraża sobie już życia bez smartfona z jego nowoczesnymi aplikacjami, które to aplikacje są coraz bardziej intuicyjne w obsłudze, ponieważ tego wymagamy od nich my jako ich użytkownicy. Mówiąca do nas nawigacja była kiedyś czymś wyjątkowym, dziś to norma dla znacznej części kierowców. Wymagamy i dostajemy coraz więcej funkcji, popularne stały się polecenia głosowe – aktualnie nie tylko rozmawiamy przez smartfon, lecz także rozmawiamy z nim.
Aplikacje słuchają naszych poleceń głosowych, nie są jednak jeszcze w stanie rozpoznać każdego wypowiedzianego przez nas zdania. Rozpoznają tylko te polecenia, które są przechowywane w specjalnie przygotowanych bazach danych. To dzięki ludziom, między innymi lingwistom z całego świata, możemy rozmawiać z naszym telefonem. Postaramy się opowiedzieć, jak w Diunie uczymy maszyny mówić.
Maszyna potrzebuje słów człowieka
By aplikacja mogła zrozumieć nasze słowa i wykonać polecenie, trzeba je najpierw nagrać i wprowadzić do bazy danych. Kolejnym krokiem jest powiązanie konkretnego słowa lub zdania z funkcją, jaką maszyna ma wykonać. Z punktu widzenia użytkownika aplikacji sprawa wygląda łatwo: gdy na przykład chce znaleźć coś w wyszukiwarce internetowej, wypowiada pewną frazę, a program pokazuje wyniki najbardziej odpowiadające zapytaniu. By cały ten proces zadziałał, w bazie głosowej programu muszą znaleźć się wcześniej wgrane słowa/frazy/zdania wypowiedziane przez ludzi. Wszystko to wydaje się to dość proste, prawda? Wystarczy przecież tylko nagrać odpowiednio dużo różnych poleceń. Ale w rzeczywistości nagrania są dużo bardziej skomplikowane i pracochłonne.
Maszyna uczy się też rożnorodności
Należy przecież pamiętać, że każdy z nas ma inny głos – inaczej brzmią np. mężczyźni, kobiety i dzieci. Widać już, że do nagrań powinno wykorzystywać się różne osoby, dzięki czemu maszyna nie będzie miała problemów z rozpoznaniem głosu użytkownika, niezależnie od jego wieku czy płci. Rozpoznawanie poleceń może być dodatkowo utrudnione, gdy osoba korzystająca z aplikacji mówi z akcentem lub ma problemy z wymową, może też mieć specyficzne naleciałości językowe wynikające z pochodzenia, jak np. górale czy kaszubi. Oczywiste staje się zatem, że należałoby poszerzyć bazę danych o nagrania takich osób. Gdy aplikacja skierowana jest do osób mówiących w różnych językach, należy znaleźć kolejne osoby, by te dodatkowo nagrały wszystkie frazy np. po angielsku. Całą sytuację może skomplikować jeszcze bardziej to, że z aplikacji w języku angielskim często korzystają osoby, dla których angielski nie jest językiem rodzimym, np. Polacy, Niemcy lub Japończycy. Ich znajomość angielskiego jest na różnym poziomie, a do tego każdy mówi ze swoim akcentem. Ostateczna baza danych składa się z milionów słów, fraz i zdań nagranych w różnych językach, z różnymi akcentami, dzięki czemu maszyna może wykonywać polecenia różnych użytkowników. Im większa jest baza, tym sprawniej działa konkretny program.
Maszyny rozpoznają również dźwięki otoczenia
Warto pamiętać, że działanie maszyn, czyli np. aplikacji i programów opiera się nie tylko na zdaniach wypowiadanych przez człowieka. Wiele z nich do prawidłowego działania korzysta z bazy rozmaitych dźwięków. Aplikacje potrafią rozpoznawać na przykład różne alarmy, szczekanie psów czy płacz dzieci. I znów analogicznie do poprzedniego akapitu: pamiętajmy, że nie każdy pies szczeka tak samo, nie każde dziecko ma taki sam płacz. Im więcej różnorodnych dźwięków tła nagramy, tym łatwiej będzie je rozpoznawała aplikacja.
Jak wygląda praca przy nagraniach?
Kiedy dana osoba zostanie przypisana do konkretnego projektu, którego wymagania spełnia, jej praca najczęściej polega na wypowiadaniu określonych zdań do mikrofonu. Można tę pracę wykonywać w domu, wystarczy posiadać urządzenie z mikrofonem i dostępem do Internetu. Niektóre zlecenia wymagają pracy w studiu lub w terenie, nie są one jednak częste. Biorąc pod uwagę wielkości istniejących już baz danych, rozmieszczonych na całym świecie, można wyobrazić sobie, jak wiele pracy włożono w wykonanie nagrań, by aplikacja lub program mogły nas zrozumieć. Ponadto ilość poleceń obsługiwanych przez maszyny ciągle rośnie, rozpoznają one coraz więcej dźwięków, języków i akcentów, a to wszystko dzięki pracy tysięcy ludzi odpowiedzialnych za ich naukę. To oni uczą maszyny, jak rozpoznawać nasze słowa.
Jak pozyskać te wszystkie słowa i dźwięki?
Firmy zajmujące się tworzeniem baz danych nie pozyskują same dźwięków, zlecają te prace firmom zewnętrznym, między innymi biurom tłumaczeń, gdyż te kontaktują się z ludźmi z całego świata. Dzięki temu jedna firma może zająć się nagraniami zdań w kilku językach. Nie inaczej jest w przypadku naszego biura – mamy ogromną bazę osób, z którymi współpracujemy przy takich projektach. Są to osoby mówiące w różnych językach, mieszkające w różnych krajach i charakteryzujące się rozmaitymi akcentami. Dzięki nim jesteśmy w stanie spełniać wymagania producentów oprogramowania pod względem ilości i rodzaju dodawanych do bazy treści audio. Zajmujemy się również profesjonalnym pozyskiwaniem dźwięków otoczenia i zwierząt.
Skorzystaj z bezpłatnej i bezpiecznej wyceny. Wypełnij formularz kontaktowy.