Spoznali bomo nekatere probleme, ki bodo morali že biti zadovoljivo rešeni, preden bo govorna komunikacija z računalniki prešla v vsakdanjo prakso:
Interakcijo med uporabnikom in računalnikom bo sčasoma zelo poenostavila govorna komunikacija, ki pa je šele v razvojnih fazah. Ljudje pri svoji komunikaciji uporabljamo naravni jezik. Problem še otežuje dejstvo, da je jezikov več. Končni cilj je, da bi zgradili računalniški sistem, ki bi lahko obojesmerno uporabljal naravni jezik, kot to počnemo ljudje. Vmesni cilj pa je, da bi računalnik znal obdelovati tekst in govor bolj inteligentno. |
Raziskave potekajo interdisciplinarno: obsegajo lingvistiko in modeliranje jezikov, psihologijo in kognitivne procese, matematiko in študij lastnosti formalnih jezikov. |
Sinteza
govora je umetna produkcija človeškega govora. Računalniški
sistem, ki se uporablja v ta namen, se imenuje govorni
računalnik ali sintetizator govora in se lahko izvaja v
programskih ali strojnih izdelkih. Sistem za pretvorbo besedila
v govor (TTS) pretvarja besedilo v običajnem jeziku v govor; v
drugih sistemih govorni jezik predstavljajo simbolične
lingvistične predstavitve, kot so fonetične transkripcije. Sintetiziran govor lahko ustvarimo z združevanjem posnetkov govora, ki so shranjeni v bazi podatkov. Sistemi se razlikujejo po velikosti shranjenih govornih enot; sistem, ki shranjuje telefone ali difone, zagotavlja največji izhodni obseg, vendar lahko ni dovolj jasen. Za posebne domene uporabe lahko shranjevanje celotnih besed ali stavkov omogoča visoko kakovostne rezultate. Druga možnost je, da lahko sintetizator vključi model vokalnega trakta in druge značilnosti človeškega glasu, da ustvari popolnoma "sintetični" glasovni izpis. Kakovost sintetizatorja govora se ocenjuje po njegovi podobnosti s človeškim glasom in po njegovi sposobnosti razumevanja. Z razumljivim programom besedila v govor ljudem z motnjami vida ali bralnimi težavami lahko poslušajo pisne besede na domačem računalniku. Mnogi računalniški operacijski sistemi so vključevali govorne sintetizatorje že od začetka devetdesetih let. |
Danes poznamo govorne sintetizatorje, ki največkrat pretvarjajo tekst v
govor.Ti lahko pomagajo otrokom in odraslim, ki imajo težavo z branjem
besedil.
Poznamo preproste sisteme za razpoznavo govora, ki jim včasih napačno
pravimo sistemi za razpoznavo glasu. Razpoznava glasu je soroden
proces, ki pa je namenjen identifikaciji govoreče osebe.
V raziskavah na področju razpoznave govora je bilo zasnovanih in
implementiranih veliko različnih algoritmov. K hitrejšemu razvoju sistemov
avtomatskega razpoznavanja je pripomogla predvsem proizvodnja cenenih
signalnih procesorjev.
Pri govorni komunikaciji človek enostavno razloči ženski glas od moškega,
govor razume neodvisno od govorca, tudi v šumnih okoljih. Vse to pa
povzroča precejšnje težave sistemom za avtomatsko razpoznavanje govora.
Njihova uporaba je precej omejena, zato jih lahko glede na te omejitve
razdelimo v različne skupine. Glede na način razpoznavanja govora jih
delimo v tri skupine:
Pri razpoznavanju izoliranih besed morajo biti besede izgovorjene tako,
da lahko določimo njihove meje. V zadnjih letih lahko tako z glasom
aktiviramo telefon ali vnašamo preproste ukaze oziroma podatke (na primer
vnos številke kreditne kartice).
Pri razpoznavanju vezanega govora je vhod tekoč govor, sestavljen iz
izoliranih besed.
Sistemi za razpoznavanje tekočega govora nimajo omejitev in so zato
najbolj kompleksni, pa tudi najbolj zanimivi za uporabo. Ti sistemi se
morajo spopadati s problemom koartikulacije - to je pojav, ko
fonemi in besede vplivajo na sosednje foneme in besede in tako otežujejo
razpoznavanje.
Razpoznavalniki govora so lahko odvisni ali neodvisni od govorca, lahko so
tudi adaptivni. Sistemi, ki so odvisni od govorca, so razviti tako, da
delujejo samo za eno osebo. Takšni sistemi so enostavni za razvoj in bolj
natančni, a niso preveč fleksibilni. Sistemi, neodvisni od govorca, lahko
interaktirajo s katerokoli osebo določnega tipa. Ti sistemi so težji za
implementacijo in dražji. Pri adaptivnih sistemih pa se razpoznavalnik
prilagaja govorcu med delovanjem. Take sisteme moramo najprej naučiti
(nadzorovano ali nenadzorovano), da se prilagodijo uporabniku.
Nekateri sistemi za prepoznavanje govora zahtevajo "usposabljanje", kjer
posamezni govornik bere besedilo ali izoliran besednjak v sistem. Sistem
analizira specifični glas osebe in jo uporablja za natančno prilagajanje
prepoznavanja govora te osebe, kar povzroči večjo natančnost. Sistemi, ki
ne uporabljajo usposabljanja, se imenujejo "neodvisni od govorca".
Sistemi, ki uporabljajo usposabljanje, se imenujejo "odvisni od govorca".
Aplikacije za prepoznavanje govora vključujejo glasovne uporabniške
vmesnike, kot so glasovno klicanje (npr. »Klic domov«), usmerjanje
klicev, iskanje podcasta, kjer so bile izgovorjene določene besede,
preprosto vnašanje podatkov (npr. vnos številke kreditne kartice),
pripravo strukturiranih dokumentov (npr. radiološko poročilo), določanje
karakteristik govorca, predelavo govora v besedilo (npr. urejevalniki
besedil ali e-pošte) itd.
Izraz prepoznavanje glasu ali identifikacija govorca [se nanaša na samo
razpoznavanje govornika, ne pa na to, kar ta govori. Prepoznavanje
govornika lahko poenostavi prevajanje govora v sistemih, ki so bili
prilagojeni na glas določene osebe lahko pa to uporabimo le za
preverjanje identitete govornika v skliopu varnostnega procesa.
Z vidika tehnologije ima prepoznavanje govora dolgo zgodovino z različnimi
inovacijami. V zadnjem času je to področje izkoristilo napredek na
področju poglobljenega učenja in velikih podatkov. Napredek se kaže tudi s
sprejetjem različnih globalnih učnih metod pri oblikovanju in uvajanju
sistemov za prepoznavanje govora po vsem svetu. Med akterji govorne
industrije zasledimo Google, Microsoft, IBM, Baidu, Apple, Amazon,
itd.