Spoznali bomo nekatere probleme, ki bodo morali še biti zadovoljivo rešeni, preden bo govorna komunikacija z računalniki prešla v vsakdanjo prakso:
|
Interakcijo med uporabnikom in računalnikom bo sčasoma zelo poenostavila govorna komunikacija, ki pa je šele v razvojnih fazah. Ljudje pri svoji komunikaciji uporabljamo naravni jezik. Problem še otežuje dejstvo, da je jezikov več. Končni cilj je, da bi zgradili računalniški sistem, ki bi lahko obojesmerno uporabljal naravni jezik, kot to počnemo ljudje. Vmesni cilj pa je, da bi računalnik znal obdelovati tekst in govor bolj inteligentno. |
Raziskave potekajo interdisciplinarno: obsegajo lingvistiko
in modeliranje jezikov, psihologijo in kognitivne procese, matematiko in študij
lastnosti formalnih jezikov.
Danes poznamo govorne sintetizatorje, ki največkrat pretvarjajo tekst v
govor.Ti lahko pomagajo otrokom in odraslim, ki imajo težavo z branjem besedil.
Po drugi strani poznamo preproste sisteme za razpoznavo govora, ki jim včasih
napačno pravimo sistemi za razpoznavo glasu. Razpoznava glasu je soroden
proces, ki pa je namenjen identifikaciji govoreče osebe.
V raziskavah na področju razpoznave govora je bilo zasnovanih in
implementiranih veliko različnih algoritmov. K hitrejšemu razvoju sistemov
avtomatskega razpoznavanja je pripomogla predvsem proizvodnja cenenih signalnih
procesorjev.
Pri govorni komunikaciji človek enostavno razloči ženski glas od moškega, govor
razume neodvisno od govorca, tudi v šumnih okoljih. Vse to pa povzroča
precejšnje težave sistemom za avtomatsko razpoznavanje govora. Njihova uporaba
je precej omejena, zato jih lahko glede na te omejitve razdelimo v različne
skupine. Glede na način razpoznavanja govora jih delimo v tri skupine:
· razpoznavanje izoliranih besed
· razpoznavanje vezanega govora
· razpoznavanje tekočega govora
Pri razpoznavanju izoliranih besed morajo biti besede
izgovorjene tako, da lahko določimo njihove meje. V zadnjih letih lahko tako z
glasom aktiviramo telefon ali vnašamo preproste ukaze oziroma podatke (na
primer vnos številke kreditne kartice).
Pri razpoznavanju vezanega govora je vhod tekoč govor, sestavljen iz izoliranih
besed.
Sistemi za razpoznavanje tekočega govora nimajo omejitev in so zato najbolj
kompleksni, pa tudi najbolj zanimivi za uporabo. Ti sistemi se morajo spopadati
s problemom koartikulacije - to je pojav, ko fonemi in besede vplivajo
na sosednje foneme in besede in tako otežujejo razpoznavanje.
Razpoznavalniki govora so lahko odvisni ali neodvisni od govorca, lahko so tudi
adaptivni. Sistemi, ki so odvisni od govorca, so razviti tako, da delujejo samo
za eno osebo. Takšni sistemi so enostavni za razvoj in bolj natančni, a niso
preveč fleksibilni. Sistemi, neodvisni od govorca, lahko interaktirajo s
katerokoli osebo določnega tipa. Ti sistemi so težji za implementacijo in
dražji. Pri adaptivnih sistemih pa se razpoznavalnik prilagaja govorcu med
delovanjem. Take sisteme moramo najprej naučiti (nadzorovano ali
nenadzorovano), da se prilagodijo uporabniku.