Govorna komunikacija z računalniki

Kaj se bomo v tem poglavju naučili?

Spoznali bomo nekatere probleme, ki bodo morali še biti zadovoljivo rešeni, preden bo govorna komunikacija z računalniki prešla v vsakdanjo prakso:

Predstavitev

Interakcijo med uporabnikom in računalnikom bo sčasoma zelo poenostavila govorna komunikacija, ki pa je šele v razvojnih fazah. Ljudje pri svoji komunikaciji uporabljamo naravni jezik. Problem še otežuje dejstvo, da je jezikov več.  Končni cilj je, da bi zgradili računalniški sistem, ki bi lahko obojesmerno uporabljal naravni jezik, kot to počnemo ljudje. Vmesni cilj pa je, da bi računalnik znal obdelovati tekst in govor bolj inteligentno.

 

Raziskave potekajo interdisciplinarno: obsegajo lingvistiko in modeliranje jezikov, psihologijo in kognitivne procese, matematiko in študij lastnosti formalnih jezikov.
 
Danes poznamo govorne sintetizatorje, ki največkrat pretvarjajo tekst v govor.Ti lahko pomagajo otrokom in odraslim, ki imajo težavo z branjem besedil.
 
Po drugi strani poznamo preproste sisteme za razpoznavo govora, ki jim včasih napačno pravimo sistemi za razpoznavo glasu.  Razpoznava glasu je soroden proces, ki pa je namenjen identifikaciji govoreče osebe.
 
V raziskavah na področju razpoznave govora je bilo zasnovanih in implementiranih veliko različnih algoritmov. K hitrejšemu razvoju sistemov avtomatskega razpoznavanja je pripomogla predvsem proizvodnja cenenih signalnih procesorjev.
 
Pri govorni komunikaciji človek enostavno razloči ženski glas od moškega, govor razume neodvisno od govorca, tudi v šumnih okoljih. Vse to pa povzroča precejšnje težave sistemom za avtomatsko razpoznavanje govora. Njihova uporaba je precej omejena, zato jih lahko glede na te omejitve razdelimo v različne skupine. Glede na način razpoznavanja govora jih delimo v tri skupine:

 

·         razpoznavanje izoliranih besed

·         razpoznavanje vezanega govora

·         razpoznavanje tekočega govora

 

Pri razpoznavanju izoliranih besed morajo biti besede izgovorjene tako, da lahko določimo njihove meje. V zadnjih letih lahko tako z glasom aktiviramo telefon ali vnašamo preproste ukaze oziroma podatke (na primer vnos številke kreditne kartice).
 
Pri razpoznavanju vezanega govora je vhod tekoč govor, sestavljen iz izoliranih besed.
Sistemi za razpoznavanje tekočega govora nimajo omejitev in so zato najbolj kompleksni, pa tudi najbolj zanimivi za uporabo. Ti sistemi se morajo spopadati s problemom koartikulacije - to je pojav, ko fonemi in besede vplivajo na sosednje foneme in besede in tako otežujejo razpoznavanje.
 
Razpoznavalniki govora so lahko odvisni ali neodvisni od govorca, lahko so tudi adaptivni. Sistemi, ki so odvisni od govorca, so razviti tako, da delujejo samo za eno osebo. Takšni sistemi so enostavni za razvoj in bolj natančni, a niso preveč fleksibilni. Sistemi, neodvisni od govorca, lahko interaktirajo s katerokoli osebo določnega tipa. Ti sistemi so težji za implementacijo in dražji. Pri adaptivnih sistemih pa se razpoznavalnik prilagaja govorcu med delovanjem. Take sisteme moramo najprej naučiti (nadzorovano ali nenadzorovano), da se prilagodijo uporabniku.