Kõnetuvastus

Allikas: Kuulmisabi - Kuulmislangus, Kuulmispuue, Tinnitus, Kõrvakuulmine, Meiere Tõbi, Kuuldeaparaat.

Kõnetuvastus (inglise speech recognition, lühend SR) on inimkõne sisu automaatne äratundmine arvutustehnika vahenditega. Arvutite kõnetuvastus jõudis praktilise tasemeni 1990. aastatel, kui United Airlines vahetas oma lennuinfo klaviatuurisüsteemi süsteemiga, mis kasutab lennunumbrite ja linnanimede kõnetuvastust. Kuigi arvuteid on võimalik juhtida häälkäskudega, on enamik kasutajaid jäänud siiski klaviatuuri ja hiire juurde, kuna need on siiani mugavamad. Tänapäeval on kõnetuvastus juba levinud nutitelefonidele.

Ajalugu

1952. aastal lõid firma Bell Labs teadlased süsteemi, mille ülesandeks oli kõneleja lausutud üksikute numbrite tuvastamine kõnesignaalis olevate vokaalide formantsageduste põhjal . 1950. ja 1960. aastate jooksul uuriti kõnetuvastust piiratud sõnavara ja selgelt eraldatud sõnade puhul. Samuti tehti katseid kõne sõnadeks segmenteerimisel ja süsteemi võimaliku sõnavara suurendamisel. Rõhk oli reeglipõhistel mudelitel.

1970. aastatel töötati sõnavara suurendamise suunas. Meetoditest tehti esimesi katsetusi statistiliste meetoditega, s.h Markovi peitmudel (HMM) ja lineaarprognoos (LPC). Kasutati ka võtmesõnade tuvastamist. 1970-ndatel tuldi välja ka avalikkusele suunatud kõnetuvastusteenustega, näiteks häälvalimine. 1980-ndatest hakati reeglipõhise lähenemise kõrval rohkem tähelepanu pöörama statistilistele meetoditele (HMM, tehisnärvivõrgud) ja masinõppele. IBMis loodi kõnetuvastusmasin Tangora, mis suutis teisendada öeldud lauseid tähejadadeks ja trükkida need paberile. Oluline oli sõnastiku suurus (20 000 sõna) ja masina kasutatav keelemudel, mis hindas, kui tõenäoline on tuvastatud sümbolite järjekorra tõenäosus. 1990-ndatel ületas tüüpiliste kommertskõnetuvastusprogrammide sõnavara keskmise inimese sõnavara hulga. 1993. aastal tõi IBM turule esimese laiatarbe kõnetuvastussüsteemi. 2000. aastatel tehti DARPA toetusel kõnetuvastuse uuringuid firmades Effective Affordable Reusable Speech-to-Text (EARS) ja Global Autonomous Language Exploitation (GALE). NSA alustas võtmesõnade tuvastusega suurtes kõnekorpustes 2006. aastal. Google tegi esimesi edusamme 2007. aastal kõnetuvastuse alal, nüüdseks on sellest välja kasvanud Google'i häälotsinguteenus.

Ajalugu Eestis

Küberneetika Instituudi foneetika ja kõnetehnoloogia laboratooriumis tehti esimesed eksperimendid eestikeelse kõnetuvastusega juba 1980. aastate lõpus. Aktiivsemalt hakati tuvastusega tegelema 2000-ndate keskel. Suure tõuke andis sellele kahe mahuka eestikeelse kõne andmebaasi (BABEL ja Eesti SpeechDat) loomine, mis võimaldasid treenida juba üsna hästi toimivaid akustilisi mudeleid. Kõneandmebaaside loomine ongi labori üks tähtsamaid tegevusi, mis toetab teisi uurimissuundi. Põhiliseks kõnetuvastusega seotud uurimisobjektiks on olnud keelemudel.

Segavad tegurid

Kõnetuvastust mõjutavad mitmesugused tegurid :

  • müra (taust, akustika)
  • kõneleja eripära (kõne kvaliteet, sugu, keel, kõnelemisstiil, tempo)
  • tehnilised probleemid (mikrofoni kvaliteet)

Tarkvara kõnetuavstuseks

Brauseripõhine - Live

Brauseripõhine - Hilisem töötlus

Google Chrome lisad

Kõnetuvastus tarkvarad Android telefonile

Välised viited