Tým profesora Jana Nouzy z
Ústavu informačních technologií
a elektroniky na Fakultě mechatroniky
Technické univerzity
v Liberci představil novou generaci
automatického přepisu mluveného
slova a rozpoznání hlasu
řečníka. Účastníci se přesvědčili,
že přepis je nejen rychlý, ale
i spolehlivý. Chyby prakticky
nebylo možné postřehnout.
Jedná se o systém ATT 3 (Audio
Transcription Toolkit), který používá
rozsáhlý slovník asi 320 000
slov. Zvládá přepis mluvené řeči
nejen přímo z mikrofonu, ale také
z televize a rozhlasu. Velkým
úspěchem je, že s tímto obrovským
slovníkem zvládá i on-line režim,
například přímé titulkování aktuálního
projevu, případně pořadu
v televizi či v rádiu. Titulkování
je podle Nouzy nejtěžší úlohou
při přepisu. „Přepisovací systém
musí zpracovat aktuálně mluvený
proud slov a vypisovat text
s minimálním zpožděním. Systém
musí být schopen okamžitě reagovat
na měnící se témata a výměnu
hovořících osob. Při tak velkém
počtu slov to je technicky náročné
i pro velmi výkonné počítače.
Přesnost přepisu je závislá na tom
jak daný řečník vyslovuje, na tom
jaký je v prostoru hluk a také na
tom, zda řečník užívá běžné nebo
specifické výrazy. V současné
době se pohybuje mezi 85 až 95
procenty,“ přiblížil nový systém
profesor Nouza.
Předchozí verze systému ATT
je již dva roky v provozu ve firmě
Newton Media a za tu dobu
zpracovala více než 10 000 hodin
záznamů, jejichž přepisy jsou pak
po kontrole poskytovány mnoha
klientům z veřejné i soukromé
sféry.
Jako jedno z nejbližších možných
využití v běžné praxi vidí Jan
Nouza diktování do počítače při
soudních nebo jiných, na přesnost
náročných jednání. Důležité podle
něj je také to, že liberecký systém
rozpoznávání řeči je nezávislý na
řečníkovi, a není nutné ho proto
zaučovat pro každou novou osobu.
Na druhé straně je ale možné
provést rychlou adaptaci pro osoby
s méně obvyklou výslovností.
„Program může značně zrychlit a
zefektivnit práci soudů. Je schopný
hned na místě přepisovat zvukový
záznam ze soudních jednání
do písemné podoby. Lze využít
standardní slovník, doplněný o
specifické termíny,“ souhlasí člen
realizačního týmu Petr Červa. Tento
systém podle něj do určité míry
zastane nákladnou a zdlouhavou
práci soudních zapisovatelek, které
místo zdlouhavého zapisování,
budou napsaný text jen editovat.
„Systém jsme před rokem vyzkoušeli
přímo v soudních síních. Tehdy
byla úspěšnost asi 75procentní.
Dnes již program zvládnul i naši
soudní terminologii a přesnost
přepisu se výrazně zvýšila. Pro
soudnictví by tento systém přinesl
významnou úsporu práce i času.
Rádi bychom tento program začali
využívat co nejdříve,“ uvedla ředitelka
správy Okresního soudu v
Liberci Kamila Břachová.
Systém automatického přepisu
mluveného slova se líbí i libereckému
hejtmanu Petru Skokanovi.
„Přesvědčil jsem se, že program je
schopný prakticky souběžně přepisovat
zvukový záznam z jednání
do písemné podoby. Myslím, že
by se to dalo využít pro záznamy
z jednání krajského zastupitelstva.
Podle klíčových slov by se pak dalo
vyhledat, kdo co přesně řekl. Umím
si představit, že bychom vytvořili
archiv záznamů jednání přístupný
veřejnosti,“ řekl Skokan po shlédnutí
textového záznamu běžícího
souběžně s projevy zastupitelů ze
zasedání krajského zastupitelstva.
Systém ATT podle profesora
Nouzy otevírá dosud netušené
možnosti sběru a třídění informací.
Umožňuje například nepřetržité
monitorování, přepisování
a archivování pořadů konkrétních
televizních a rozhlasových stanic.
Tyto přepisy jsou přitom takzvaně
zaindexovány, to znamená, že pro
každé slovo automaticky vytvořeného
přepisu se ukládají informace
o pořadu a stanici, kde se vyskytly
a o přesném času výskytu.Tak lze
kdykoliv přesně najít předmětný
pořad nebo záznam a okamžitě ho
přehrát. „Původní záznamy přitom
stále zůstávají na svém místě,
například na veřejně přístupném
webu televizní či rozhlasové stanice,
takže vyhledávání i případné
přehrávání je v souladu s autorskými
právy,“ zdůraznil Nouza.
Vědci z Technické univerzity
v Liberci počítají s tím, že systémy
hlasového ovládaní počítače
usnadní život také hendikepovaným
občanům. Hlasový systém
My Voice, který umožňuje ovládat
počítač bez použití rukou, již našel
na šedesát uživatelů v České republice,
na Slovensku a ve Španělsku.
Vůbec první uživatelka Dita Horochovská
může díky tomuto systému
studovat střední školu a hlasem
píše svůj blog. Letošní novinkou je
systém MyDictate, který pracuje
se slovníkem s více než půl miliony
slov a umožňuje nejen diktovat
do počítače bez použití rukou,
ale také text editovat a formátovat.
„Použitá strategie diktování
po jednotlivých slovech umožňuje
hendikepovaným uživatelům okamžitě
provádět změny a opravovat
případné chyby. Náš první klient
využil program při psaní své diplomové
práce a nyní již také při své
praxi na Nejvyšším správním soudu
v Brně. Nemůže psát rukama,
přesto vykonává vysoce kvalifikovanou
a náročnou práci,“ uvedl
spoluautor programu Petr Červa.
Pomocí dalšího programu Voi-
Center (Hlasové centrum) mohou
zase hendikepovaní lidé ovládat
přístroje a spotřebiče ve své domácnosti.
Ve světě se podobné technologie
také vyvíjejí, v Česku se však
zatím jejich vývojem nikdo nezabýval.
Pilotní projekt řeší liberečtí
vědci ve spolupráci s jabloneckou
firmou Jablotron. „Pro postiženou
osobu lze vytvořit něco, co nazýváme
SmartRoom, neboli inteligentní
místnost. Stačí k tomu běžný počítač,
náš program a několik jednoduchých
bezdrátových spínačů. Pak
stačí mluvenými povely zapínači
vypínat spotřebiče ovládané z počítače.
Může to být lampa, topení,
ventilace, televize, rádio, ale i zámek
nebo kamerová kontrola vstupu.
Program nyní testují různí lidé
v naší předváděcí místnosti na univerzitě,“
představil program další
člen týmu Josef Chaloupka.
Laboratoř počítačového zpracování
řeči vznikla na Technické
univerzitě v Liberci před 15 lety.
Během té doby se na její půdě zrodila
celá řada programů, nástrojů
i komplexních systémů, z nichž
několik je již komerčně nasazeno
v praxi. V roce 1993 zde vznikl
i první český rozpoznávač řeči,
který byl nezávislý na řečníkovi
a umožňoval jednoduché operace,
například hlasem ovládané kreslení
či hraní jednoduchých her.
Historický rozpoznávač je nyní
k vidění v Národním technickém
muzeu v Praze.
JAROSLAVA KOČÁRKOVÁ
FOTO AUTORKA