Výzkumná skupina Speech@
FIT mladých informatiků z Fakulty
informačních technologií VUT
v Brně ve složení Ing. Pavel Matějka,
Ing. Lukáš Burget, Ph.D., Ing.
Petr Schwarz, Ing. Martin Karafiát,
Ing. František Grézl a Ing.
Ondřej Glembek dosáhla dalšího
významného mezinárodního úspěchu.
V soutěžní evaluaci pořádané
agenturou vlády USA NIST
(National Institute of Standards
and Technology) v kategorii automatických
systémů rozpoznávání
mluvčího dosáhl jejich tým společně
s kombinovanou skupinou VUT
v Brně a odborníků z Nizozemska
a JAR nejlepších výsledků mezi
38 průmyslovými i akademickými
laboratořemi z celého světa.
A proč mluvíme o nejlepších
výsledcích a nenapíšeme přímo, že
Brňané zvítězili? Přísné regule soutěže
totiž zapovídají zveřejňovat
přesné pořadí týmů.
Připomínáme, že již v loňském
roce byly systémy brněnského týmu
pro automatickou identifikaci jazyka
(language identification - LID) v soutěžní
evaluaci pořádané agenturou
NIST (podporuje ji např. i NASA)
nejlepší ve dvou ze tří kategorií a v té
třetí obsadily druhé místo. Letos tedy
svou příslušnost ke světové špičce
v tomto oboru brněnští výzkumníci
znovu potvrdili.
Brněnský tým má ostatně ve zpracování
řeči mnohaletou tradici,
i když evaluací v identifikaci mluvčího
se účastnil letos poprvé po několikaleté
přestávce. Právě proto vědci
z FIT VUT v Brně spojili své síly
s odborníky z Nizozemska (Institut
TNO) a Jihoafrické republiky (firma
Spescom Data Voice a Universita
Stellenbosch). Do tohoto minikonsorcia
přispěli Brňané především
technikami pro velmi přesné trénování
matematických modelů, které řeč
popisují. Ve velmi krátké době také
implementovali metody, které dovolují
oddělit vliv přenosového kanálu
(pevná linka, mobilní telefon, IP
telefonie) od parametrů popisujících
mluvčího: systém je pak mnohem
přesnější i v případě, že mluvčího
během trénování "slyšel" z pevné linky
a testovací soubor je z mobilu.
"My jsme se systémem na identifikaci
mluvčího neměli před soutěží
vůbec žádné zkušenosti. Ty jsme
postupně získávali až od svých zahraničních
kolegů, za kterými jsme zpočátku
velmi zaostávali. Ale v průběhu
soutěže jsme se dostali na jejich úroveň
a dokonce i před ně. Každý tým
soutěžil samozřejmě sám za sebe,
ale mailem jsme si vyměňovali své
poznatky. Těch mailů bylo nakonec
kolem šesti stovek," přiblížil vzájemnou
spolupráci Ing. Petr Švarc.
Jak vlastně automatický systém
rozpoznávání mluvčího funguje?
V databázi má systém několik tisíc
trénovacích vzorků řeči s identitami
mluvčích. Na nich se "naučí" mluvčí
rozpoznávat. Při rozpoznávání pak
systém na základě krátké nahrávky
řeči určí, který mluvčí ji namluvil.
Druhou úlohou je verifikace
- v tomto případě mluvčí do systému
zadá svou identitu, namluví několik
sekund řeči a úkolem systému je pak
určit, zda je mluvčí skutečně ten, za
kterého se vydává.
Vlastní evaluace probíhá v přesně
daném čase - v případě rozpoznávání
mluvčího to jsou tři týdny. Účastníci
obdrží Fedexem neznámá data a ve
svých laboratořích je zpracují - ke
každému souboru s řečí musí přiřadit
odpověď "ano, jedná se o zvoleného
mluvčího" nebo "ne, je to někdo
jiný". Na konci evaluačního období
pak odešlou výsledky ve formě počítačových
souborů do USA, NIST je
během týdne vyhodnotí a vyhlásí
výsledky.
"Dostali jsme 54 000 vzorků řeči
od 800 mluvčích. Jedná se o přibližně
pětiminutové hovory dvou účastníků.
Zhruba třetina hovorů byla v americké
angličtině, zbytek v dalších třiceti
světových jazycích. Při rozpoznávání
mluvčích jsme dosáhli úspěšnost
téměř 95 procent," uvedl koordinátor
týmu Ing. Pavel Matějka. "Při hodnocení
míry úspěšnosti je třeba vzít do
úvahy i to, že některé nahrávky hovorů
byly vinou nahrávání vadné nebo
také někteří mluvčí ve snaze získat
odměnu za více nahrávek vystupovali
pod několika identitami. I když náš
systém tyto podvůdky dokázal odhalit,
nevíme, zda tito mluvčí museli
svou nezaslouženou odměnu organizátorům
vracet," podotkl s úsměvem
Ing. Lukáš Burkert.
Podle doc. dr. Ing. Jana Černockého,
vedoucího skupiny Speech@FIT,
je důležité, že všechny týmy účastnící
se evaluace dostanou pro rozpoznávání
naprosto shodná data. "Se
stejnými daty a za stejných podmínek
lze potom různé systémy posuzovat
souměřitelně," říká doc. Černocký.
Nedílnou součástí evaluací je
i závěrečný workshop, který se letos
uskutečnil v portorickém San Juanu.
Na něm musí účastníci seznámit ostatní
týmy s použitými technologiemi.
"NIST evaluace tak slouží k posunu
vědění v dané oblasti a k mezinárodní
spolupráci týmů," zdůraznil Pavel
Matějka.
SYSTÉMY PRO IDENTIFIKACI
MLUVČÍHO SE UPLATNÍ:
. při vyhledávání informací v audioarchivech
v privátních podnikových
sítích nebo na internetu
(přednášky, schůze, prezentace,
TV programy atd.),
. pro zvyšování kvality obsluhy
v call-centrech, kdy je možné na
základě několika sekund řeči přibližně
odhadnout, zda volá známý
zákazník, a tím i zjistit, jaká problematika
se s ním již řešila nebo
o co se zajímá,
. velké využití se nabízí ve styku
s bankou, kdy identifikace mluvčího
může pomoci zabránit zneužití
prozrazených kódových čísel nutných
pro přístup k účtům,
. v bezpečnostní oblasti, kdy je
nutné rychle najít podezřelého
v mnoha nahrávkách či ověřit, zda
nahraný řečový vzorek pořízený
např. při policejním monitorování
telefonních hovorů skutečně patří
podezřelému.
Právě identifikaci pachatele trestné
činnosti podle záznamu hlasu byla
věnována i jedna z expertních přednášek
workshopu v San Juanu. "I když
se taková identifikace nedá použít
jako soudní důkaz tak jako daktyloskopie
nebo analýza DNA - hlas
člověka se mění např. v závislosti na
fyzickém stavu a věku - může mít
přesto význam v kriminalistice jako
doplňující metoda např. při vyloučení
určité osoby z okruhu podezřelých,"
poznamenal Lukáš Burkert.
Hlavní podpora pro výzkumnou
práci skupiny Speech@FIT přichází
samozřejmě z domovské Fakulty
informačních technologií VUT
v Brně. Práce na systému byla také
podporována evropskými projekty
AMI a CareTaker, projektem Ministerstva
obrany ČR a Grantovou agenturou
ČR. Skupina Speech@FIT již
delší dobu pracuje pro Ministerstvo
obrany ČR, které výsledky jejich
výzkumu využívá při zajišťování
bezpečnosti naší republiky.
Mladí výzkumníci se chtějí soutěžní
evaluace NIST v USA zúčastnit
i v příštím roce. Další oblastí výzkumu,
kterou se zabývají, je vývoj systému
audiovizuální knihovny, který
by nabídl multimediální vyhledávač
propojující audio a videodata. IGOR MAUKŠ