V Česku žije podle odhadů České unie neslyšících (ČUN) na půl milionu lidí s postižením sluchu, včetně seniorů, kteří trpí poruchami sluchu spojenými s věkem. Bohužel, některé důležité informace nebo umělecké filmy se k nim nedostanou, protože jim chybějí titulky. Všechny subjekty státní správy mají od 23. září 2020 povinnost opatřovat videa a zvukové soubory na svých internetových stránkách titulky. K tomuto datu totiž vstupuje v platnost příslušná část nového Zákona o přístupnosti (99/2019 Sb.). Tato povinnost se týká asi 500 orgánů státní správy, 262 orgánů územní samosprávy a dalších 9 834 orgánů veřejné moci. Podle nově zpracovaných dat však nejsou státní instituce na nová pravidla připraveny. Upozorňují na to organizátoři konference INSPO, jež se už 20 let zabývá aplikacemi nejmodernějších technologií pro zlepšení života lidí se zdravotním znevýhodněním. Společnost Newton Technologies analyzovala pro konferenci INSPO téměř 600 webů státních institucí, samospráv a dalších subjektů. Z výsledků studie vyplývá, že pouze necelá pětina webů s videoobsahem má tyto příspěvky opatřené titulky pro neslyšící a nedoslýchavé. Směrnice navíc zjevně neplní svůj účel. Povinnost titulkovat se totiž vztahuje pouze na webové stránky subjektů, nikoliv na sociální sítě jimi spravované (především YouTube a Facebook), kde je publikována převážná část multimediálního obsahu. Situace se stala zvlášť svízelnou letos na jaře, kdy s výjimkou České televize běžely důležité informace v televizních programech bez titulků. Naštěstí na tuto obtížnou situaci sluchově postižených v době koronavirové epidemie zareagovala právě firma Newton Technologies, která má vlastní technologii pro automatický přepis řeči, jež umí tvořit i automatické titulky. Zahájila projekt titulkované Televize Beey, která pomáhala zpřístupnit audiovizuální obsah lidem s postižením sluchu. Na této televizi (https://beey.tv) již bylo zveřejněno více než 1 100 televizních a dalších pořadů, všechny opatřené titulky. Televize využívá technologii automatického titulkování, kterou vyvinula firma Newton Technologies ve spolupráci s Technickou univerzitou v Liberci (TUL). Petrovi Herianovi, majiteli a řediteli firmy jsme při této příležitosti položili několik otázek:
Jak projekt automatického titulkování vznikal? Unikátní technologii, která dokáže obtížnou češtinu a další slovanské jazyky kontinuálně převádět do psané formy, jsme vyvinuli už v roce 2008. Od počátku jsme spolupracovali s pracovníky TUL. Od té doby jsme ušli pěkný kus cesty. Zprvu jsme potřebovali zkušené mluvčí a chybovost se pohybovala okolo 30 %. Dnes jsme do softwaru zapojili neuronové sítě a přesnost přepisu je 99 %. Nejde jen o pouhé diktování textu. Vyvinuli jsme program, ve kterém se dá velmi precizně editovat zaznamenaný text, protože mluvený projev se od psaného velice liší.
Co můžete prozradit o svém patentu? Náš princip spočívá na analýze hlasu, kdy se mluvené slovo převádí do tzv. fonémů, to jsou hlásky, jak je slyšíme. Ty se převádějí do písmenek, z nich se sestavují slova a z nich věty. Jednoduše řečeno je to velmi komplikovaná aplikace, na jedné straně zvuk a na druhé text.
Ve světě už existuje víc obdobných systémů. V čem jste jedineční? V češtině a v dalších jazycích střední a východní Evropy. V přepisu mluvené řeči musí program poznat, kdy končí věta, kdy má napsat otazník, kdy mluví jiná osoba, s jakou emocí, a aby to bylo správně podle české gramatiky. Také umíme rozpoznat řeč v hlučném prostředí.
Na čem nyní pracujete? Ve spolupráci s týmem profesora Jana Nouzy z Ústavu informačních technologií a elektroniky například rozvíjíme používání umělé inteligence a strojového učení. Náš program se u klienta dále rozvíjí, přidává nové pojmy atd. Například nedávno vysílala DVTV pořad o tom, co je to crobliha, tedy česká varianta hybridu francouzského croissantu a amerického donutu. Tento název počítač samozřejmě neznal, musel zasáhnout živý editor, ale od té doby si toto slovo program už pamatuje a dovede s ním pracovat. Podobně je tomu i s dalšími novými výrazy. Aby byl přepis v programu co nejkvalitnější a editace co nejrychlejší, slovník rozpoznávače Beey se aktualizuje každý den, a to na základě nejnovějších zpráv z médií. S využitím této technologie sestavila firma NEWTON Technologies například seznam slov, která se v českých médiích objevila za posledního půl roku vůbec poprvé. Koronavirová epidemie totiž v tomto ohledu dala vzniknout řadě nových pojmenování, označení a výrazů. V období od ledna do července 2020 zpracovala firma celkem 18 756 televizních a rozhlasových pořadů a v nich nalezla 178 826 výskytů nových slov. Těch 192 nejčetnějších si můžete prohlédnout ve wordcloudu na obrázku, kde jsou tato slova uvedena ve svém základním tvaru čili „lemmatizovaná“. Ne překvapivě souvisí naprostá většina z nich právě s tématem světové pandemie, jehož popularita skokově narostla počátkem tohoto roku. Technologie Beey, která najde využití i u jednotlivých uživatelů, bude blíže představena na konferenci INSPO, která byla vzhledem ke zhoršující se epidemiologické situaci přesunuta na sobotu 10. dubna 2021. /ks/