Technologie využívající potenciál umělé inteligence prostupují mnoha oblastmi našeho života a jsou neustále zdokonalovány. Své o tom vědí i zakladatelé česko-amerického start-upu Parrot, který se rozhodl proniknout do strnulého segmentu soudnictví. Zatím tedy pouze toho v USA.
Po třech letech in-house vývoje a optimalizace se česko-americké firmě Parrot podařilo nabídnout americkému právnímu systému nástroj, který za pomoci nejnovějších modelů strojového učení (ML — machine learning) automatizuje přepis mluveného slova vypovídajících do textové podoby. Tedy proces, který doposud trval mnoho hodin manuální práce (často stovek i tisíců, v závislosti na složitosti kauzy a počtu výpovědí) a jenž soudní procesy zásadně protahoval. O překážkách, se kterými si při programování technologie museli poradit, ví své Tomáš Ščavnický, spoluzakladatel a CTO Parrotu. Možná jste to už sami na vlastní kůži zažili nebo patříte k těm šťastnějším, kteří to sledují jen zpovzdálí prostřednictvím medializovaných kauz, ale některé soudní procesy se zkrátka mohou táhnout dlouhé měsíce, ba i roky. Domáhat se spravedlnosti, nebo naopak čelit, byť třeba i falešnému obvinění prostřednictvím soudní pře je prostě zdlouhavou cestou stojící nejen peníze, ale i úsilí a nezřídka i psychické strádání. A sepisování výpovědí i další nakládání s nimi v tom hraje podstatnou roli. Co ale s tím? „Spolu s mým americkým kolegou Bryanem Baumem jsme vždy věřili tomu, že i tak zamrzlý kolos, jako je soudnictví, lze probudit k životu a za pomoci moderních technologií jej zagilnit. S touto vizí jsme začali vyvíjet platformu, která by dokázala překládat mluvené slovo do podoby psaného textu a automatizovat tak proces, který je na denní agendě každého právníka. Ve Spojených státech, kde dnes působíme, je textový záznam líčení, včetně výpovědí svědků, vyžadován při každém soudním procesu,“ říká Tomáš Ščavnický k okolnostem vzniku firmy Parrot. Zmíněná oblast do té doby nebyla příliš inovována. Programů na automatizované přepisy je sice celá řada, jejich přesnost a spolehlivost však zatím použití v tak klíčových oblastech, jakými je soudnictví, buď zcela vylučovala, nebo vyžadovala zdlouhavou kontrolu a opravu.
Od procenta k procentu
Touto cestou se původně vydali i vývojáři start-upu Parrot a po třech letech vývoje a optimalizace se jim dokonce podařilo vytvořit nástroj schopný automaticky produkovat textové materiály, které si získaly důvěru právních zástupců napříč USA. „Naše in-house vyvíjená technologie tento strnulý segment rozpohybovala a umožnila nejen americkým právníkům, ale třeba i pojišťovnám a dalším institucím, aby svou práci vykonávali jednodušeji, rychleji a levněji,“ uvádí technický ředitel projektu a dodává: „Cesta k takovému produktu však nebyla snadná a my se potýkali s řadou překážek. Ty totiž ovlivňovaly chybovost naší platformy, která se díky dlouhodobému trénování modelů strojového učení pohybuje mezi 6 až 8 %.“ Kvůli zkušenostem s veřejně dostupnými nástroji, které ale neposkytovaly výstupy v kvalitě, s níž by se spokojili, vsadili na vývoj vlastní technologie od základů. Vedlo je k tomu i přesvědčení, že ML modely je třeba optimalizovat datovými sadami specifickými pro oblast, ve které budou používány. Tehdy sáhli po open source knihovně s nástrojovou sadou Kalbi od brněnských vývojářů, který jim poskytl stabilní základy pro další zdokonalování. I tento nástroj však přinášel mnoho manuální práce, která byla při analýze audiozáznamu potřeba: vzorkování záznamu, filtrování potřebných frekvencí z hlasu řečníků, přepis na hlásky či jejich výběr…
Znovu, neuronově a lépe
„Před rokem a půl jsme se s tímto nástrojem rozloučili a obrátili se na výrazně praktičtější end-to-end neuronové sítě. Do oka nám padl open-source předtrénovaný model od Facebooku, který jsme následně vytrénovali na vlastních datech. To proto, že ač byla tato síť částečně trénovaná na angličtinu, stále nedosahovala přesnosti, kterou Parrot potřeboval. A tak začalo dlouhé ‚školení‘ naší technologie, které si vyžádalo stovky tisíc hodin dat.“ Zpřesňování platformy spočívá v tom, že strojové učení neustále odhaluje systematické malé chyby, které jsou způsobeny různými zvukovými anomáliemi. Největší překážku podle Tomáše Ščavnického paradoxně nepředstavují slang či přízvuky, ale zdánlivé banality jako ženský hlas, na který museli neuronovou síť dotrénovat. Zde byla vyšší chybovost dána tím, že ženský hlas zaznívá v soudnictví oproti mužským výrazně méně často, takže mělo ML méně dat k učení. Možná si říkáte, proč pro trénování nevyužili třeba zvukové nahrávky z krimi seriálů, ve kterých je ženských hrdinek dostatek. „Ačkoli jsme tuto variantu (spíše ve vtipu) sami zvažovali, došlo nám, že bychom pracovali s postprodukčně upravenou nahrávkou okleštěnou o přirozené zvuky v pozadí, která by pro účely tréninku naší technologie neměla větší smysl,“ upřesňuje Ščavnický. Problém nastával také v případech, kdy hovořilo více lidí přes sebe. A vývojáři tak svou technologii museli naučit, aby osoby dokázala nejen rozlišit, ale jejich výpověď oddělila také v přepisu líčení. Trénování ML modelů spočívalo rovněž v porovnávání nejrůznějších hluků a šumů se standardy těchto zvuků. Platforma v současné době „nehovoří“ jiným jazykem než angličtinou. Přestože si snadno poradí s nespočtem různých akcentů typických pro jiné anglicky hovořící národy či se slangovými obraty, na další jazyky (zejména španělštinu) si teprve zvyká.
Konečně lépe než člověk
Dlouhé roky byl člověk díky svým zkušenostem a schopnostem uvažovat spolehlivějším zapisovatelem než nejvyspělejší technika. Nyní se pomalu karta obrací. Zatímco chybovost člověka je závislá na míře jeho momentálního soustředění, rizika chybovosti dokonale vytrénované umělé inteligence klesají s každým použitím k nule. Podle vyjádření Tomáše Ščavnického už schopnost jimi vyvinutého nástroje pracovat efektivněji než člověk přesvědčila právníky natolik, že se úspěšně prosazuje v praxi. Vytváření spisů však tvoří jen část zdlouhavé soudní práce. Každý spis je ale vytvářen proto, aby byly jednotlivé výpovědi řádně zdokumentovány nikoliv jen pro potřeby archivace, ale hlavně pro další, komplexní práci všech, kdo se na vyšetřování a soudním procesu podílejí, tedy jednotlivých právních zástupců, specialistů i soudců řady instancí. A načítání spisů je časově ještě mnohem náročnější než jejich pořizování. Navíc lze v záplavě informací snadno nějaký podstatný detail přehlédnout. I tady by ovšem software využívající schopnost učení a umělé inteligence mohl výrazně pomoci. „Je nám jasné, že ve chvíli dosažení téměř nulové chybovosti již nemá další trénování ML skrze data valný smysl. Poslední měsíce se proto zaměřujeme na to, aby z textových přepisů dokázal dále těžit další užitečné výstupy. Právní experti totiž následně nad transkripty tráví hodiny při jejich podrobném pročítání a odhalování dalších souvislostí. Naše technologie však už dnes dokáže tuto práci automatizovat a z rozsáhlých textů odhalit i nuance, jako odlišnost ve výpovědi různých svědků na stejnou otázku. Ze získaných informací pak jako z dílků puzzle sestaví profil dotyčné osoby, s nímž pak mohou vyšetřovatelé a právníci snáze pracovat. Na jaké adrese se podezřelý v minulosti zdržoval? Kde se v době zločinu nacházel? To vše dnes náš nástroj dovede ve zvukových záznamech vyhledávat a automaticky z nich extrahovat,“ doplňuje k dalším schopnostem produktu a jeho dalšímu směrování jeho spolutvůrce. Určitou výzvu pro takový nástroj představuje i překonávání legislativních bariér. Přestože je platforma přijímána americkými právníky poměrně vřele, v řadě států naráží na federální odlišnosti. Proto musejí tvůrci ruku v ruce s dalším zlepšováním technologie být schopni dobře komunikovat benefity řešení a právním zástupcům vysvětlovat, že smyslem platformy není jejich nahrazení, ale maximální zefektivnění běžné rutiny, jež dokáže spolykat řádově i týdny. Nezbývá než doufat, že si takový systém brzy najde cestu i do české justice. /Michael Málek/