Její rozsah v poslední době je překvapivý. Často ani netušíme, kde všude se s ní už nyní setkáváme.
Kdo určitou dobu na internetu nepoužíval automatický překladač Google, zůstal možná překvapen, jak významné proměny doznal v posledních letech. Dřívější víceméně otrocký překlad se jako mávnutím kouzelného proutku proměnil do podoby, která vyvolává až údiv. Došlo k jeho skokovému vylepšení.
Překladač Google totiž již nějakou dobu využívá takzvaného hlubokého učení neuronových sítí k překladu celých vět. Umělá inteligence se také dokáže učit více jazyků zároveň, a zlepšuje se často nečekanými způsoby.
Před pár lety
Překladač Google (anglicky Google Translate) je zdarma k službám více než miliardě lidí na celém světě. Od svého spuštění v roce 2006 postupně začal nabízet překlady mezi 103 světovými jazyky (v dubnu 2020 už to bylo 109 jazyků), včetně latiny a esperanta. Čeština byla pak zařazena v květnu roku 2008. Od května 2017 denně přeloží texty pro více než 500 milionů uživatelů.
Zpočátku překládal po slovech a frázích, což umožňovalo jen základní orientaci v překládaném textu, který pak bylo třeba ještě podstatně stylisticky upravit. Na vylepšení byly poté nasazeny týmy odborníků, které zkoušely, jak k překladům nově využívat neuronové sítě, překládající text po celých větách. Strojový překlad tak začal využívat umělou inteligenci.
„Jde o největší skokové vylepšení v historii našeho překladače," říká Barak Turovsky, produktový manažer Google Translate. U jazyků, kde už Google novou generaci strojového překládání spustil, podle něj uživatelé zaznamenali tak významné zlepšení překladů, jako za celých předchozích deset let dohromady.
Neuronové sítě analyzují miliony různých textů na webu a na nich se trénují, aby se neustále zlepšovaly. Na základě zpětné vazby se dokáží neustále učit a zdokonalovat, aniž by bylo nutné (nebo možné) přesně popsat, čemu se v daný okamžik právě naučily. Tak si třeba překlad z angličtiny do češtiny lépe poradí i s českým slovosledem.
Neuronová síť?
Umělá neuronová síť do jisté míry napodobuje způsob, jakým informace zpracovává lidský mozek, který obsahuje asi 50 až 100 miliard neuronů. Stejně jako v naší hlavě může také „učit sama sebe", což zjednodušeně znamená, že sama sobě dává otázku, na kterou zná správnou odpověď, a trénuje sama sebe tak dlouho, dokud tuto odpověď není schopna poskytnout s určitou spolehlivostí.
O umělých neuronových sítích se z vojenského hlediska v teoretické rovině diskutovalo už v druhé světové válce (přesněji řečeno od roku 1943), brzy se však zjistilo, že počítače ještě dlouho nebudou dostatečně výkonné na to, aby šlo tento koncept rozumně využít. Teprve v 21. století se výzkum rozhoupal a významně pokročil vpřed.
Tyto sítě dokonce dokáží použít, co se naučily na jiných jazycích, k překladu jazyka, ke kterému není k dispozici dostatek tréninkových dat. „Seskupujeme jazyky dohromady, třeba několik slovanských jazyků se vylepší na základě stejných dat," dává příklad Turovsky. „Jindy je to celkem nečekané. Třeba překlad z polštiny se zlepšil, když jsme využili data získaná trénováním umělé inteligence na textech ve vietnamštině nebo thajštině. Je to tak trochu černá skříňka," dodává.
A nyní?
Výsledný překlad je téměř bez chyby, a dokonce celkem věrně kopíruje styl a žánr původního textu. Přesnost je místy až zarážející, zvláště vezmeme-li v úvahu odlišný slovosled v různých jazycích.
Jedním ze zdrojů dat jsou i knihy, které Google skenuje v rámci projektu Google Books. To umožňuje též sledovat vývoj jazyka. Pokud jde o češtinu, je to až na drobné chybky čitelný český text bez gramatických chyb.
V opačném gardu lze celkově říci, že třeba Angličan či Američan si s Google Translate může přečíst české zpravodajství a porozumět přinejmenším podstatě článku.
(Celý článek naleznete v příštím vydání Technického týdeníku.)