Společnost DeepMind patřící do skupiny kolem Googlu zveřejnila novou generaci softwaru, který pomáhá pochopit, jak funguje život. Jde o nepochybný pokrok, který otevírá nové možnost a také příslib praktického využití AI, tedy umělé inteligence k výrobě léčiv. Řadu odborníků ovšem okolnostmi odhalení nové generace softwaru nepotěšil. Software AlphaFold 3 je poslední generací už roky vyvíjené „umělé inteligence“, která pomáhá určovat tvar bílkovin — nebo proteinů, po ty, kdo mají rádi cizí slova. Pozemský život je na téhle skupině látek kompletně postaven — a z nich. Co která bílkovina v buňce — a tedy i v těle — dělá, neurčuje jenom jejich chemické složení, ale také tvar. Bez jeho znalosti je těžké zjistit, jak to dělá, a účinek napodobit (například pro léčebné účely). Tvar je přitom určen chemickým složením bílkoviny. Souvislost je však žel neskutečně složitá, a pro náš mozek těžko pochopitelná. Je to, jako kdyby se člověk snažil předem přesně odhadnout, jakým způsobem se do sebe zašmodrchá natažená řada různě zatočených gumiček a pružinek. V principu to není nic nepochopitelného, ale… Řešení lze v určitých případech jednoduše najít „silou“, resp. velkým výpočetním výkonem. Ale to je výjimka. U složitých bílkovin mohou být počty možných konfigurací mnohonásobně vyšší, než je počet všech atomů ve vesmíru. Těch je cca 1080 (plus minus nějaký ten řád), u bílkoviny může být počet možných variant minimálně o stovky řádů vyšší. Například hojně citovaná práce z roku 1969 uvádí příklad hypotetické bílkoviny ze 150 aminokyselin, u které by počet možných konfigurací byl až 10300. V průměru přitom bílkoviny v lidském těle má tvořit zhruba 300 aminokyselin.
To musíme mít!
Ale i když jde o úkol tak obtížný, odměna za jeho vyřešení je prostě příliš lákavá, než aby jí vědci odolali. Kdybychom dokázali předpovědět tvar všech sloučenin, které život používá, získali bychom tím přístup k jeho „programovacímu jazyku“. Najednou by se před námi otevřela celá řada vzrušujících možností, jak ovlivňovat, co (nejen) naše buňky dělají, včetně třeba příčin nemocí, vývoje možných léků nebo třeba nových látek pro využití v našich chemických reakcích. Biologové se tak již desetiletí pokoušeli tvar spočítat. Ale problém je tak komplikovaný, že pokrok byl poměrně pomalý. Určování tvaru bílkovin je „úzké hrdlo, které zpomaluje a omezuje poznání života vůbec“, řekl autorovi na konci roku 2020 biolog Jan Černý z Univerzity Karlovy. Už několik desetiletí pracuje mnoho týmů na vývoji různých algoritmů, které by otázku dokázaly elegantně zjednodušit do té míry, aby se dala podoba bílkovin dobře předpovídat. V polovině 90. let dokonce vznikla vědecká soutěž nazvaná CASP, kde proti sobě soupeřily různé týmy (letos jde o 16. ročník, protože soutěž se koná jednou za dva roky). Cílem soutěže je umožnit výměnu zkušeností a nápadů, které by posunuly obor kupředu. Výsledky výpočtů se přesto lepšily jen pomalu. Změna přišla v druhé polovině druhé dekády našeho století. Čím dál více týmů totiž začalo používat software s prvky hlubokého strojového učení, který se dnes často zjednodušeně označuje jako „umělá inteligence“, tedy AI (artificial intelligence). Jde o software, jenž se učí na známých příkladech (tj. již popsaných bílkovinách) předpovídat tvary bílkovin pro něj neznámých. Přelomovým se nakonec ukázal ročník 2018. V něm zvítězil tým, který na rozdíl od všech ostatních vlastně nebyl přímo z oboru: skupina ze společnosti DeepMind, kterou v roce 2014 koupil Google. Jeho software AlphaFold 2 vyhrál „světovým rekordem“, který v oboru znamenal zásadní posun. V roce 2022 tak díky němu mohl DeepMind ve spolupráci s Evropským bioinformatickým institutem zveřejnit databázi tvarů všech známých 200 milionů bílkovin. To byl do té doby nepředstavitelný výkon, který se staršími metodami nedal reálně uskutečnit. Odhalit strukturu nějaké bílkoviny na vlastní pěst bývala totiž otázka měsíců, nebo dokonce let. Najednou však získali vědci program, který to zvládl v řádu minut a s takovou přesností, aby na výsledku bylo možné založit další výzkum. Předpovědi rozhodně nejsou ve všech případech přesné, software ani náhodou není neomylný, obor však i tak zásadně změnil. Asi největší pokrok je v navrhování nových bílkovin „na míru“. Může jít například o verze nějaké bílkoviny, která bude rozpustnější ve vodě, bere v potaz mutaci u nějakého konkrétního pacienta, nebo která prostě má mít konkrétní tvar. Vědci pro demonstraci vytvořili bílkoviny, které mají tvar písmen abecedy nebo smajlíku. Což pochopitelně nemá žádný význam léčebný, ale dobře to ilustruje, jaké získali možnosti. Úspěšnost návrhu takových zbrusu nových bílkovin stoupla podle odborníků z řádově z jednoho z tisíců pokusů na jeden z několika jednotek pokusů.
Další skok
Na začátku května letošního roku pak DeepMind přišel s další verzí programu, AlphaFold 3. Článek popisující jeho výsledky se objevil v časopise Nature. Samotný model je pak dostupný jen přes webové stránky společnosti DeepMind. Zatím se reakce odborníků vesměs shodují na tom, že nejde o úplnou revoluci, ale o další znatelný pokrok ano. Je efektivnější a rychlejší, především však zvládne složitější situace. Starší verze si poměrně dobře uměly poradit s jednotlivým bílkovinami, v praxi však bývá situace složitější: bílkoviny často nepracují samy, ale dohromady v celcích složených z několika bílkovin, případně nukleových kyselin — ovšem takové případy AlphaFold 2 neuměl modelovat. Není třeba zacházet do detailů, ale právě tohle byl i důvod, proč AlphaFold 2 nezaznamenal velké úspěchy při vývoji léků, v jejichž případě právě obvykle probíhají složité „interakce“. Třetí verze této „AI“ už si s takovými problémy dokáže alespoň v některých případech poradit. Znovu rozhodně není bezchybná, s některými problémy si zjevně stále neví rady, ale její repertoár se výrazně rozšířil. AlphaFold 3 má také jednu zásadní výhodu: jednoduché webové rozhraní, které nevyžaduje od uživatele žádné kódování. Umožňuje každému, kdo má Google účet, zadat sekvenci proteinu nebo nukleové kyseliny a vytvořit předpovědi struktur komplexů, které mohou tvořit s jinými molekulami.
Otevřete ho!
Uživatelská přívětivost ovšem nepřebila v očích řady vědců jiný problém: DeepMind nebyl tak otevřený, jak si představovali. Současné možnosti použití označují hlasy z odborné komunity velmi často za dosti omezující. Vědci například nemají kontrolu nad tím, zda se nástroj v pozadí nemění a, jinak řečeno, jestli zítra bude dávat stejné výsledky jako dnes. Zároveň existoval limit, kolik předpovědí si bylo možné nechat denně udělat (nejprve 10, po kritice 20). Ve veřejné verzi také je jen omezené spektrum molekul. Podmínky pro nekomerční uživatele obsahují nová omezení, včetně například zákazu využití nástroje pro vývoj léků. DeepMind se přitom spojil při vývoji se společností Isomorphic Labs, která patří do stejného holdingu, a která má právě vyvíjet léky metodami „výpočetní biologie“, tedy s pomocí předpovědí podobných nástrojů. Notnou část kritiky sklidil i slavný časopis Nature, kde práce s popisem modelu vyšla. Jeho redakce trvá obvykle na tom, že pokud je součástí článku nějaký kód či software, musí být dostupný ke stažení spolu s článkem. Především proto, aby se dalo ověřit, že skutečně dělá to, co se tvrdí v textu (existují výjimky, například v případě potenciálně zneužitelného obsahu atp.). Publikace v takovém časopise není pro každého. Pokud vyvíjíte produkt, na kterém chcete vydělat, Nature a další velké vědecké časopisy nejsou vhodné místo na zveřejnění jeho popisu, protože pak je nutné ukázat více, než byste jako autor asi chtěli. Alespoň tedy obvykle, mimo jiné i v případě verze AlpahFold 2. V případě publikace článku o AlphaFold 3 redakce zjevně ze svého standardu slevila. Na to rychle zareagovala skupina vědců otevřeným dopisem, který rychle získal velkou pozornost a podporu. Časopis se pokusil vysvětlit své rozhodnutí mimo jiné tím, že chce „podpořit výměnu vědomostí“ se soukromým sektorem, ovšem těžko říci, zda někoho přesvědčil. Kritiku do jisté míry otupilo, když společnost DeepMind několik dní po vydání článku (a také otevřeného dopisu) oznámila, že do konce roku AlphaFold poskytne v otevřené verzi, stejně jako to udělala v případě AlphaFold 2. Otevřená kopie Zatím se ovšem zdá, že epizoda jen oživila zájem o napodobení výsledku AlphaFold 3 ryze akademickou alternativou. Otevřené modely jako OpenFold vznikaly i na základě starších verzí společnosti DeepMind, nyní bude ale motivace vědců asi zřejmě větší. „Bylo by špatné, kdyby nástroje, které jsou tak zásadní pro naši schopnost objevovat léky a další věci důležité pro lidské zdraví, skončily nepřístupné,“ řekl pro Nature Mohammed AlQuraishi z Kolumbijské univerzity v New Yorku. Oceňuje přínos DeepMind, ale jeho tým (a také několik dalších) se už snaží vystavit otevřenou verzi AlphaFold 3, kterou by akademici mohli využívat bez omezení. Nebude to jednoduché ani z čistě technického hlediska. Nejde totiž jen o samotný program. U „umělé inteligence“ jsou ještě důležitější údaje, na kterých se trénuje. Těch musí být k dispozici velké množství a software se na nich musí učit dlouho, aby dosáhl dobrých výsledků. Náklady na trénování velkých modelů, jako jsou ChatGPT 4 a podobné, se pohybují zřejmě v miliardách korun. V případě AlphaFold 3, který řeší užší okruh problémů, to bude patrně výrazně méně, snad desítky milionů korun, odhadují Ales. Je nutné nejen sehnat a připravit dostatek dat, ale také dát nechat software znovu a znovu záplavu údajů procházet a krok po krůčku se na ní učit. A to vše se odehrává pochopitelně ve velkých výpočetních centrech, která nejsou zadarmo. V případě DeepMind i jiných typů „umělé inteligence“ jde do velké míry o data, která autoři modelů nevytvořili. Ať už jsou to v jednom případě básně, romány, obrazy, nebo naše banální internetové „plky“. V případě biologie jde o vědomosti nasbírané nejen díky práci řady vědců, ale také zaplacené z peněz daňových poplatníků. Zdánlivě odtažitý obor skládání bílkovin čili „strukturální biologie“ si tak dnes klade otázky, které možná budeme muset řešit v mnohem větším měřítku: může být revoluční nástroj neprůhledný? Můžeme věřit výsledkům — v tomto případě lékům nebo vakcínám — bez otevřenosti? /jj/