Klání mezi lidskými soutěžícími na všech „polích“ v roce 2020 proti jiným letům notně ubylo. Pro počítače však lockdown nic neznamenal. A tak se i loňském roce odehrálo v počítačové technice několik událostí, které nejspíše vejdou do dějin. Jednou z nich bude i „mistrovství světa“ v disciplíně CASP, která byla do nedávna doménou lidskou. Soutěží se v ní o to, kdo dokáže nejlépe skládat základní stavební látky našeho těla, tedy bílkoviny.
Loňský ročník CASP (Critical assessment of protein structure prediction) se odehrál mezi květnem a srpnem. Výsledky, které přitáhly pozornost nejen odborníků z oboru, byly oznámeny na konci listopadu. Pozornost na sebe strhl vítěz skrývající se až do oznámení výsledků pod označením Skupina 427.
Málokdo v tu chvíli pochyboval, že je to ve skutečnosti software AlphaFold společnosti DeepMind (DeepMind patří do holdingu Alphabet, tedy do rodiny společností firmy Google). Nejspíše jste o ní už slyšeli, protože její software v roce 2016 dosti nečekaně, ale jednoznačně porazil nejlepšího hráče světa ve hře go.
AlphaFold se účastnil teprve podruhé, ostatní však nechal daleko za sebou. A co především, jeho výsledky jsou tak dobré, že se vědci nemohou dočkat, až ho uvidí nasazený mimo soutěž. Nám laikům skládání bílkovin přijde velmi vzdálené, ve skutečnosti jde o jeden z největších a nejzásadnějších nevyřešených problémů dnešní biologie.
JE TO TĚŽKÉ...
Bílkoviny jsou velmi složité molekuly, jež tvoří tisíce až miliony atomů. Žijeme a fungujeme v podstatě výhradně díky nim. Živé organismy (i neživé viry) jsou z nich stvořeny a využívají je ke všem činnostem, od stavby svých těl po řízení provozu.
Jednou z klíčových vlastností bílkovin je jejich tvar – ten je předpokladem správné funkce. Pouze bílkovina správného tvaru se dokáže připojit například na zamýšlené místo na povrchu buňky a předat nějaký „vzkaz“. Správně tvarovaná protilátka – také bílkovina – se dokáže navázat na virus, který napadá tělo. Tvar neříká a neurčuje vše, ale je klíčový.
Základní mechanismus určující tvar bílkovin je v principu jednoduchý: je určen chemickým složením. To lze dnes zjistit velmi snadno. Řešit tuto „hádanku“ v praxi je však obtížné. Jednotlivé atomy se začnou navzájem ovlivňovat (odpuzovat, přitahovat atp.) a bílkovina samovolně změní tvar. Poskládá se do polohy, ve které je jí „nejpohodlněji“, kdy je její vnitřní pnutí co nejmenší. Neexistuje přesná shoda na tom, jak moc různorodé bílkoviny jsou. Jisté je, že počet možností je ohromný.
Často se dnes cituje odhad, že u složitých bílkovin mohou být počty možných konfigurací mnohonásobně vyšší, než je počet všech atomů ve vesmíru. Těch je podle odhadů zhruba 1080, u bílkoviny může být počet možných variant minimálně o stovky řádů vyšší.
Hrubou výpočetní sílu tak nejde využít. Bylo ovšem zřejmé, že výpočty lze optimalizovat, tedy najít „zkratky“, aby bylo možné najít výsledek s menším výpočetním výkonem.
Aby se vývoj urychlil a zlepšil, vznikla v polovině 90. let v úvodu zmíněná soutěž CASP. Má několik disciplín, ale všechny se točí kolem určování struktury dopředu neznámých bílkovin. Výsledky účastníků se postupně během následujících dvou desetiletí krok po kroku zlepšovaly. Ovšem ke kýženému cíli bylo daleko.
INTUICE NASTUPUJE
Biologové ve spolupráci s bioinformatiky zkoušeli leccos. Například David Baker z Washingtonské univerzity v Seattlu spolu s kolegy vytvořil „past“ na dobrovolníky založenou na využití jednoho vysoce vyvinutého lidského smyslu: smyslu pro hru.
Vznikla tak počítačová hra Foldit, ve které můžete nejen skládat bílkoviny, ale také sbírat body, uzavírat spojenectví, postupovat na nové úrovně a spoustu dalších věcí. Na webu se postupně od května 2008 registrovaly řádově stovky tisíc hráčů, desítky tisíc ji hrály pravidelně. Vědci doložili přínosy této hry ve studii zveřejněné v roce 2010 v časopise Nature. Z ní vyplývá, že nejlepší hráči byli ve skládání bílkovin skutečně lepší než tehdejší software.
Zkušení hráči také na popud vědců bílkoviny sami navrhovali. Jako první Baker v laboratoři syntetizoval novou látku, kterou navrhl Scott Zaccanelli z Texasu, pracující na půl úvazku jako nákupčí a masér. V experimentu se ukázalo, že bílkovina nemá lepší vlastnosti než podobné příbuzné přirozeně existující sloučeniny.
O hře Foldit se hodně mluvilo a psalo a dozvěděl se o ní i Demis Hassabis, spoluzakladatel společnosti DeepMind. Zaujalo ho, že lidé dokážou vidět možné řešení intuitivně – díky mozku, který je zvyklý manipulovat s předměty v prostoru.
Výsledky účastníků všech ročníků CASP v jednotlivých ročnících podle náročnosti úkolu. Na svislé ose je úspěšnost v procentech. Na vodorovné ose je rozdělení výsledků podle obtížnosti: vlevo jsou úkoly nejjednodušší, vpravo nejnáročnější. Pro naše účely jsou zajímavé především dvě horní křivky. Černá je průměr výsledku všech účastníků 14. ročníku (tj. CASP14) včetně AlphaFold. Zeleně je výsledek všech účastníků bez AlphaFold. Je zřejmé, jak ohromný skok proti zbytku startovního pole software společnosti DeepMind udělal.
LIDÉ
Výraz intuice poměrně přesně vystihuje to, jak fungují neuronové sítě, tedy typ softwaru, na který se DeepMind specializuje. Neuronové sítě jsou „učenlivé programy“, sestavené tak, aby si v jednom konkrétním oboru dokázaly poradit s novými otázkami. Vycházejí ze svých vlastních zkušeností, které obvykle nabraly analýzou ohromného množství dat.
Konkrétně AlphaFold se na podobě známých bílkovin učil pravidla o tom, jak takové bílkoviny obvykle vypadají. Protože mu jich „před očima“ prošlo tolik, dokáže se – podobně jako lidští hráči ve Foldit – orientovat v tom, co by mohlo fungovat a co ne.
DeepMind není jediný, kdo tento přístup používá. V posledních dvou letech ho využívá celá řada týmů. Zřejmě díky tomu se po letech jisté stagnace či pomalého růstu začaly zlepšovat výsledky účastníků soutěže CASP (viz například dlouhé zamyšlení autora jednoho přihlášeného programu Mohammeda AlQuraishiho nad soutěží v roce 2018).
AlphaFold se během posledních dvou let zlepšil mnohem rychleji než konkurence a v letošním ročníku soutěže CASP (tj. CASP14) výrazně odskočil ostatním. (Na druhém místě byl systém trRosetta již zmíněného Davida Bakera s kolegy.)
Výsledky se v CASP hodnotí od 0 do 100 podle toho, jak moc se předpověď trefí do podoby bílkoviny, ze které jsou systémy zkoušeny. Nula je žádná shoda, 100 je shoda dokonalá. AlphaFold měl průměrné skóre 92,4. To je podle biologů zhruba na hranici výsledků, které dnes poskytuje měření stejných bílkovin „pod mikroskopem“. Ve skutečnosti se používá buď rentgenové záření při tzv. krystalografii, s jejíž pomocí byla objevena například struktura DNA, nebo velmi nová metoda kryoelektronové mikroskopie, za kterou byla v roce 2017 udělena Nobelova cena.
Pro srovnání, v roce 2016 dosáhly nejlepší týmy skóre kolem 40. V roce 2018, kdy se AlphaFold účastnil soutěže poprvé, se jeho průměrné skóre pohybovalo kolem 70. Ale lepší výsledky než v roce 2016 měl i zbytek startujících. V porovnání s experimentálními metodami je AlphaFold mnohonásobně rychlejší. Místo měsíců či v nejlepším případě týdnů by určení tvaru bílkoviny mohlo trvat jen pár hodin, možná i minut.
Dobré výsledky neměl software vždy a ve všem. U některých bílkovin si nevedl lépe než ostatní, někde byl dokonce horší než nejbližší konkurence, ale to by měl být odstranitelný problém. Software bude zřejmě nutné trénovat na dalších příkladech, aby se naučil poznávat i dosud problematické molekuly. AlphaFold 2 je sice výrazně lepší než konkurence, ale v první řadě je nový, proto je velmi pravděpodobné, že v principu se jeho výkony mohou ještě výrazně zlepšit.
K ČEMU TO JE?
I přes své chyby je AlphaFold tak přesný, že by mohl najít praktické využití, shodují se odborníci. Z jejich hlediska je také důležité to, že software uživateli říká, jak svůj výsledek hodnotí.
Je to důležité, protože „intuitivní algoritmy“ (tj. deep-learning neuronové sítě) jsou de facto černé skříňky. Nikdo přesně neví, jak ke svému výsledku dospějí. Pokud však chcete jejich výsledek použít jako základ pro další práci, je dobré mít alespoň nějakou představu o tom, jaká by mohla být šance na úspěch.
Využití bude do jisté míry omezené. AlphaFold nelze použít na všechny bílkoviny, s těmi složitějšími si ještě neporadí. V živých organismech jsou extrémně důležité tzv. „bílkovinové komplexy“ složené z několika spojených menších bílkovin. Ale jejich tvar ani velice zajímavou otázku, jak se k sobě tyto bílkoviny připojují, AlphaFold zatím vyřešit nedokáže.
V nejbližší době se využití bude soustředit především přímo na biologii jako vědu, méně například na vývoj léčiv, odhadují odborníci. Vývojáři nových léků mají ve své práci celou řadu problémů, které AlphaFold neřeší, například úplně nesouvisející otázku, jak rychle, levně a účinně provádět klinické zkoušky, které jsou nejdražší položkou při vývoji nového léku.
Biologové řeší poněkud jiné problémy a jim by AlphaFold mohl odstranit z cesty významnou překážku a tím zkrátit a zefektivnit jejich práci. „Já očekávám, že v příštích letech vznikne spousta nových výsledků a článků, že přijde doslova exploze,“ řekl pro iDnes biolog Jan Černý z Přírodovědecké fakulty UK. Co bude výsledkem této očekávané vědecké exploze, dnes nelze úplně přesně předvídat.
BUDE ZADARMO?
Další zajímavou a nevyřešenou otázkou je, kdo a za jakých podmínek bude Alpha- Fold používat. Podle Guardianu ředitel DeepMind Hassabis pracuje na tom, aby systém byl přístupný výzkumníkům zdarma. Jak přesně to bude fungovat, zatím není jasné, nejpravděpodobnější je podoba nějaké webové aplikace. Firma nemá vůči vědecké obci žádné zákonné povinnosti, jistý etický dluh tu ovšem je. Software založený na hlubokém učení může fungovat dobře pouze v případě, že má dobrá vstupní data. Tedy pokud je ho na čem trénovat.
AlphaFold se „vyučil“ na 170 tisíc bílkovinách, jejichž podoba je uložena ve zdarma přístupné databázi PDB. Ta funguje jen díky práci vědců, kteří bílkoviny analyzovali, a mezinárodního konsorcia akademických institucí, kteří ji udržují v provozu.