Výzkumy v genetice, biomedicíně, archeologii nebo ekologii za sebou zanechávají obrovské množství dat, jejichž zpětné využití je však problematické. Tato cenná data není možné jen tak nechat ležet, protože například u medicíny bychom tím mohli přijít o informace důležité pro výzkum neléčitelných nemocí. Klíčové pro řešení tohoto problému je plánování správy dat. Je však náročné a vědci z něj mají obavu. Tým z Fakulty informačních technologií ČVUT v Praze (FIT ČVUT) vyvinul efektivní řešení v podobě nástroje Data Stewardship Wizard (DSW). Tento nástroj pomáhá plánovat, jak co nejlépe využít existující data, výsledná data správně popisovat, ukládat a dále zpřístupňovat pro vědecké účely univerzitám a dalším výzkumným organizacím v EU i po celém světě. Nástroj doporučuje i Evropská komise.
Výzkumy ročně chrlí petabajty (1015 bajtů) dat po celém světě. A právě ve vědeckých datech, která vznikají mnohdy i jako vedlejší produkt výzkumu, se skrývá obrovské bohatství. Správné zpracování, zabezpečení a řádná dokumentace těchto dat jsou klíčové pro jejich využívání, a tedy pro vědu jako takovou. Například v medicíně je velkým problémem skutečnost, že mnohdy samy instituce neví, jaká všechna data o problému již existují, kde je vlastně hledat a co přesně představují. Jedná se o jednu ze současných zásadních společenských výzev, která vzniká spolu s rozvojem informatiky a rostoucími investicemi do digitalizace.
Toho, aby byla data dostupnější a lépe využitelná pro vědce, se snaží docílit odborníci z FIT ČVUT, a to v rámci projektů zaměřených na cíle iniciativy FAIR. FAIR je zkratka iniciativy, která se snaží, aby data byla nalezitelná (Findable), přístupná (Accessible), interoperabilní (Interoperable) a znovupoužitelná (Reusable). Jedním z úspěchů týmu je právě nástroj pro plánování správy dat DSW.
„Nástroj DSW jsme vyvinuli na FIT ČVUT ve spolupráci s holandskými kolegy v rámci infrastruktury ELIXIR. Je přelomový v tom smyslu, že usnadňuje vědcům plánování správy dat, které je nyní vyžadováno všemi veřejnými poskytovateli financí. Žádný vědec by nezačal náročný experiment bez náležitého plánování správy dat, které je však často odbyto jen jako 'otravná povinnost'. Jedním z důvodů je náročnost vytvoření dobrého plánu. Tento nástroj přináší snadný a účinný způsob, jak vytvářet dobré plány správy dat, vede výzkumníka, pomáhá využít, co je pro výzkum k dispozici, a maximalizovat efekt dat z výzkumu, což přináší hodnotu výzkumníkům, institucím i celé společnosti," říká k projektu doc. Ing. Robert Pergl, Ph.D., vedoucí Centra pro konceptuální modelování a implementace (CCMi) na FIT ČVUT. DSW je nástroj, který je nyní nejvíce využíván v přírodních vědách, ale je připraven i na uplatnění v dalších vědních oblastech. Je využíván nejen pro samotné plánování, ale také pro vzdělávání v oblasti správy dat.
„Principy FAIR podstatným způsobem zlepšují možnosti znovupoužitelnosti dat, zejména s ohledem na propojování dat mezi sebou navzájem, například spojení dat klinických studií léků s výzkumem genetiky. Efektivní využívání dat na globální úrovni je též klíčové pro účinné řešení epidemiologických situací, což ukázala pandemie COVID-19. V rámci ní jsme se s projektem DSW podíleli na digitalizaci a FAIRifikaci pacientských dat, která je možné využít v dalším výzkumu, a to zcela anonymizovaně," doplňuje doc. Pergl k široké využitelnosti DSW pro současné společenské výzvy.
Jedním z cílů iniciativy FAIR je i lepší strojová zpracovatelnost dat, která je důležitá pro výzkum umělé inteligence (AI). Pokud bude mít AI k dispozici více dobře popsaných a interpretovatelných datových sad, bude jim lépe rozumět a efektivně je využije ke zlepšení svých výsledků. Právě exaktnost a auditovatelnost výstupů AI je klíčová pro posun od „kreativní AI" k „exaktní AI".
DSW vznikl v rámci mezinárodní infrastruktury pro data z přírodních věd zvané ELIXIR, a to ve spolupráci holandského uzlu (ELIXIR-NL) spolu s českým uzlem (ELIXIR-CZ), konkrétně s FIT ČVUT a Ústavem organické chemie a biochemie Akademie věd. Projekt je financován z evropských i národních zdrojů, zejména z projektů pro podporu velkých infrastruktur Ministerstva školství, mládeže a tělovýchovy ČR. V letošním roce začíná navazující LM projekt 2023-2026, v jehož rámci bude pokračovat i rozvoj a nasazování DSW. Ambicí je postupné propojování DSW s dalšími nástroji, aby pomáhal nejen při plánování, ale i při realizaci plánu a dále tak naplňoval vizi autorů přispívat k efektivní a účinné správě dat.