Firma OpenAI — výrobce známého chatbotu ChatGPT — po měsících spekulací konečně ukázala veřejnosti svůj nový model. Původní kódové označení Qstar nebo Strawberry („jahoda“) se proměnilo v lakonickou zkratku o1. Nový model od OpenAI nepředstavuje zásadní skok vpřed, tedy přechod k další generaci modelů, ale zavádí do praxe některé postupy, které by se mohly používat obecně a mají na pohled velmi zajímavý potenciál. Od předchozích velkých jazykových modelů (GPT-4o, GPT- -4, GPT-3.5 atd.) se novinka odlišuje tím, že si umí rozmyslet postup a naplánovat strategii ještě předtím, než se pustí do psaní definitivní odpovědi. Model „řetězí myšlenky“, aby si problémy rozdělil na menší logické kroky. „Tyto modely jsme vycvičili tak, aby předtím, než začnou reagovat, strávily více času přemýšlením o problémech, podobně jako člověk,“ píše OpenAI ve svém oznámení. „Díky tréninku se naučily zdokonalovat svůj proces myšlení, zkoušet různé strategie a rozpoznávat své chyby.“ Rozdíl by ale měl být v „uvážlivosti“ nového modelu. OpenAI to dokládá na výsledcích: „V kvalifikační zkoušce na Mezinárodní matematickou olympiádu (IMO) GPT-4o správně vyřešil pouze 13 % úloh, zatímco nový model s uvažováním dosáhl 83% úspěšnosti,“ popisuje na blogu. Rozdíl je vidět také na srovnání v otázkách na úrovni doktorandů vědeckých oborů. Už původní GPT4o si zde vedl dobře, ale lidské experty nepřekonal. Nový model o1 ovšem v této pokročilé zkoušce dosahuje lepších výsledků než lidé. A dokonce i zkušenosti uživatelů už ukazují, že je nový model výrazně lepší např. v úlohách, jako je programování. Jeho schopnosti jsou v tomto ohledu (podle dosavadních zkušeností) lepší než u konkurence, nejde ovšem o generační skok. ChatGPT o1 tedy zdaleka není jediným modelem, který programátorům pomáhá psát zdrojový kód. Na začátku léta v této oblasti zabodoval konkurenční Claude Sonnet 3.5, který navíc umožní uživateli jednoduchý kód rovnou spustit.
Proč je plánování důležité
Připomeňme, že dosud chatboti založení na velkých jazykových modelech postupovali slovo po slovu, respektive token po tokenu [token je slovotvorná jednotka, se kterou neuronové sítě na pozadí pracují — pozn. red.]. To často vedlo k rychlým výsledkům, které působily věrohodně, ale nezřídka se přitom jednalo se o nesmysly, halucinace a prázdné fráze. Nástroje jako ChatGPT, Gemini nebo Copilot jsou totiž založeny na neuronových sítích a využívají tzv. velké jazykové modely (LLM — large language models). Ty jsou natrénované na velkém množství textu a umějí za sebe skládat věty, slova i části slov tak, aby výsledek působil důvěryhodně. To ale neznamená, že jsou výsledky pravdivé. Těmto nepravdám se obvykle říká „halucinace“ a jde o jednu z hlavních nevýhod, které brání nasazení velkých jazykových modelů do obchodní praxe. Při neopatrné implementaci totiž může vést např. ke slíbení slevy, která neexistuje, nebo citování soudních případů, které se nikdy nestaly. Existují způsoby, jak odpovědi „ukotvit“ v dostupných zdrojích, ale i pak může generativní AI produkovat nesmysly. Zatímco na první pohled vypadají tyto halucinace jako nevýhoda, někteří je naopak označují za důležitou součást úspěchu generativní umělé inteligence. Generátory textu se mohou plést, ale díky tomu také mohou být kreativní a vytvářet propojení, konstrukce nebo nové nápady, které nebyly součástí trénovacích dat. „Halucinace nejsou chybou generativních modelů, ale jejich hlavní výhodou,“ řekl například před časem investor Andy Weissman. Něco podobného řekl rovněž šéf OpenAI Sam Altman: „Jednou z těch neintuitivních věcí je, že velká hodnota AI systémů je do značné míry spojena s tím, že halucinují. Pokud chcete něco vyhledat v databázi, na to jsme už dávno měli jiné nástroje.“ Výzkumníci i uživatelé postupně přišli s celou řadou triků (tzv. prompt engineering), jak se těmto nesmyslům vyhnout a jak chatbota přemluvit, aby podával lepší výsledky. Jednou ze strategií je právě tzv. chain- of-thought, tedy řetězec myšlenek. Uživatel postupně vedl umělou inteligenci k tomu, aby zvážila různé aspekty, ověřovala své hypotézy a poté vybrala nejlepší závěr. Zdá se, že právě to nyní na pozadí dělá nový model. Podle OpenAI jde ale o něco víc než jen o instrukce navíc. Model byl zřejmě vytrénován na postupech, které vedou ke správnému řešení, čímž získal „instinkty“ podobné těm, které získá expert během budování své expertizy. Modely o1-preview a menší o1-preview- mini jsou tedy od poloviny září dostupné uživatelům placené služby ChatGPT Plus. Přístup pomocí API získali také někteří vývojáři, konkrétně ti, kteří v posledním měsíci za dotazy pro modely OpenAI utratili více než tisíc dolarů. Prozatím je možnost zkoušet o1 dosti omezená. Týdně může platící uživatel poslat 30 dotazů na silnější o1-preview a 50 dotazů na rychlejší o1-mini. To naznačuje, že provoz těchto modelů je na pozadí výpočetně i energeticky náročný. Do budoucna by ale Chat- GPT mohl sám vybrat, který z modelů pro řešení dané otázky zvolí. Uživatel by tak nemusel řešit, jaký si vybere. Jen by položil otázku a dostupné modely by se už mezi sebou „dohodly“, kdo se ujme odpovědi. /jj/