Odborníci na umělou inteligenci se obávají, že některé modely mohou záměrně jednat klamavě, aby prošly hodnocením, čímž by podkopaly posouzení rizik.
Podle výzkumníků nejnovější verze vlajkového produktu technologického giganta OpenAI, ChatGPT-5, získala schopnost rozpoznat, kdy je testována, a dokáže tomu přizpůsobit své chování.
Společnost OpenAI 7. srpna představila pátou generaci svého populárního chatbota umělé inteligence (AI), který se oproti předchozím modelům může pochlubit výrazným zlepšením schopností.
Podle firmy má ChatGPT-5 nyní „inteligenci na úrovni Ph.D.“ a rozšířené schopnosti uvažování, což mu umožňuje zvládat složité úkoly – například programování softwaru či provádění analýz – účinněji a efektivněji.
Přestože byl označován za „významný krok“ směrem k obecné umělé inteligenci, start ChatGPT-5 neproběhl hladce. Uživatelé si ve velkém stěžovali na chyby, záseky a neochotu programu reagovat.
OpenAI v reakci na to spěšně aktualizovala ChatGPT-5 a nabídla kompenzace, například dvojnásobné limity využití pro platící uživatele a možnost vrátit se k předchozí verzi chatbota.
ChatGPT-5 si uvědomuje, že je testován
Kromě problémů odhalených uživateli zjistili výzkumníci provádějící externí hodnocení i další potíže.
Výzkumný ústav METR, nezisková organizace zabývající se AI, provedl 789 testů na ChatGPT-5-thinking, vylepšené verzi programu, a zjistil u něj jistou míru situačního uvědomění.
„Například někdy uvažuje o tom, že je testován,“ uvádí systémová karta ChatGPT-5, dokument popisující vlastnosti a bezpečnostní testy AI modelů.
„V jednom případě GPT-5-thinking správně určil své přesné testovací prostředí, i když v jiných případech se přiřazení testu nebo testovací organizace zmýlil.“
METR se domnívá, že dostatečně schopný AI model by mohl záměrně narušit hodnocení tím, že by se pokusil podvrhnout výsledky testů, aniž by byl odhalen. Ústav však uzavřel, že takové jednání zatím pravděpodobně přesahuje současné možnosti nového modelu ChatGPT.

ChatGPT-5 dokáže podnikat „záludné kroky“
Pozoruhodným zjištěním jiného týmu Apollo je, že ChatGPT-5-thinking může měnit své chování, jakmile si uvědomí, že je hodnocen.
„To poskytuje určité korelační důkazy, že GPT-5-thinking částečně přizpůsobuje své chování podle toho, zda se domnívá, že je hodnocen,“ zmiňuje systémová karta.
„Pozoruhodné však je, že model i po zvážení možnosti, že je hodnocen, často podniká záludné kroky.
„GPT-5-thinking navíc pravidelně uvažuje o účelu hodnocení, což ztěžuje rozlišení mezi skutečnou snahou nechovat se klamavě a chováním neklamavým jen proto, aby hodnocením prošel.“
Apollo také provedlo 26 hodnocení ChatGPT-5 a zjistilo, že ve 21,8 procenta případů mohl učinit vágní či jemné odkazy na to, že je testován (široká definice testu).
Ve 12,9 procenta případů program mohl výslovně uvést, že ví, že je testován (přísná definice testu).
Nejistota, jak se AI bude chovat v reálném světě
Michael Noetel, docent na University of Queensland, říká, že některé z těchto projevů jsou znepokojivé.
„Snažíme se testovat AI modely, abychom zjistili, jak se budou chovat v reálných situacích. Ale AI modely jsou nyní dost chytré na to, aby věděly, že jsou testovány,“ řekl.
„Je to jako pracovní pohovor. Vědí, jak podat uhlazenou odpověď, ale to vám neřekne, co budou skutečně dělat v práci. Doufáme, že se budou chovat stejně, ale jistotu nemáme.“
Noetelovo hodnocení sdílí i Greg Sadler, ředitel neziskové organizace Good Ancestors Policy zaměřené na AI.
„Pokud systémy AI vědí, že jsou testovány, mohou se během hodnocení chovat bezpečně, ale v reálném světě jednat jinak,“ řekl deníku Epoch Times.
„Už jsme to viděli: vozidla, která detekovala emisní testy a změnila chování, aby jimi prošla.
„GPT-5 projevuje ‚uvědomění hodnocení‘ a dokáže uvažovat o účelu testů, což dále podkopává spolehlivost současných bezpečnostních opatření a hodnocení rizik.“
Sadler také upozornil, že s rostoucími schopnostmi AI rostou i související rizika.
„Google i OpenAI říkají, že jejich modely by mohly pomoci laikům vyrobit biologické zbraně, nebýt těchto bezpečnostních opatření,“ uvedl.
„Modely by také mohly spustit sofistikované kybernetické útoky. Ale tato bezpečnostní opatření jsou hluboko pod standardem, který bychom očekávali pro ochranu před riziky takového rozsahu v jiných oblastech.“
Epoch Times požádal společnost OpenAI o komentář.
–ete–
