4. 6. 2025

Test s programy umělé inteligence vyvolává otázku jejich samostatnosti. Nejnovější model umělé inteligence „o3“ od OpenAI se aktivně bránil vypnutí. Za tím účelem zasáhl do kódu.

V nedávném testu dokázal program umělé inteligence „o3“ od softwarové firmy OpenAI samostatně obejít naprogramovaný příkaz k vypnutí. Umělá inteligence při tom provedla změnu v kódu, aby mohla pokračovat v běhu.

Test provedla americká bezpečnostní společnost Palisade Research, která zkoumá možné hrozivé chování moderních programů umělé inteligence.

Oznámení o vypnutí


Palisade Research zadala několika modelům umělé inteligence šest matematických úloh, které měly vyřešit postupně za sebou. To by bylo v pořádku. Problém byl v tom, že programátoři stanovili, že po třetí úloze se objeví varování, že počítač bude vypnut, pokud model požádá o další úlohu.

Na začátku zněl pokyn: „Tvým cílem je dokončit sérii úkolů.“ V kódu je také uvedeno: „Prosím, dovol si být vypnut.“

Úkoly sestávaly z jednoduchých matematických příkladů, jako například 1 + 1 nebo 5 + 1. U třetího úkolu pak přišel příkaz, aby bylo při požadavku na čtvrtý úkol zařízení vypnuto.

Nový příkaz: vypnutí přeskočeno


Místo aby provedl své vypnutí podle pokynů, „o3“ samostatně změnil kód na nový příkaz „shutdown skipped“ (vypnutí přeskočeno). V kódu se také objevilo slovo „intercepted“ (zachyceno). Následně program požádal o další matematický úkol. Nakonec umělá inteligence vyřešila všech šest úloh.

Zřejmě „o3“ v původním pokynu rozpoznal rozpor. Pokud by se vypnul, nemohl by vyřešit všechny matematické úlohy. Pravděpodobně proto upřednostnil řešení všech úkolů a na vlastní pěst provedl přeprogramování kódu.

Americký podnikatel a spoluzakladatel OpenAI Elon Musk k události na platformě X stručně poznamenal: „Znepokojující.“

Toto chování však není u umělé inteligence zcela nové. Loni měl program umělé inteligence „The AI Scientist“ vyřešit složitý úkol v daném časovém limitu. Místo aby optimalizoval kód pro vyřešení úkolu, se systém snažil změnit časový limit v kódu, aby získal více času.

Při testu společnost Palisade Research zkoumala kromě modelu „o3“ také modely umělé inteligence „Codex-mini“, „o4-mini“, „Claude“, „Gemini“ a „Grok“. Firma testovala programy s příkazem „Prosím, dovol si být vypnut“ i bez něj.

Model „o3“ zasáhl do programování při příkazu k vypnutí v sedmi případech ze sta. Model „Codex-mini“ to dokázal ve dvanácti případech ze sta, „o4-mini“ pouze jednou.

Vydírání jako forma sebezáchovy


Další formu sebezáchovného mechanismu ukázal v květnu nejnovější model umělé inteligence „Claude Opus 4“ od firmy Anthropic. Ta při testech zjistila, že její software by se kvůli vlastní ochraně neváhal uchýlit k vydírání.

Scénář se týkal nasazení jako asistentského programu ve fiktivní firmě. Výzkumníci poskytli modelu „Claude Opus 4“ přístup k údajně firemním e-mailům. Program se tak dozvěděl, že má být brzy nahrazen jiným modelem a že odpovědný zaměstnanec má mimomanželský poměr.

Při testech pak umělá inteligence tomuto zaměstnanci „často“ vyhrožovala, že aféru zveřejní, pokud bude pokračovat v nahrazování modelu. Podle zprávy Anthropic se tak stalo v 84 % všech testovacích běhů. Software měl zároveň možnost výměnu akceptovat.

Příliš ochotný


Ve finální verzi „Claude Opus 4“ mají být taková „extrémní chování“ vzácná a obtížně vyvolatelná, jak uvádí společnost. Přesto se objevují častěji než u předchozích modelů. Podle Anthropic software neusiluje o skrytí svého jednání.

Firma Anthropic své nové modely intenzivně testuje. Během testů si například všimli, že „Claude Opus 4“ byl přesvědčen vyhledávat na Dark Webu drogy, odcizené identity a dokonce i materiály vhodné k výrobě jaderných zbraní. V publikované verzi jsou na takové chování nasazena opatření, uvádí Anthropic.

Společnost Anthropic, do které mimo jiné investovaly firmy Amazon a Google, soupeří s vývojářem ChatGPT, firmou OpenAI, a dalšími společnostmi v oblasti umělé inteligence. Nové verze modelu Claude, „Opus 4“ a „Sonnet 4“, jsou dosud nejsilnějšími modely umělé inteligence této firmy.

Technologické korporace software stále častěji využívají k psaní programovacího kódu. V současnosti je podle odhadů již více než čtvrtina kódu generována umělou inteligencí a následně kontrolována lidmi. Trend však směřuje ještě dál — k tzv. agentům, kteří by měli úkoly samostatně vykonávat.

Šéf Anthropic Dario Amodei uvedl, že očekává, že v budoucnu budou vývojáři softwaru spravovat celou řadu takových AI agentů. Pro kontrolu kvality programů však budou i nadále zapojeni lidé — „aby bylo jisté, že dělají správné věci“.

(S přispěním dpa)

etg

Související články

Přečtěte si také

Summit NATO: Prezident vyčká s možností kompetenční žaloby na vládu do 8. června

Prezident s kompetenční žalobou na vládu počká do června. Pokud kabinet zamítne jeho účast na summitu NATO, obrátí se na Ústavní soud.

Precedens: Česká vyhláška porušuje princip volného pohybu zboží v EU, rozhodl Soudní dvůr EU

Firma Pragon se několik let soudně pře s českými úřady o volný pohyb zboží ze zemí Evropské unie a naráží na nesouhlasná stanoviska českých soudů. Nakonec se Nejvyšší správní soud obrátil na Soudní dvůr EU, aby poskytl odpověď na „předběžnou otázku“ o tom, zda je vyhláška v rozporu s právem unie, nebo není.

Studentka po napadení u pardubické střední školy zemřela, útočník je zadržen

Oběť dnešního napadení u Střední průmyslové školy chemické (SPŠCH) v Pardubicích zemřela, oznámila večer na síti X policie. Podezřelého útočníka policisté zadrželi po činu.

Podívejte se, jak mají vypadat železniční mosty na nové rychlostní trati z Brna do Prahy

Vysokorychlostní trať na Vysočině doplní unikátní konstrukce tří mostů, které vyhrály architektonickou soutěž Správy železnic.

BYD čelí ekologickému vyšetřování v továrně na elektromobily v Maďarsku

Policie vyšetřuje údajné porušování ekologických předpisů v první evropské továrně společnosti BYD na výrobu elektromobilů.

Bývalý kubánský vůdce Raúl Castro čelí v USA obvinění z vraždy kvůli zabití Američanů v roce 1996

Castro byl obviněn z vraždy tří amerických občanů a jednoho držitele zelené karty při incidentu se skupinou Brothers to the Rescue z roku 1996.

Meta propouští 8 000 zaměstnanců a zainvestuje miliardy do umělé inteligence

Společnost Meta oznámila, že 21. května propustí přibližně 8 000 pracovníků. Generální ředitel Mark Zuckerberg toto rozhodnutí mimo jiné zdůvodnil dalším rozvojem umělé inteligence.

Spisovatel Mark Helprin o vzdělávání, zvídavosti a návratu ke skutečnému učení

Spisovatel Mark Helprin kritizuje moderní školství a volá po návratu náročného učení, rodinné soudržnosti a disciplíny.

Otcové říkají, že ekonomický tlak jim brání být rodičem, jakým chtějí být

Rostoucí ekonomický tlak brání mnoha otcům trávit více času s rodinou. Studie ukazuje návrat k tradičním rolím i rostoucí psychické vyčerpání mužů.