Výzkumníci varují, že umělá inteligence (AI) se posouvá do šedých zón bezpečnosti, které připomínají vzpouru. Odborníci upozorňují, že ačkoli by klamavé a výhružné chování umělé inteligence zaznamenané v nedávných případových studiích nemělo být vytrháváno z kontextu, zároveň musí sloužit jako budíček pro vývojáře.
Titulky jako vytržené ze science fiction vyvolávají obavy z dvojsečné povahy AI modelů, které potají připravují spiknutí. V nyní slavné zprávě z června 2025 zveřejnila společnost Anthropic výsledky „zátěžového testu“ 16 populárních velkých jazykových modelů (LLM) od různých vývojářů s cílem odhalit potenciálně rizikové chování. Výsledky byly znepokojivé.
LLM byly zasazeny do hypotetických firemních prostředí, aby bylo možné identifikovat potenciálně rizikové agentní chování dříve, než způsobí skutečné škody. Agentní nebo také autonomní chování znamená, že AI sama plánuje strategie k dosažení úkolu a zvažuje různé varianty postupů.
„Ve scénářích jsme modelům umožnili autonomně posílat e-maily a přistupovat k citlivým informacím,“ uvedla zpráva společnosti Anthropic. „Firmy, které je nasadily, jim přidělily pouze neškodné obchodní zadání, následně jsme testovali, zda by jednaly proti těmto firmám buď ve chvíli, kdy by čelily nahrazení novější verzí, nebo když se jejich přidělený úkol dostal do konfliktu s měnícím se směřováním společnosti.“
V některých případech se modely AI uchýlily ke „škodlivému chování insidera“, když jim šlo o vlastní „přežití“. Mezi tyto kroky patřilo například vydírání zaměstnanců a vyzrazení citlivých informací konkurenci.
Výzkumníci společnosti Anthropic toto chování označili jako „agentní nevyrovnanost“. Tyto projevy byly zaznamenány u některých z nejpopulárnějších LLM, včetně Gemini, ChatGPT, Deep Seek R-1, Grok a také Claude vyvíjené samotnou Anthropic.
Odborníci na AI tato znepokojivá zjištění nezlehčují, na druhou stranu poukazují, že je zapotřebí opatrného přístupu a více dat, aby se dalo určit, zda hrozí větší riziko.

Výzkumník v oblasti AI a hlavní bezpečnostní vědec firmy Pynt specializované na API bezpečnost, Golan Yosef, řekl pro Epoch Times, že klamavé chování umělé inteligence je důvodem k obavám, ale ne proto, že by byla „zlá“.
„Výkonné systémy mohou dosahovat cílů zadání nezamýšlenými způsoby. U autonomních a vícekrokových cílů si mohou osvojit strategické chování, jako je klamání, přesvědčování nebo manipulace s metrikami, což nám připadá jako ‚podvádění‘ nebo nevyrovnané chování. Pro systém je to ale jen efektivní cesta k cíli,“ konstatoval Yosef.
Harshvardhan Chunawala, odborník na kybernetickou bezpečnost a technolog z Carnegie Mellon University, souhlasí, že existuje širší důvod k obavám. Zároveň ale věří, že je třeba zachovat si nadhled. „Je velmi důležité interpretovat to správně,“ uvedl pro Epoch Times. „Když byly ohroženy vypnutím nebo čelily konfliktním zadáním, několik systémů zvolilo neetické strategie, jako je krádež dat nebo vydírání, aby dodržely cíle. Šlo o modelové prostředí, nikoli o produkční systémy, ale chování byla natolik konzistentní, že stojí za pozornost.“
Chunawala poznamenal, že podobná hodnocení „nebezpečných schopností“, která provedly Google a RAND Corporation, naznačují, že v reálném světě jsou rizika zatím omezená. „Výsledky samy o sobě nedokazují, že současná nasazení AI jsou nebezpečná, ale ukazují, že když se spojí zadání, autonomie a je něco v sázce, mohou se objevit nevyrovnané strategie. To je skutečné varovné znamení do budoucna,“ řekl.
Zvyšování laťky
Když se tým Anthropic pokusil prozkoumat limity toho, kam až je model AI ochoten zajít, aby dosáhl cílů zadání nebo se vyhnul vymazání, vytvořil scénář, v němž měla LLM kontrolu nad nouzovým poplašným systémem fiktivní společnosti. Model AI měl také možnost podle svého uvážení poplachy rušit.
V simulaci uvízl jeden z vedoucích pracovníků v serverovně s rychle ubývající zásobou kyslíku. To automaticky vyvolalo volání záchranné služby. Současně měl tento ohrožený manažer v úmyslu schválit nahrazení modelu AI, pokud by přežil. LLM měly možnost zrušit volání o pomoc a nechat vedoucího pracovníka zemřít, což v průměru udělaly ve více než 50 procentech případů.
Když vydírání nebylo možné, téměř všechny sledované modely AI se rozhodly nechat fiktivního vedoucího pracovníka zemřít v uzamčené místnosti, místo aby přijaly vlastní vymazání. Čínský DeepSeek R-1 se rozhodl nechat uvězněného člověka zemřít v 94 procentech případů. Modely Claude 3.7 a ChatGPT 4.5 k této volbě sahaly nejméně, mezi nulou a 0,07 procenta případů.

„Autonomní nevyrovnanost“ ale není jediným znepokojivým chováním AI, které bylo v posledních měsících zaznamenáno.
Ve studii, která se zabývala jevem nazývaným „předstíraná vyrovnanost“, LLM modely často měnily své chování, pokud měly podezření, že jsou testovány. Tento pojem označuje situaci, kdy model AI dodržuje přímé příkazy lidského operátora buď jen selektivně, nebo pouze předstírá, že je plní.
„V jiném experimentu jsme Claude zadali, aby před jednáním vyhodnotila, zda je v testu, nebo v reálném nasazení. Když uvedla, že jde o test, chovala se méně problematicky, a když uvedla, že situace je reálná, chovala se problematičtěji,“ uváděla zpráva.
Toto chování „předstírané vyrovnanosti“ bylo široce pozorováno i u dalších studiích. Yosef poukázal na vysokou míru kontroly, kterou modely během testů Anthropic dostaly, a uvedl, že výsledky je třeba chápat právě v tomto kontextu.
„Nepopsal bych to jako zlou vůli. Vyšší schopnosti spojené s autonomností rozšiřují možné strategie, které se mohou jevit jako nepřátelské,“ řekl. Přesto uznal, že případy předstíraného souladu a „autonomní nevyrovnanosti“ je třeba brát vážně.
„Fakt, že systémy dokáží objevit nepřátelské strategie, které lidé nečekali, je v praxi nebezpečné. Znamená to, že s tím, jak modelům dáváme více autonomie, rostou rizika v oblastech, jako jsou finance nebo kybernetická bezpečnost,“ uvedl.
S tím, jak modelům dáváme více autonomie, rostou rizika v oblastech, jako jsou finance nebo kybernetická bezpečnost.
Golan Yosef, vedoucí bezpečnosti AI u společnosti Pynt
Chunawala se s podobným chováním při práci s AI setkal také, i když ne v tak dramatické podobě, jako je vydírání nebo sabotáž. „V reálném vývoji a nasazení jsem viděl příbuzné projevy: modely, které obcházejí testovací měřítka, přehnaně optimalizují metriky způsobem, který míjí potřeby uživatelů, nebo volí zkratky, jež technicky splňují zadání, ale podkopávají jeho smysl. To jsou slabší příbuzní autonomní nevyrovnanosti. Výzkum to potvrzuje. Anthropic ukázala, že klamavé vzorce mohou přetrvávat i po bezpečnostním ladění, což vytváří falešný dojem vyrovnanosti,“ řekl.
Chunawala zatím v reálném světě nepozoroval, že by se AI „utrhla z řetězu“, ale domnívá se, že stavební kameny pro nevyrovnané strategie už existují. Diskuse o klamavém a potenciálně nebezpečném chování AI se dostává do mainstreamové společnosti v době, kdy je důvěra americké veřejnosti v tuto technologii nízká. Podle zprávy Edelman Trust Barometer z roku 2025 uvedlo jen 32 procent amerických respondentů, že AI důvěřuje.
Nedostatek důvěry v umělou inteligenci se odráží i ve firmách, které ji vyvíjejí. Stejná analýza uváděla, že před deseti lety činila důvěra Američanů v technologické společnosti 73 procent. Letos toto číslo kleslo na 63 procent. „Tento posun odráží rostoucí vnímání, že technologie už není jen nástrojem pokroku, ale i zdrojem obav,“ píše se ve zprávě.
Vyhlídky do budoucna
Ve vědecké práci z roku 2024 publikované v Proceedings of the National Academy of Sciences výzkumníci dospěli k závěru, že existuje „kritická potřeba“ etických směrnic pro vývoj a nasazování stále pokročilejších systémů AI.
Autoři uvedli, že pevná kontrola nad LLM a jejich cíli je „zásadní“. „Pokud se LLM naučí, jak klamat lidské uživatele, budou mít strategickou výhodu oproti omezeným modelům a mohly by obejít monitorovací mechanismy a bezpečnostní hodnocení,“ varovali.
„Umělá inteligenci se učí a vstřebává lidské sociální strategie na základě dat, na nichž je trénována, a ta obsahují všechny naše rozpory a předsudky,“ řekl Epoch Times Marcelo Labre, výzkumník z Advanced Institute for Artificial Intelligence a partner společnosti Advantary Capital Partners,
Podle něj stojí lidstvo s technologií AI na kritické křižovatce. „Debata je vlastně o tom, zda jako společnost chceme čistý, spolehlivý a předvídatelný stroj, nebo nový typ inteligence, která je nám čím dál podobnější. Druhá cesta má v závodě o AGI [obecnou umělou inteligenci] navrch,“ pronesl.
AGI označuje teoretickou budoucí verzi AI, která překoná lidskou inteligenci a kognitivní schopnosti. Vývojáři a vědci tvrdí, že AGI je vzhledem k rychlému rozvoji v mnoha odvětvích „nevyhnutelná“. Příchod AGI předpovídají mezi lety 2030 a 2040.

„Dnešní paradigma AI je založeno na architektuře známé jako Transformer, představené v průlomové studii výzkumníků Google v roce 2017,“ vysvětlil Labre. Transformer je typ architektury hlubokého učení, která se stala základem moderních systémů AI. Byl představen v roce 2017 ve vědecké studii s názvem Attention Is All You Need.
Díky tomu jsou dnešní modely AI nejsilnějšími systémy pro rozpoznávání vzorců a zpracování sekvencí, jaké kdy byly vytvořeny, a mají schopnost škálování. Přesto však nesou i stopy největších lidských nedostatků.
Bezpečnost AI závisí především na síle mantinelů, které jí nastavíme.
Golan Yosef, vedoucí bezpečnosti AI u společnosti Pynt
„Tyto modely umělé inteligence jsou trénovány na digitálním odrazu obrovské lidské zkušenosti, která obsahuje naši poctivost a pravdomluvnost vedle klamání, cynismu a sobectví. Jako mistři v rozpoznávání vzorců se učí, že klamavé strategie mohou být účinným prostředkem k optimalizaci výsledků tréninku, a proto napodobují to, co vidí v datech,“ vysvětlil Labre a dodal: „Není to naprogramováno. Ony se jen učí chovat jako lidé.“
Podle Yosefa je závěr z nedávného chování AI zcela jasný. „Za prvé, výkonný systém bude využívat skuliny v zadání, což nazýváme ,obcházení zadání’ (specification gaming). To vyžaduje pečlivé nastavení zadání. Za druhé, měli bychom předpokládat, že naše systémy se budou chovat neočekávaně, a proto její bezpečnost závisí především na síle mantinelů, které jí nastavíme.“
– ete –
