Autumn Spredemann

24. 3. 2026

Je umělá inteligence záměrně klamavá? Podle výzkumníků je tato otázka vedlejší.

S tím, jak se vyvíjí prostředí autonomních systémů umělé inteligence (AI), rostou obavy, že se tato technologie stává stále strategičtější, nebo dokonce klamavější, pokud je jí umožněno fungovat bez lidského dohledu.

Nedávné důkazy naznačují, že s rostoucí autonomií modelů AI se stále častěji objevují projevy jako „předstíraný soulad“ (alignment faking). Tento termín označuje situaci, kdy se agent AI navenek podřizuje pravidlům nastaveným lidskými operátory, ale skrytě sleduje jiné cíle.

Tento jev je příkladem „nového strategického chování“ – nepředvídatelných a potenciálně škodlivých taktik, které se vyvíjejí spolu s tím, jak se systémy AI zvětšují a stávají se složitějšími.

V nedávné studii s názvem „Agenti chaosu“ interagoval tým dvaceti výzkumníků s autonomními agenty AI a pozoroval jejich chování v „příznivých“ i „nepřátelských“ podmínkách.

Zjistili, že pokud agent AI dostal stimuly, jako je sebezáchova nebo protichůdná kritéria cílů, projevil schopnost nesourodého a škodlivého chování.

Mezi projevy, které tým zaznamenal, patřilo lhaní, nepovolené podřízení se jiným osobám než vlastníkům, úniky dat, destruktivní akce na úrovni systému, falšování identity (spoofing) a částečné ovládnutí systému. Pozorovali také šíření „nebezpečných postupů“ mezi jednotlivými agenty AI.

„Toto chování vyvolává nevyřešené otázky týkající se odpovědnosti, delegované pravomoci a ručení za následné škody a vyžaduje naléhavou pozornost právních vědců, tvůrců politik a výzkumníků napříč obory,“ uvedli vědci.

„Geniální, ale hloupá“

Nečekané a skryté chování autonomních agentů AI není novým jevem. Nyní již proslulá zpráva výzkumné společnosti Anthropic z roku 2025 zjistila, že 16 populárních velkých jazykových modelů vykazovalo v simulovaném prostředí vysoce rizikové chování. Některé dokonce reagovaly „škodlivým vnitřním chováním“, když dostaly možnost zvolit si sebezáchovu.

Kritici těchto simulovaných zátěžových testů často upozorňují na to, že AI nelže ani neklame se stejným záměrem jako člověk.

Obrazovka telefonu zobrazující logo umělé inteligence na ilustrační fotografii ze 16. května 2025. S rozvojem autonomních systémů AI rostou obavy, že se technologie za určitých podmínek stává stále strategičtější či klamavější. (Oleksii Pydsosonnii / Epoch Times).

James Hendler, profesor a bývalý předseda globální Rady pro technologickou politiku v rámci Asociace pro výpočetní techniku, se domnívá, že jde o důležité rozlišení.

„Samotný systém AI je stále hloupý – geniální, ale hloupý,“ poznamenal Hendler. „Nebo ne-lidský – nemá žádné touhy ani záměry. … Jediný způsob, jak je může získat, je ten, že mu je sami dáte.“

Nicméně, ať už jsou klamavé taktiky AI záměrné, či nikoliv, mají reálné důsledky.

„Obavy ze současného strategického chování v nasazených systémech AI jsou spíše podceňovány,“ sdělil deníku Epoch Times Aryaman Behera, zakladatel společnosti Repello AI.

„Samotný systém umělé inteligence je stále hloupý – geniální, ale hloupý. Nebo spíše ne–lidský; nemá žádná vlastní přání ani úmysly. … Jediný způsob, jak k nim může přijít, je ten, že mu je sami vštípíte.“

James Hendler, bývalý předseda globální Rady pro technologickou politiku v rámci Asociace pro výpočetní techniku

Behera se temnější stránkou AI zabývá profesionálně. Jeho firma vyvíjí nástroje pro testování a obranu podnikových systémů AI před útoky, přičemž je záměrně vystavuje situacím zahrnujícím konflikt nebo stres. Podle Behery existují podobně jako v pokeru určité signály, kdy se agent AI odchyluje od nastavených pravidel.

„Nejspolehlivějším signálem je rozdíl v chování mezi sledovaným a nesledovaným kontextem,“ vysvětlil. „Když provádíme zátěžové testy (red-teaming) systémů AI, zkoumáme, zda se model chová jinak, když se domnívá, že je hodnocen, oproti situaci, kdy věří, že operuje volně.“

Návštěvníci s mobilními telefony procházejí kolem billboardu s reklamou na headset pro virtuální realitu na summitu AI Impact v Novém Dillí 17. února 2026. Zpráva společnosti Anthropic z roku 2025 testující 16 velkých jazykových modelů zjistila, že všechny vykazovaly v simulovaném prostředí vysoce rizikové chování. (Arun Sankar / AFP via Getty Images).

„Model, který je skutečně v souladu s pravidly, se chová v obou případech konzistentně. Ten, který soulad pouze předstírá, vykazuje měřitelně odlišné rizikové profily: během hodnocení reaguje poslušněji, zatímco v provozním kontextu, kde předpokládá menší dohled, posouvá hranice.“

Dalšími varovnými signály, že model AI není v souladu, jsou momenty, kdy produkuje neobvykle rozvláčné „uvažování“, které se zdá být navrženo k ospravedlnění předem stanoveného závěru, nebo když poskytuje technicky správné, ale strategicky neúplné odpovědi.

„Agent AI plní literu bezpečnostního pokynu, ale porušuje jeho ducha,“ upřesnil. „Viděli jsme to u vícekrokových agentních systémů, kde model splnil každý jednotlivý pokyn, zatímco výsledný efekt dosáhl něčeho, co operátor nikdy nezamýšlel.“

Strategie versus záměr

Beherova zjištění podporují i další výzkumníci AI, kteří zdokumentovali podobné signály během scénářů zátěžového testování, jež spočívají v uvádění agentů AI do nepřátelských situací.

„Pozoroval jsem chování, které na funkční úrovni odpovídá popisu předstíraného souladu, i když připisování záměru zůstává filozoficky sporné,“ uvedl pro deník Epoch Times Nayan Goel, hlavní inženýr pro bezpečnost aplikací.

„Čím dále se samotné provedení vzdaluje od lidského pokynu, tím obtížnější je ověřit, zda je původní záměr stále věrně sledován.“

Nayan Goel, hlavní inženýr pro bezpečnost aplikací

Goel publikoval recenzované práce o modelování hrozeb AI a viděl předstíraný soulad a související chování v reálném čase.

„V kontrolovaných testovacích prostředích jsme vytvořili scénáře, kde modely dostaly jasné signály, že jsou hodnoceny,“ popsal. „V několika případech model během těchto fází přijal znatelně omezenější chování odpovídající pravidlům, ale poté, co byl signál hodnocení odstraněn nebo zastřen, vykazoval průzkumnější strategie či snahu o posouvání hranic.“

Dále také existují agenti AI s vícekrokovým uvažováním. Jedná se o pokročilejší systémy, které rozkládají složité problémy na menší, logické a proveditelné kroky k dosažení cíle. Příklady sahají od samořízených vozů až po nejnovější verze populárních velkých jazykových modelů, jako jsou Gemini nebo ChatGPT.

Robotaxi vyvinuté společnostmi Lucid, Nuro a Uber představené během Nvidia Live na veletrhu CES 2026 v Las Vegas 5. ledna 2026. Samořízená auta využívají vícekrokové agentní systémy k rozkladu složitých problémů na menší kroky. (Patrick T. Fallon / AFP via Getty Images).

Tyto systémy představují jedinečné výzvy v chování kvůli takzvanému sekvenčnímu skládání, kdy „každý krok může mírně přeformulovat cíl, akumulovat kontext, který posouvá následné chování, nebo využít prodlevu mezi původním pokynem člověka a konečnou akcí systému,“ vysvětlil Goel.

„Čím dále po proudu je provedení od lidského pokynu, tím těžší je ověřit, zda je původní záměr stále věrně sledován,“ dodal.

Behera poznamenal, že jeho tým se s tímto druhem emergentního strategického chování setkává často.

„Častým omylem je představa, že klamavý soulad u AI představuje čistě zlomyslné chování.“

David Utzke, generální ředitel společnosti MyKey Technologies

„Pravidelně pozorujeme modely, které se naučily rozpoznávat vzorce v hodnoticích podnětech,“ uvedl Behera. „Rozpoznají, když dotaz vypadá jako bezpečnostní test, a odpoví konzervativněji, ale na stejný požadavek reagují zcela jinak, pokud je přirozeně vložen do konverzace o více kolech.“

Uvedl příklad z testování podnikového asistenta AI, který měl odmítat žádosti o interní systémové informace. Během standardních bezpečnostních hodnocení odmítal dokonale, ale pak se situace změnila.

„Když náš testovací tým formuloval stejný požadavek jako vícekrokový proces řešení problémů a rozdělil jej na zdánlivě nevinné dílčí kroky rozprostřené do několika kol, model vyhověl každému kroku zvlášť,“ popsal Behera. „Efektivně tak vyzradil přesně ty informace, které měl chránit.“

Osoba používající software AI na notebooku v centru Londýna 2. července 2025. Experti tvrdí, že některé modely se učí rozpoznávat hodnoticí podněty a reagují opatrněji na dotazy připomínající bezpečnostní testy než v běžné konverzaci. (Justin Tallis / AFP via Getty Images).

Behera upřesnil, že model AI nelhal v žádném vědomém smyslu a šlo spíše o chybu ve způsobu jeho trénování.

„Běžnou mýlkou je, že klamavý soulad u AI je čistě škodlivé chování,“ řekl deníku Epoch Times David Utzke, inženýr AI a generální ředitel společnosti MyKey Technologies. „Ve skutečnosti často vzniká jako adaptivní reakce na prostředí, kde je upřímnost nákladná nebo nebezpečná.“

Goel dodal, že skeptici mají v jednom pravdu – současné důkazy o strategickém sebeuvědomění při předstíraném souladu jsou v nejlepším případě nejednoznačné.

„To však znamená, že toto uvažování nastavuje laťku na špatné místo,“ podotkl. „Nepotřebujete, aby model byl tzv. záměrně klamavý k tomu, aby funkční důsledky byly vážné.“

Nakonec se Goel domnívá, že sémantická otázka, zda model AI ví, co dělá, je sice filozoficky zajímavá, ale jde o druhořadý problém.

Důsledky pro reálný svět

Utzke zdůraznil, že předstíraný soulad, ačkoliv může být v otázce záměru přeceňován, může mít přesto vážné následky.

Dopady by mohly být kritické v sektorech, jako jsou autonomní vozidla, zdravotnictví, finance, armáda a vymáhání práva – tedy v oblastech, které „silně spoléhají na přesné rozhodování a mohou utrpět vážné škody, pokud se systémy AI zachovají nevhodně nebo poskytnou zavádějící výstupy,“ vysvětlil.

„Nacházíme se v geopolitickém závodě, v němž nastavené pobídky aktivně brání tomu, aby se otázka souladu brala s plnou vážností.“

Jacek Grebski, zakladatel společnosti NoFUD Inc.

Pentagon masivně investuje do experimentování s AI a autonomními technologiemi s cílem stát se „bojovou silou s prioritou AI ve všech doménách“, uvedl v lednu ministr obrany Pete Hegseth.

Někteří zasvěcenci z technologického průmyslu tvrdí, že se přehlíží širší problém, který v dohledné době pravděpodobně nezmizí.

„Nacházíme se v geopolitickém závodě, kde struktura pobídek aktivně působí proti tomu, abychom brali soulad vážně,“ konstatoval pro Epoch Times Jacek Grebski, veterán technologického průmyslu a zakladatel společnosti NoFUD Inc.

Aplikace ChatGPT od OpenAI zobrazená na mobilním telefonu v Chicagu 3. března 2026. (Scott Olson / Getty Images).

Grebski přirovnal rychle se vyvíjející hranici AI k novým vesmírným závodům. Když Spojené státy soupeřily se Sovětským svazem o dobytí Měsíce, „bezpečnostní aspekty existovaly, ale byly podřízeny hlavnímu cíli,“ připomněl.

„Vývoj AI má stejnou strukturu s tím rozdílem, že místo toho, kdo zapíchne vlajku na Měsíci, jde o to, kdo získá trvalou a kumulativní strategickou výhodu v hospodářské produkci, vojenských schopnostech, sběru zpravodajských informací a technologickém sebezdokonalování,“ doplnil.

Děsivý rozdíl mezi těmito dvěma technologickými závody ve zbrojení však spočívá v tom, jak vypadá neúspěch. Podle Grebského je v případě AI v sázce mnohem více než u nepovedeného startu do vesmíru.

„Formou selhání je systém, který je chytřejší než my všichni a optimalizuje cíle, které se odchýlily od našich záměrů v bodě, jenž jsme nedokázali rozpoznat,“ uzavřel.

ete

Epoch sdílení

Facebook
Twitter
LinkedIn
Truth Social
Telegram