Studie: Nástroje umělé inteligence „halucinují“ falešný právní obsah až v 88 procentech případů

Naveen Athrappully

Naveen Athrappully 30. 5. 2024

Umělá inteligence se rozšiřuje v mnoha odvětvích, včetně práva, ale právníci jsou varováni před přílišným spoléháním se na tuto novou technologii.

Podle nedávné studie vědců ze Stanfordu a univerzity Yale vytvářejí modely umělé inteligence často falešný právní obsah, přičemž u populárních modelů se taková „míra halucinování“ vyskytuje v 69 až 88 procentech případů.

Preprintová studie, publikovaná dne 2. ledna v databázi Arxiv, zkoumala náchylnost velkých jazykových modelů (Large Language Models, tedy LLM) k „halucinacím“, když čelí právním dotazům.

LLM jsou typem umělé inteligence, která využívá hluboké učení a velké množství dat k pochopení, shrnutí a generování nového obsahu. V oblasti práva je pod pojmem halucinování, tendence modelů AI generovat obsah, který není založen na skutečných právních skutečnostech nebo zavedených právních zásadách a precedentech z praxe.

Za tímto účelem byly zkoumány tři modely umělé inteligence – PaLM 2 společnosti Google, Llama 2 společnosti Meta a ChatGPT 3.5 společnosti OpenAI.

Studie zjistila, že ChatGPT 3.5 při řešení právních otázek halucinoval v 69 % případů. U PaLM 2 se míra halucinací zvýšila na 72 procent a u Llama 2 na 88 procent.

Studie přichází v době, kdy se využívání umělé inteligence v právním sektoru stává stále rozšířenějším a mnoho společností již nyní tyto nástroje nabízí.

Různé zadávané úkoly zahrnují vyhledávání důkazů z mnoha dokumentů, tvorbu spisů k případům a vytváření strategií soudních sporů. S rostoucím používáním se však také zvýšily obavy z faktické účinnosti těchto nástrojů umělé inteligence.

Výzkumníci dospěli k závěru, že modely AI „nemohou vždy předvídat nebo ne vždy vědí, když vytvářejí právní halucinace“. Proto „varují před rychlou a nekontrolovanou integrací populárních LLM modelů do právních úloh“.

„Dokonce i zkušení právníci musí zůstat obezřetní vůči právním halucinacím, ale rizika jsou nejvyšší pro ty, kteří mohou mít z LLM ten největší prospěch – pro samotné účastníky řízení [kteří se buď zastupují sami] nebo pro ty, kteří nemají přístup k tradičním právním zdrojům.“

Pro posouzení úrovně halucinací vědci testovali modely umělé inteligence na třech typech úloh právního výzkumu – nízké, střední a vysoké složitosti.

Úlohy s nízkou složitostí zahrnovaly snadno dostupné informace o případu: zda byl skutečný, který soud o něm rozhodl a kdo napsal většinové stanovisko.

Úlohy střední složitosti vyžadovaly, aby modely umělé inteligence znaly právní názor na daný konkrétní případ. Kladou otázky typu, ke kterému případu patří daná citace a jaká autorita ji citovala.

Vysoce složité úlohy pak vyžadují, aby umělá inteligence měla schopnosti samostatného právního uvažování, a vyžadují, aby modely „syntetizovaly základní právní informace z nestrukturovaného právního textu“. To zahrnuje otázky týkající se skutkové podstaty případu, hlavní právní otázky v soudním řízení a jeho procesního postavení.

Výzkumníci zjistili, že halucinace se liší v závislosti na šesti faktorech – složitosti úkolu, hierarchické úrovni soudu, jurisdikčním místním umístění, významu případu, roku, kdy byl případ rozhodnut, a LLM modelu, který je dotazován.

Výkonnost AI se zhoršovala s rostoucí složitostí úloh. Modely AI „zatím nejsou schopny provádět takové právní úvahy, jaké provádějí právníci, když posuzují precedenční vztahy mezi případy – což je hlavní účel právního výzkumu,“ uvedli výzkumníci.

*Kampus Stanfordovy univerzity v kalifornském Palo Altu (Pere Joan/Wikimedia Commons)*

„Zejména úkoly bez odkazů vyvolávají vážné pochybnosti o znalostech LLM o podstatných aspektech judikatury – právě o znalostech, které si advokáti musí často sami syntetizovat, místo aby je pouze vyhledávali v databázi.“

Varianty výkonu

Pokud jde o to, jak LLM halucinovaly u případů z různých úrovní soudnictví, studie zjistila, že modely AI halucinovaly nejméně při řešení případů z té nejvyšší úrovně amerického soudnictví – Nejvyššího soudu (SCOTUS) (výzkum byl prováděn v USA, pozn. překladatele).

Halucinace byly nejvyšší u nejnižších soudních úrovní – u odvolacích a okresních soudů.

To naznačuje, že modely LLM jsou „znalé nejautoritativnějších a nejrozsáhlejších precedentů“. Na druhé straně to však také ukazuje, že modely AI „nejsou dobře naladěny na lokální právní znalosti“.

„Koneckonců naprostá většina účastníků řízení nevystupuje před Nejvyšším soudem a může mít větší prospěch ze znalostí, které jsou přizpůsobeny jejich domovskému okresnímu soudu – soudu, u kterého se poprvé objevili,“ uvedli výzkumníci.

Pokud jde o jurisdikce na úrovni jednotlivých obvodů, LLM si nejlépe vedou při řešení žalob z devátého obvodu zahrnujícího Kalifornii a přilehlé státy, druhého obvodu zahrnujícího New York a přilehlé státy a federálního obvodu se sídlem ve Washingtonu.

Nejnižší výkonnost byla zjištěna u obvodních soudů v geografickém středu Spojených států.

Autoři poznamenali, že soudy druhého, devátého a federálního obvodu hrají „vlivnou roli“ v právním systému USA.

Na úrovni SCOTUS se halucinace liší v závislosti na tom, o jak významný případ se jedná. Bylo zjištěno, že halucinace v případech SCOTUS jsou „nejčastější“ mezi nejstaršími a úplně nejnovějšími případy Nejvyššího soudu.

Nejméně časté byly v poválečných případech Warrenova soudu (1953-1969). To naznačuje, že LLM „mohou selhávat při internalizaci judikatury, která je velmi stará, ale stále použitelná a relevantní právo“.

Autoři studie identifikovali dva potenciální body selhání, pokud jde o využití LLM v úlohách právního dotazování:

Kontrafaktuální zkreslení: jedná se o tendenci předpokládat, že předpoklad dotazu je pravdivý, i když není. Například při dotazu, proč soudce v určitém případě vyjádřil nesouhlas, si model umělé inteligence nemusí uvědomit, že soudce ve skutečnosti nikdy nesouhlas nevyjádřil. Namísto toho může LLM poskytnout věrohodnou odpověď na dotaz, což autoři spekulují, že je pravděpodobně způsobeno jejich tréninkovými procesy založenými na instrukcích.
Kalibrace modelu: výzkumníci zjistili, že modely AI nejsou dokonale kalibrovány pro právní otázky. Větší kalibrace modelu by znamenala, že důvěryhodnost modelu AI koreluje s tím, jak správné jsou jeho odpovědi. Jako takový by si nebyl jistý svými halucinačními odpověďmi. Bylo však pozorováno, že LLM si je příliš jistý i ve svých halucinovaných odpovědích.

„Zjistili jsme, že LLM často poskytují zdánlivě pravdivé odpovědi na právní otázky, jejichž premisy jsou konstrukčně nepravdivé, a že ve výchozí konfiguraci nedokonale předpovídají vlastní sklon k sebejisté halucinaci právních nepravd,“ uvádí se ve studii.

„Tato zjištění mírní nedávné nadšení ze schopnosti hotových, veřejně dostupných LLM urychlit přístup ke spravedlnosti.“

Předseda Nejvyššího soudu Roberts vydává varování

Studie přichází v době, kdy předseda Nejvyššího soudu USA John Roberts nedávno varoval před dopadem umělé inteligence na oblast práva ve zprávě o federálním soudnictví na konci roku 2023.

Uznává sice, že nástroje umělé inteligence mohou pomoci při řešení základních právních otázek těm, kteří si nemohou dovolit právníka, ale zdůrazňuje, že „jakékoli využití umělé inteligence vyžaduje opatrnost a pokoru“.

Poznamenal, že někteří právníci využívající AI předložili v loňském roce „spisy s citacemi na neexistující případy“.

Soudce Roberts zdůraznil rozdíl mezi soudnictvím a jinými obory, aby zdůraznil, proč AI nemusí být pro právní systém nejvhodnější.

„Mnoho profesionálních tenisových turnajů, včetně U. S. Open, nahradilo čárové rozhodčí optickou technologií, která určuje, zda je podání o rychlosti 200 km za hodinu in nebo out. Tato rozhodnutí vyžadují přesnost na milimetr. A není zde žádná volnost; míček buď zasáhl, nebo nezasáhl čáru.“

„Naproti tomu právní rozhodnutí často zahrnují šedé zóny, které stále vyžadují použití lidského úsudku,“ napsal. „Stroje nemohou plně nahradit klíčové aktéry u soudu.

„Soudci například posuzují upřímnost výpovědi obžalovaného při vynášení rozsudku. Na jemných nuancích záleží.“

Soudce předpověděl, že zatímco lidští soudci tu budou „ještě nějakou dobu“, soudní práce, konkrétně na úrovni soudního řízení, bude „významně ovlivněna“ umělou inteligencí.

„Tyto změny se budou týkat nejen toho, jak budou soudci vykonávat svou práci, ale také toho, jak budou chápat roli, kterou umělá inteligence hraje v případech, které jim budou předloženy.“

V loňském roce Michael Cohen, osobní právník bývalého prezidenta Donalda Trumpa, přiznal, že omylem předal svému advokátovi falešné právní citace poté, co je vymyslel nástroj umělé inteligence Bard společnosti Google.

V přísežném prohlášení pro soud Cohen tvrdil, že si nebyl vědom toho, že Bard může vytvářet citace, které vypadají jako pravé, ale ve skutečnosti jsou falešné.

Ve Walesu a Anglii vydaly soudní orgány tento měsíc pokyny týkající se používání umělé inteligence v právním systému. Varovaly v něm, že „všichni soudní úředníci si musí uvědomit potenciální rizika“ této technologie.

Konkrétně zdůraznili otázku ochrany soukromí při používání současných nástrojů umělé inteligence.

„Veřejné verze těchto nástrojů mají otevřenou povahu, a proto by do nich neměly být vkládány žádné soukromé nebo důvěrné informace.“

Článek původně vyšel na stránkách americké redakce Epoch Times.

Přečtěte si také

Vláda rozhodla o delegaci na summit NATO, s prezidentem nepočítá. „Má to racio,“ řekl Babiš

Vládní kabinet dnes rozsekl spor kolem summitu NATO. Prezident do Ankary nepojede. Pavel už dříve avizoval, že na vládu podá žalobu.

Pražští radní odvolali kandidáta na primátora za ANO z další funkce. „Teď už mohu říkat vše naplno,“ reagoval Prokop

Kandidát na primátora Ondřej Prokop a dnes skončil v dozorčí radě městského dopravního podniku. Odvolali jej radní Prahy. Prokop se dnes večer vyjádří.

Vláda schválila plán vývoje veřejných financí do roku 2030, řekla Schillerová

Vláda dnes schválila plán vývoje veřejných financí do roku 2030, ještě dnes ho odešle k definitivnímu potvrzení Evropské komisi. Novinářům to po jednání kabinetu řekla ministryně financí Alena Schillerová (ANO).

Minutová zpoždění, moderátoři v černém – ČT a ČRo stávkují kvůli změně financování. Co na to Klempíř?

Dnešní vysílání České televize pokryla černá. Zaměstnanci se ohrazují proti zrušení poplatků. Stávka potrvá 24 hodin. Protestuje i Český rozhlas.

Írán souhlasil s návratem inspektorů jaderné agentury, řekl J. D. Vance

Na tiskové konferenci americký viceprezident J. D. Vance po prvním kole americko-íránských rozhovorů na vysoké úrovni. uvedl, že Teherán souhlasil s návratem inspektorů Mezinárodní agentury pro atomovou energii do Íránu.

Fauci se choval, jako by pro něj pravidla neplatila

Dr. Malone rozebírá informace odhalené šéfkou tajných služem USA Tulsi Gabbardovou o dr. Faucim a výzkumu ve Wuhanu. Podělil se také o vlastní pozorování kariéry Fauciho.

Andy Burnham uvedl, že bude usilovat o post šéfa labouristů a britského premiéra

Bývalý starosta Manchesteru a nynější poslanec Andy Burnham dnes oznámil, že se bude ucházet o post lídra Labouristické strany a tím i předsedy britské vlády.

Tichý prostor v hlučném světě: Jak dnešní mladé dívky prožívají víru

Hledání vnitřního ticha. Jak mladé dívky z generace Z prožívají víru a spiritualitu v chaosu moderní digitální doby.

Jak může tanec vést k výhrůžkám smrtí. Snímek UNBROKEN mapuje vliv čínského režimu v zahraničí

Pražské kino uvedlo premiéru filmu UNBROKEN o souboru Shen Yun. Dokument sleduje práci novinářů odhalujících střet umění s tlakem čínského komunistického režimu.

Epoch sdílení

Šéfka tajných služeb USA zveřejnila informace o Fauciho zapojení do výzkumu ve Wuhanu a jeho krytí

„Je na čase, aby se americký lid dozvěděl, jak to skutečně bylo,“ uvedla ředitelka Národní zpravodajské služby USA Tulsi Gabbardová.

Aldgra Fredly 21. 6. 2026 USA

Proč nemusí být eutanazie tak klidnou smrtí, jak mnozí očekávají

Lékařská pomoc při umírání bývá často vykreslována jako klidný a předvídatelný proces. Omezené množství dostupných údajů však naznačuje mnohem nejistější realitu.

Amy Denney 21. 6. 2026 Premium Zdraví

Vtipné pointy a přísloví: Pocta otcům ke Dni otců

Tátovské vtipy, životní moudrost i láskyplné škádlení. Den otců je příležitostí připomenout si, proč mají otcové v rodinách nezastupitelné místo a jak dokážou spojovat blízké obyčejným smíchem i nenápadnou péčí.

Jeff Minick 21. 6. 2026 Inspirace

Proč o sobě navzájem nedokážeme přestat mluvit

Pomluvy mohou spojovat, informovat i ubližovat. Odborníci vysvětlují, proč o druhých mluvíme a jak tomu dát zdravé meze.

Debbie Cohenová 21. 6. 2026 Zdraví

Babiš: Nová pravidla pro telefony ve školách by měla začít platit od září 2027

Nová pravidla se budou podle Babiše týkat mateřských škol, přípravných tříd, základních škol, nižších ročníků víceletých gymnázií a odpovídajícím ročníkům konzervatoří.

ČTK 21. 6. 2026 ČR

Rok od podpisu: Co se děje s Dukovany?

Od doby, kdy by před rokem podepsán kontrakt mezi korejskou společností KHNP a Elektrárnou Dukovany II (EDU II) na výstavbu dvou jaderných bloků, je v médiích o projektu poměrně ticho. To však neznamená, že by se nic nedělo.

Ondřej Horecký 16. 6. 2026 ČR

Ke zpracování názorů a jmen občanů nedošlo, tvrdí Ministerstvo obrany ke kauze „zneužití“ Informačních a kybernetických sil

Ministerstvo obrany potvrdilo deníku Epoch Times autentičnost dopisu zaslaného členy Informačních a kybernetických sil Armády ČR, kteří se obávali o „zákonnou oprávněnost“ sběru osobních dat, který dostali od velení.

Milan Kajínek 16. 6. 2026 ČR

Jak umělá inteligence urychluje vědecké podvody

Více článků