Umělá inteligence se rozšiřuje v mnoha odvětvích, včetně práva, ale právníci jsou varováni před přílišným spoléháním se na tuto novou technologii.
Podle nedávné studie vědců ze Stanfordu a univerzity Yale vytvářejí modely umělé inteligence často falešný právní obsah, přičemž u populárních modelů se taková „míra halucinování“ vyskytuje v 69 až 88 procentech případů.
Preprintová studie, publikovaná dne 2. ledna v databázi Arxiv, zkoumala náchylnost velkých jazykových modelů (Large Language Models, tedy LLM) k „halucinacím“, když čelí právním dotazům.
LLM jsou typem umělé inteligence, která využívá hluboké učení a velké množství dat k pochopení, shrnutí a generování nového obsahu. V oblasti práva je pod pojmem halucinování, tendence modelů AI generovat obsah, který není založen na skutečných právních skutečnostech nebo zavedených právních zásadách a precedentech z praxe.
Za tímto účelem byly zkoumány tři modely umělé inteligence – PaLM 2 společnosti Google, Llama 2 společnosti Meta a ChatGPT 3.5 společnosti OpenAI.
Studie zjistila, že ChatGPT 3.5 při řešení právních otázek halucinoval v 69 % případů. U PaLM 2 se míra halucinací zvýšila na 72 procent a u Llama 2 na 88 procent.
Studie přichází v době, kdy se využívání umělé inteligence v právním sektoru stává stále rozšířenějším a mnoho společností již nyní tyto nástroje nabízí.
Různé zadávané úkoly zahrnují vyhledávání důkazů z mnoha dokumentů, tvorbu spisů k případům a vytváření strategií soudních sporů. S rostoucím používáním se však také zvýšily obavy z faktické účinnosti těchto nástrojů umělé inteligence.
Výzkumníci dospěli k závěru, že modely AI „nemohou vždy předvídat nebo ne vždy vědí, když vytvářejí právní halucinace“. Proto „varují před rychlou a nekontrolovanou integrací populárních LLM modelů do právních úloh“.
„Dokonce i zkušení právníci musí zůstat obezřetní vůči právním halucinacím, ale rizika jsou nejvyšší pro ty, kteří mohou mít z LLM ten největší prospěch – pro samotné účastníky řízení [kteří se buď zastupují sami] nebo pro ty, kteří nemají přístup k tradičním právním zdrojům.“
Pro posouzení úrovně halucinací vědci testovali modely umělé inteligence na třech typech úloh právního výzkumu – nízké, střední a vysoké složitosti.
Úlohy s nízkou složitostí zahrnovaly snadno dostupné informace o případu: zda byl skutečný, který soud o něm rozhodl a kdo napsal většinové stanovisko.
Úlohy střední složitosti vyžadovaly, aby modely umělé inteligence znaly právní názor na daný konkrétní případ. Kladou otázky typu, ke kterému případu patří daná citace a jaká autorita ji citovala.
Vysoce složité úlohy pak vyžadují, aby umělá inteligence měla schopnosti samostatného právního uvažování, a vyžadují, aby modely „syntetizovaly základní právní informace z nestrukturovaného právního textu“. To zahrnuje otázky týkající se skutkové podstaty případu, hlavní právní otázky v soudním řízení a jeho procesního postavení.
Výzkumníci zjistili, že halucinace se liší v závislosti na šesti faktorech – složitosti úkolu, hierarchické úrovni soudu, jurisdikčním místním umístění, významu případu, roku, kdy byl případ rozhodnut, a LLM modelu, který je dotazován.
Výkonnost AI se zhoršovala s rostoucí složitostí úloh. Modely AI „zatím nejsou schopny provádět takové právní úvahy, jaké provádějí právníci, když posuzují precedenční vztahy mezi případy – což je hlavní účel právního výzkumu,“ uvedli výzkumníci.

„Zejména úkoly bez odkazů vyvolávají vážné pochybnosti o znalostech LLM o podstatných aspektech judikatury – právě o znalostech, které si advokáti musí často sami syntetizovat, místo aby je pouze vyhledávali v databázi.“
Varianty výkonu
Pokud jde o to, jak LLM halucinovaly u případů z různých úrovní soudnictví, studie zjistila, že modely AI halucinovaly nejméně při řešení případů z té nejvyšší úrovně amerického soudnictví – Nejvyššího soudu (SCOTUS) (výzkum byl prováděn v USA, pozn. překladatele).
Halucinace byly nejvyšší u nejnižších soudních úrovní – u odvolacích a okresních soudů.
To naznačuje, že modely LLM jsou „znalé nejautoritativnějších a nejrozsáhlejších precedentů“. Na druhé straně to však také ukazuje, že modely AI „nejsou dobře naladěny na lokální právní znalosti“.
„Koneckonců naprostá většina účastníků řízení nevystupuje před Nejvyšším soudem a může mít větší prospěch ze znalostí, které jsou přizpůsobeny jejich domovskému okresnímu soudu – soudu, u kterého se poprvé objevili,“ uvedli výzkumníci.
Pokud jde o jurisdikce na úrovni jednotlivých obvodů, LLM si nejlépe vedou při řešení žalob z devátého obvodu zahrnujícího Kalifornii a přilehlé státy, druhého obvodu zahrnujícího New York a přilehlé státy a federálního obvodu se sídlem ve Washingtonu.
Nejnižší výkonnost byla zjištěna u obvodních soudů v geografickém středu Spojených států.
Autoři poznamenali, že soudy druhého, devátého a federálního obvodu hrají „vlivnou roli“ v právním systému USA.
Na úrovni SCOTUS se halucinace liší v závislosti na tom, o jak významný případ se jedná. Bylo zjištěno, že halucinace v případech SCOTUS jsou „nejčastější“ mezi nejstaršími a úplně nejnovějšími případy Nejvyššího soudu.
Nejméně časté byly v poválečných případech Warrenova soudu (1953-1969). To naznačuje, že LLM „mohou selhávat při internalizaci judikatury, která je velmi stará, ale stále použitelná a relevantní právo“.
Autoři studie identifikovali dva potenciální body selhání, pokud jde o využití LLM v úlohách právního dotazování:
- Kontrafaktuální zkreslení: jedná se o tendenci předpokládat, že předpoklad dotazu je pravdivý, i když není. Například při dotazu, proč soudce v určitém případě vyjádřil nesouhlas, si model umělé inteligence nemusí uvědomit, že soudce ve skutečnosti nikdy nesouhlas nevyjádřil. Namísto toho může LLM poskytnout věrohodnou odpověď na dotaz, což autoři spekulují, že je pravděpodobně způsobeno jejich tréninkovými procesy založenými na instrukcích.
- Kalibrace modelu: výzkumníci zjistili, že modely AI nejsou dokonale kalibrovány pro právní otázky. Větší kalibrace modelu by znamenala, že důvěryhodnost modelu AI koreluje s tím, jak správné jsou jeho odpovědi. Jako takový by si nebyl jistý svými halucinačními odpověďmi. Bylo však pozorováno, že LLM si je příliš jistý i ve svých halucinovaných odpovědích.
„Zjistili jsme, že LLM často poskytují zdánlivě pravdivé odpovědi na právní otázky, jejichž premisy jsou konstrukčně nepravdivé, a že ve výchozí konfiguraci nedokonale předpovídají vlastní sklon k sebejisté halucinaci právních nepravd,“ uvádí se ve studii.
„Tato zjištění mírní nedávné nadšení ze schopnosti hotových, veřejně dostupných LLM urychlit přístup ke spravedlnosti.“
Předseda Nejvyššího soudu Roberts vydává varování
Studie přichází v době, kdy předseda Nejvyššího soudu USA John Roberts nedávno varoval před dopadem umělé inteligence na oblast práva ve zprávě o federálním soudnictví na konci roku 2023.
Uznává sice, že nástroje umělé inteligence mohou pomoci při řešení základních právních otázek těm, kteří si nemohou dovolit právníka, ale zdůrazňuje, že „jakékoli využití umělé inteligence vyžaduje opatrnost a pokoru“.
Poznamenal, že někteří právníci využívající AI předložili v loňském roce „spisy s citacemi na neexistující případy“.
Soudce Roberts zdůraznil rozdíl mezi soudnictvím a jinými obory, aby zdůraznil, proč AI nemusí být pro právní systém nejvhodnější.
„Mnoho profesionálních tenisových turnajů, včetně U. S. Open, nahradilo čárové rozhodčí optickou technologií, která určuje, zda je podání o rychlosti 200 km za hodinu in nebo out. Tato rozhodnutí vyžadují přesnost na milimetr. A není zde žádná volnost; míček buď zasáhl, nebo nezasáhl čáru.“
„Naproti tomu právní rozhodnutí často zahrnují šedé zóny, které stále vyžadují použití lidského úsudku,“ napsal. „Stroje nemohou plně nahradit klíčové aktéry u soudu.
„Soudci například posuzují upřímnost výpovědi obžalovaného při vynášení rozsudku. Na jemných nuancích záleží.“
Soudce předpověděl, že zatímco lidští soudci tu budou „ještě nějakou dobu“, soudní práce, konkrétně na úrovni soudního řízení, bude „významně ovlivněna“ umělou inteligencí.
„Tyto změny se budou týkat nejen toho, jak budou soudci vykonávat svou práci, ale také toho, jak budou chápat roli, kterou umělá inteligence hraje v případech, které jim budou předloženy.“
V loňském roce Michael Cohen, osobní právník bývalého prezidenta Donalda Trumpa, přiznal, že omylem předal svému advokátovi falešné právní citace poté, co je vymyslel nástroj umělé inteligence Bard společnosti Google.
V přísežném prohlášení pro soud Cohen tvrdil, že si nebyl vědom toho, že Bard může vytvářet citace, které vypadají jako pravé, ale ve skutečnosti jsou falešné.
Ve Walesu a Anglii vydaly soudní orgány tento měsíc pokyny týkající se používání umělé inteligence v právním systému. Varovaly v něm, že „všichni soudní úředníci si musí uvědomit potenciální rizika“ této technologie.
Konkrétně zdůraznili otázku ochrany soukromí při používání současných nástrojů umělé inteligence.
„Veřejné verze těchto nástrojů mají otevřenou povahu, a proto by do nich neměly být vkládány žádné soukromé nebo důvěrné informace.“
Článek původně vyšel na stránkách americké redakce Epoch Times.
