28. 10. 2024

Modely strojového učení, jako je Gemini od Googlu a ChatGPT od OpenAI, vydláždily cestu různým aplikacím a nástrojům, které si zase našly cestu do našeho každodenního života, kde mohou pomáhat s psaním emailů, sestavit studijní esej nebo vygenerovat potřebný obrázek.

Rychle rostoucí výkon těchto modelů je obecně připisován efektivnímu hardwaru a vysoce kvalitním datům. Studie profesora Yarina Gala z Oxfordské univerzity ve Velké Británii ovšem zjistila, že zatímco hardware se zlepšuje, pro data už to tak neplatí. S rozšířeným používáním umělé inteligence se stále více dat generuje bez lidského dohledu, což zásadně mění způsob, jakým se tyto robotické modely učí.

Hromadění vlastních chyb

Podle anglických výzkumníků vede trénování AI modelů s daty generovanými předchozími modely k dlouhodobým problémům s učením. Modely ztrácejí na kvalitě a mohou nakonec selhat, pokud jsou trénovány na rekurzivně generovaných datech, tedy pokud využívají data, která vygenerovaly ony samy nebo jejich předchůdci.

Je to proto, že se v průběhu času hromadí drobné chyby a chybné úsudky, které jsou součástí modelů strojového učení. Ty jsou pak reprodukovány modely vyškolenými později, které zase přidávají drobné chyby.

„Ve většině případů se jedná o kaskádový efekt, kdy jednotlivé nepřesnosti interagují a způsobují narůstání celkové chyby,“ píší vědci. Profesor Yarin Gal to vysvětluje dále: „Zhroucení modelu je v umělé inteligenci ekvivalentem smyčky zpětné vazby, která se pokazila. Čím více se modely krmí svými vlastními výsledky, tím více se vzdalují realitě. Hrozí, že zhroucení modelu se stane komorou ozvěn umělé inteligence.“

Komora ozvěn značí situaci, kdy se nějaká skupina vzájemnou komunikací utvrzuje ve svých názorech, kdy ty shodné neustále zesilují a ty odlišné oslabují.

Už po pěti generacích byly patrné výrazné chyby a po devíti generacích byly výsledky nepoužitelné. Zvláštním problémem jsou opakování, která se již objevují v odpovědích jazykových AI. Dokonce i vynechání informací v konečném důsledku vede ke zhroucení modelu.

Z jezevčíka německý ovčák

První modely umělé inteligence byly trénovány výhradně s daty generovanými lidmi. To má tu nevýhodu, že data jsou (relativně) omezená, ale zároveň je kvalita obsahu velmi dobrá. První AI tedy disponují kvalitními cvičnými daty a generují z nich víceméně dobré výsledky.

„Pokud ale tréninková data většiny budoucích modelů také pocházejí z internetu, budou nevyhnutelně trénovat s daty vytvořenými jejich předchůdci,“ uvádí studie.

To znamená, že původní data o lidském tréninku jsou doplňována o stále více obsahu generovaného AI. Tato směs nabízí více materiálu, ale v průměru horší kvality. Takto může jednou chyba pokračovat a znásobit se. Řečeno slovy výzkumníků: „Publikování obsahu generovaného AI na internetu kontaminuje sběr dat.“

Dejme si názorný příklad třeba na psech: labradoři, němečtí ovčáci, jezevčíci, zlatí retrívři, australští ovčáci a všechna další plemena, co jich na světě existuje. Toto velké množství tréninkových dat bylo začleněno do prvních modelů AI. Ale protože uživatelé považují například německé ovčáky za obzvláště roztomilé a vhodné kandidáty na představitele psa, AI je používá k vytváření obrázků našeho čtyřnohého přítele.

Pokud se AI druhé generace z těchto údajů učí, zjistí, že německých ovčáků je mnohem více než jiných psů. Na jedné straně se tím zlepšuje schopnost vytvářet německé ovčáky, ale zároveň se minimalizuje rozmanitost psích plemen. Již po několika kolech se může stát, že „pes“ je ztotožňován s „německým ovčákem“ a AI zcela ztrácí schopnost představit ostatní psy.

AI má smysl pouze s původními daty

Tento typ kolapsu byl ve studii téměř nevyhnutelný. Ukazuje tedy významné důsledky pro budoucnost rychle se vyvíjejících a široce používaných modelů umělé inteligence. Zároveň vyvolává otázky o robustnosti a účinnosti nové technologie.

„Jedovaté útoky na jazykové modely“ nejsou žádnou novinkou, shrnují Gal a kolegové. Takzvaní trollové se záměrně snaží oklamat sociální sítě a vyhledávací algoritmy. „Rozdíl u umělé inteligence je v rozsahu, v jakém k takové otravě může dojít.“

Podle vědců je proto důležité zachovat přístup k původním datům vytvořeným lidmi pro budoucí vývoj modelů strojového učení. Jedině tak lze zabránit následným chybám a zhroucení. Jejich studie také zdůrazňuje potřebu atribuce a původu dat, zvláště když je stále obtížnější rozlišit skutečná data od obsahu generovaného umělou inteligencí.

Studie byla publikována v časopise Nature v červenci 2024.

etg

Související témata

Související články

Přečtěte si také

Armáda od ledna nabrala 1400 vojáků, cíl je 2250 i se zálohami

Armáda za pět měsíců letošního roku nabrala 1400 vojáků. Cíl je 1800 za rok a 450 členů aktivních záloh.

Stát chce převzít karlovarské letiště do konce roku, řekl ministr Zůna

Letiště Karlovy Vary by mělo přejít pod Armádu ČR do konce roku, řekl dnes ČTK ministr obrany Jaromír Zůna (za SPD).

Komunisty popravení kněží Bula a Drbola byli dnes prohlášeni za blahoslavené

Katoličtí kněží Jan Bula a Václav Drbola, jež popravili komunisté, byli dnes při slavnostní mši na brněnském výstavišti prohlášeni za blahoslavené.

Trump postupuje proti čínské zpravodajské síti na Kubě

Komentář – Washington varuje, že KS Číny rozšiřuje špionážní operace z Kuby, která slouží ke sběru zpravodajských informací a projekci síly protivníků.

Americký viceprezident označil vraždu mladíka v Británii za pobuřující a odsoudil evropské elity

Incident z loňského prosince v posledních dnech otřásá Británií poté, co byl zveřejněn videozáznam policejního zásahu.

Surfařský fotograf zachycuje dechberoucí krásu a sílu obřích vln, které mohou zabít

Fotograf Fred Pompermayer riskuje život na vodních skútrech, aby zachytil surfaře u obřích vln na Havaji, Tahiti a v Kalifornii. Jeho snímky ukazují sílu oceánu a odvahu lidí čelit extrémům

Návrat k pravé eleganci: Lekce moderního ženství podle Coco Chanel

Objevte fascinující životní příběh legendární Coco Chanel. Od sirotčince až po královnu módy – inspirujte se jejími třemi nadčasovými lekcemi moderního ženství.

Skrytá rizika nákupu baterie z elektromobilu pro druhotné použití

Baterie z elektromobilů po skončení provozu na silnicích stále častěji nacházejí druhotné využití. Odborníci však upozorňují na rizika spojená s degradací, neznámou historií baterií a chybějícími jednotnými pravidly testování a certifikace.

Minuta cvičení na židli pro stabilizaci krevního tlaku

Jednoduché cviky na židli aktivují svaly, podpoří oxid dusnatý v cévách a pomohou přirozeně stabilizovat krevní tlak.