Modely strojového učení, jako je Gemini od Googlu a ChatGPT od OpenAI, vydláždily cestu různým aplikacím a nástrojům, které si zase našly cestu do našeho každodenního života, kde mohou pomáhat s psaním emailů, sestavit studijní esej nebo vygenerovat potřebný obrázek.
Rychle rostoucí výkon těchto modelů je obecně připisován efektivnímu hardwaru a vysoce kvalitním datům. Studie profesora Yarina Gala z Oxfordské univerzity ve Velké Británii ovšem zjistila, že zatímco hardware se zlepšuje, pro data už to tak neplatí. S rozšířeným používáním umělé inteligence se stále více dat generuje bez lidského dohledu, což zásadně mění způsob, jakým se tyto robotické modely učí.
Hromadění vlastních chyb
Podle anglických výzkumníků vede trénování AI modelů s daty generovanými předchozími modely k dlouhodobým problémům s učením. Modely ztrácejí na kvalitě a mohou nakonec selhat, pokud jsou trénovány na rekurzivně generovaných datech, tedy pokud využívají data, která vygenerovaly ony samy nebo jejich předchůdci.
Je to proto, že se v průběhu času hromadí drobné chyby a chybné úsudky, které jsou součástí modelů strojového učení. Ty jsou pak reprodukovány modely vyškolenými později, které zase přidávají drobné chyby.
„Ve většině případů se jedná o kaskádový efekt, kdy jednotlivé nepřesnosti interagují a způsobují narůstání celkové chyby,“ píší vědci. Profesor Yarin Gal to vysvětluje dále: „Zhroucení modelu je v umělé inteligenci ekvivalentem smyčky zpětné vazby, která se pokazila. Čím více se modely krmí svými vlastními výsledky, tím více se vzdalují realitě. Hrozí, že zhroucení modelu se stane komorou ozvěn umělé inteligence.“
Komora ozvěn značí situaci, kdy se nějaká skupina vzájemnou komunikací utvrzuje ve svých názorech, kdy ty shodné neustále zesilují a ty odlišné oslabují.
Už po pěti generacích byly patrné výrazné chyby a po devíti generacích byly výsledky nepoužitelné. Zvláštním problémem jsou opakování, která se již objevují v odpovědích jazykových AI. Dokonce i vynechání informací v konečném důsledku vede ke zhroucení modelu.
Z jezevčíka německý ovčák
První modely umělé inteligence byly trénovány výhradně s daty generovanými lidmi. To má tu nevýhodu, že data jsou (relativně) omezená, ale zároveň je kvalita obsahu velmi dobrá. První AI tedy disponují kvalitními cvičnými daty a generují z nich víceméně dobré výsledky.
„Pokud ale tréninková data většiny budoucích modelů také pocházejí z internetu, budou nevyhnutelně trénovat s daty vytvořenými jejich předchůdci,“ uvádí studie.
To znamená, že původní data o lidském tréninku jsou doplňována o stále více obsahu generovaného AI. Tato směs nabízí více materiálu, ale v průměru horší kvality. Takto může jednou chyba pokračovat a znásobit se. Řečeno slovy výzkumníků: „Publikování obsahu generovaného AI na internetu kontaminuje sběr dat.“
Dejme si názorný příklad třeba na psech: labradoři, němečtí ovčáci, jezevčíci, zlatí retrívři, australští ovčáci a všechna další plemena, co jich na světě existuje. Toto velké množství tréninkových dat bylo začleněno do prvních modelů AI. Ale protože uživatelé považují například německé ovčáky za obzvláště roztomilé a vhodné kandidáty na představitele psa, AI je používá k vytváření obrázků našeho čtyřnohého přítele.
Pokud se AI druhé generace z těchto údajů učí, zjistí, že německých ovčáků je mnohem více než jiných psů. Na jedné straně se tím zlepšuje schopnost vytvářet německé ovčáky, ale zároveň se minimalizuje rozmanitost psích plemen. Již po několika kolech se může stát, že „pes“ je ztotožňován s „německým ovčákem“ a AI zcela ztrácí schopnost představit ostatní psy.
AI má smysl pouze s původními daty
Tento typ kolapsu byl ve studii téměř nevyhnutelný. Ukazuje tedy významné důsledky pro budoucnost rychle se vyvíjejících a široce používaných modelů umělé inteligence. Zároveň vyvolává otázky o robustnosti a účinnosti nové technologie.
„Jedovaté útoky na jazykové modely“ nejsou žádnou novinkou, shrnují Gal a kolegové. Takzvaní trollové se záměrně snaží oklamat sociální sítě a vyhledávací algoritmy. „Rozdíl u umělé inteligence je v rozsahu, v jakém k takové otravě může dojít.“
Podle vědců je proto důležité zachovat přístup k původním datům vytvořeným lidmi pro budoucí vývoj modelů strojového učení. Jedině tak lze zabránit následným chybám a zhroucení. Jejich studie také zdůrazňuje potřebu atribuce a původu dat, zvláště když je stále obtížnější rozlišit skutečná data od obsahu generovaného umělou inteligencí.
Studie byla publikována v časopise Nature v červenci 2024.
–etg–
