V znanstvenem prispevku univerze Cornell raziskovalci pojasnjujejo, da modeli pri tvorjenju besedila posnemajo vzorce, ne pa dejanskega sveta. Kadar gre za dejstva, ki v učnem naboru nimajo trdne podlage, se pojavijo praznine. Model jih zapolni s statistično verjetnim nadaljevanjem — in tako nastane halucinacija. Enako kot človek, ki ugiba odgovor na testno vprašanje, tudi model »raje nekaj pove kot da bi molčal«.
OpenAI priznava, da popolna odprava tega pojava ni mogoča. Napake pri slovnici in strukturi izginjajo s povečevanjem modela, a redki, naključni podatki (kot so datumi rojstev ali enkratni dogodki) niso napovedljivi po vzorcih. Takšna dejstva so za sistem nevidna, saj so »statistični šum«, ne znanje. Poleg tega je jezikovni model nagrajen, kadar poda odgovor, ne pa kadar prizna nevednost. Ta mehanizem spodbuja »ugibanje« tudi v primerih, kjer je pravilna rešitev neznana.
Avtorji članka predlagajo novo strategijo: negativno vrednotenje napačnih odgovorov in delno nagrajevanje za »neodgovor«. To pomeni, da bi se model naučil, da včasih manj pomeni več — da molk ni poraz, temveč dokaz razsodnosti. Podobno bi lahko izboljšani postopki utemeljevanja (»reasoning«) zmanjšali halucinacije, saj model s preverjanjem lastnih korakov lažje odkrije logične vrzeli.
Raziskovalci priznavajo: »Točnost ne bo nikoli stoodstotna, saj so nekatere realne informacije po svoji naravi neizračunljive.« Toda obstaja smer: modeli se morajo naučiti samonadzora — sposobnosti, da ne odgovarjajo, kadar so negotovi. Kombinacija postopkov preverjanja, zunanjih baz znanja in bolj uravnoteženega sistema nagrajevanja bi lahko znatno zmanjšala število halucinacij.
Za zdaj ostaja jasno: umetna inteligenca ne halucinira zaradi »okvare«, temveč ker ji statistična narava jezika narekuje, da ugiba. Zmožnost povedati »ne vem« bo zato ključna lastnost prihodnjih generacij modelov. Do takrat bo naloga raziskovalcev, da med iluzijo in resničnostjo umetne inteligence ohranjajo jasno mejo — in nas opomnijo, da celo najbolj napredni algoritmi včasih le sanjajo.
Vir: Univerza Cornell