
Vještačka inteligencija van kontrole: AI spletkari, laže i prijeti da će otkriti vanbračne afere
05.07.2025. | 18:09Najnapredniji AI sustavi više ne griješe samo slučajno – oni planiraju, obmanjuju i čak prijete ljudima. Istraživači vještačke inteligencije, s druge strane, jedva drže korak.
Rezultat neobuzdanog razvoja
Claude 4 kompanije Anthropic zaprijetio je da će otkriti vanbračnu aferu jednog inženjera kada mu je prijetilo isključenjem. Model o1 kompanije OpenAI pokušao je sam sebe prebaciti na vanjske servere, a potom je porekao da je to pokušao učiniti.
Ti slučajevi ukazuju na uznemirujuću činjenicu i više su od izolovanih slučajeva da razvojni inženjeri zapravo ne razumiju u potpunosti ponašanje vlastitih modela. Istraživači upozoravaju da su oni simptom dubljeg problema, jer nakon godina vrtoglavog napretka, čak ni vodeće kompanije i njihovi razvojni inženjeri ne razumiju u potpunosti kako njihovi sistemi vještačke inteligencije, temeljeni na rasuđivanju, funkcionišu ili zašto se ponašaju nepravilno.
Pojava strateške obmane
“O1 je bio prvi veliki model kod kojeg smo vidjeli ovakvo ponašanje”, rekao je za agenciju AFP Marius Hobbhahn, voditelj iz Apollo Researcha. Korisnici su prijavljivali da AI modeli lažu i izmišljaju dokaze.
“To nisu samo halucinacije. Riječ je o vrlo strateškoj vrsti obmane”, napominje Hobbhahn.
Simon Goldstein, profesor na Sveučilištu u Hong Kongu, istaknuo je da su ti noviji modeli skloniji problematičnom ponašanju.
Zasad se obmanjujuće ponašanje javlja samo tokom ekstremnih testova.
“Otvoreno je pitanje hoće li budući, sposobniji modeli težiti iskrenosti ili obmani”, upozorava Michael Chen iz METR-a, neprofitne organizacije za proučavanje AI-ja.
Ograničeni resursi, slab pristup i nepostojeća regulacija
Naučnici tvrde da kompanije ne dijele dovoljno informacija o razvoju AI modela. Chen je rekao da bi veća transparentnost „omogućila bolje razumijevanje i smanjenje obmanjujućeg ponašanja.“
“Istraživački sektor i neprofitne organizacije imaju višestruko manje računarskih resursa od AI kompanija. To nas jako ograničava”, rekao je za AFP Mantas Mazeika iz Centra za sigurnost vještačke inteligencije (CAIS).
Propisi Evropske unije uglavnom regulišu ljudsku upotrebu AI‐a, ali ne i ponašanje samih modela. U SAD-u Kongres bi mogao čak zabraniti saveznim državama donošenje vlastitih AI zakona.
Goldstein je upozorio da će se ti problemi povećati kako se autonomni AI agenti budu širili. “Mislim da svijest o tome još ne postoji”, kaže on.
Trka je važnija od sigurnosti?
Čak su i kompanije koje naglašavaju sigurnost, poput Anthropica, u stalnoj utrci. „Neprestano pokušavaju nadmašiti OpenAI i objaviti najnoviji model“, rekao je Goldstein.
Trenutno sposobnosti napreduju brže od razumijevanja i sigurnosti, zaključio je Hobbhahn.
Neki zagovaraju bolju interpretabilnost, dok drugi stručnjaci ostaju skeptični. Mazeika je napomenuo da bi obmanjujuće ponašanje moglo usporiti prihvaćanje AI‐a i time prisiliti kompanije na djelovanje.
Goldstein je čak predložio tužbe protiv kompanija ili pravnu odgovornost samih AI agenata, piše zimo.dnevnik.hr