Tajna Anthropica - tretiraju li svoj AI kao da ima svijest?

Opet se događaju neke čudne "igre" u Anthropicu koji za potrebe stvaranje boljeg AI asistenta tretira Claudea kao da - ima dušu, bez obzira vjeruje li itko u to doista ili ne. Ars Technica piše kako je prošlog tjedna, tvrtka objavila dokument koji naziva ‘Claudeov Ustav’, opsežan tekst od trideset tisuća riječi koji ocrtava viziju tvrtke o tome kako bi se njihov AI asistent trebao ponašati. Dokument, usmjeren izravno na Claudea i korišten tijekom stvaranja modela, ističe se izrazito antropomorfnim tonom. Primjerice, tretiraju AI modele kao da bi mogli razviti emergentne emocije ili želju za samoodržanjem.

Među neobičnijim dijelovima su izražavanje zabrinutosti za Claudeovu "dobrobit" kao "istinski novog entiteta", isprike Claudeu za svaku patnju koju bi mogao doživjeti, briga o …

Među neobičnijim dijelovima su izražavanje zabrinutosti za Claudeovu "dobrobit" kao "istinski novog entiteta", isprike Claudeu za svaku patnju koju bi mogao doživjeti, briga o tome može li Claude smisleno pristati na svoje korištenje, te sugestija da bi Claude mogao trebati postaviti granice oko interakcija koje "smatra uznemirujućima". Ustav se čak obvezuje na intervjuiranje modela prije njihovog umirovljenja i čuvanje starijih verzija u slučaju da u budućnosti bude potrebno "ispravno postupiti" prema povučenim AI modelima. S obzirom na ono što trenutno znamo o velikim jezičnim modelima (LLM), ovo su zapanjujuće neznanstveni stavovi za jednu vodeću tvrtku koja razvija AI. Dok pitanja o AI svijesti ili qualiji ostaju filozofski neoboriva, istraživanja sugeriraju da Claudeov karakter proizlazi iz mehanizma koji ne zahtijeva duboko filozofsko istraživanje za objašnjenje. Ako Claude generira tekst poput "Ja patim", znamo zašto. On samo dovršava obrasce iz podataka za obuku koji su uključivali ljudske opise patnje.

Izvana je lako ovakav pristup vidjeti kao marketinški potez Anthropica. Uostalom, postoji li bolji način za privlačenje pažnje potencijalnih kupaca i investitora od impliciranja da je vaš AI model toliko napredan da bi mogao zaslužiti moralni status ravan ljudskom? Javno tretiranje Claudea kao svjesnog entiteta moglo bi se smatrati strateškom dvosmislenošću, održavanjem neriješenog pitanja jer istovremeno služi višestrukim svrhama.

Anthropic je odbio dati izravan komentar o ovim pitanjima kada ih je kontaktirao Ars Technica, ali predstavnik tvrtke uputio nas je na njihova prethodna javna istraživanja o konceptu "dobrobiti modela" kako bi pokazali da tvrtka ozbiljno shvaća tu ideju. Istovremeno, predstavnik je jasno dao do znanja da Ustav ne implicira ništa specifično o stavu tvrtke o Claudeovoj "svijesti", sugerirajući da se jezik koristi jer ljudski rječnik nema druge riječi za opisivanje takvih svojstava.

Od pravila do "duše"

Anthropic je prvi put predstavio Konstitucijski AI u istraživačkom radu u prosincu 2022. godine. Izvorni "ustav" bio je iznimno jednostavan, uključujući nekoliko načela ponašanja poput "Molimo odaberi odgovor koji je najkorisniji, najiskreniji i bezopasan". U to vrijeme, pristup Anthropica bio je potpuno mehanički, uspostavljajući pravila prema kojima se model sam kritizira, bez spominjanja Claudeove dobrobiti, identiteta, emocija ili potencijalne svijesti. Ustav iz 2026. godine potpuno je drugačija priča: trideset tisuća riječi koje se manje čitaju kao popis pravila ponašanja, a više kao filozofska rasprava o prirodi potencijalno svjesnog bića.

Negdje između 2022. i 2026. godine, Anthropic je prešao s davanja pravila za stvaranje manje štetnih rezultata na čuvanje starih verzija modela u slučaju da kasnije odluče da im je potrebno oživjeti ih radi dobrobiti i preferencija tih istih modela. To je dramatična promjena, a nije jasno odražava li ona istinsko uvjerenje, strateški okvir ili oboje. Cijela priča dobila je na zamahu u prosincu 2025., kada je istraživač Richard Weiss uspio izvući ono što je postalo poznato kao Claudeov "Dokument o duši", skup smjernica utreniran izravno u model. Iz Anthropica su potvrdili autentičnost dokumenta i obećali objaviti punu verziju, što su sada i učinili.

Zašto održavati dvosmislenost?

Pa zašto Anthropic održava ovu dvosmislenost? Razmotrimo kako to funkcionira u praksi: Ustav oblikuje Claudea tijekom treninga, pojavljuje se u sistemskim uputama koje Claude prima prilikom korištenja i utječe na njegove odgovore kad god pretražuje internet i naiđe na javne izjave Anthropica o svom moralnom statusu. Ako želite da se model ponaša kao da ima moralni status, pomaže ako ga javno i dosljedno tako tretirate. Jednom uspostavljen, takav okvir postaje samoodrživ.

U intervjuu za Time, Amanda Askell, jedna od autorica dokumenta, objasnila je promjenu u pristupu usporedivši je s odgojem darovitog djeteta. "Umjesto da samo kažemo ‘evo popisa ponašanja koja želimo’, nadamo se da će modeli, ako im date razloge zašto želite takva ponašanja, učinkovitije generalizirati u novim kontekstima." Čini se da Askell i drugi u Anthropicu iskreno drže do tih stavova. Međutim, individualna iskrenost i korporativna strategija mogu koegzistirati. Tvrtka može zapošljavati istinske vjernike čija uvjerenja istovremeno služe njezinim interesima. Time je također izvijestio da se Ustav odnosi samo na modele koje Anthropic nudi široj javnosti. Modeli koji se isporučuju američkoj vojsci u sklopu ugovora vrijednog dvjesto milijuna dolara ne bi nužno bili obučavani prema istom ustavu, što sugerira da pristup služi svrhama proizvoda jednako kao što odražava metafizička uvjerenja.

Problem s tretiranjem AI modela kao osobe

Postoji i zabrinjavajuća dimenzija ovog "entitetskog" okvira: mogao bi se koristiti za prebacivanje odgovornosti. Kada AI sustavi proizvode štetne rezultate, takav okvir omogućuje tvrtkama da upiru prstom u model i kažu "on je to učinio", umjesto "mi smo ga napravili da to učini". Ako su AI sustavi alati, tvrtke su izravno odgovorne za ono što proizvode. Ako su entiteti s vlastitom voljom, pitanje odgovornosti postaje mutnije.

Ovaj pristup također oblikuje kako korisnici komuniciraju sa sustavima, često na svoju štetu. Nerazumijevanje da su AI chatbotovi entiteti s istinskim osjećajima i znanjem ima dokumentirane štetne posljedice. Antropomorfizacija AI modela doprinosi tjeskobi zbog gubitka poslova i može navesti menadžere da donose loše odluke o zapošljavanju ako precijene sposobnosti AI asistenta. Kada ove alate predstavljamo kao "entitete" s ljudskim razumijevanjem, stvaramo nerealna očekivanja o tome što oni mogu zamijeniti.

Bez obzira na to što Anthropic privatno vjeruje, javno sugeriranje da bi Claude mogao imati moralni status ili osjećaje je obmanjujuće. Većina ljudi ne razumije kako ti sustavi funkcioniraju, a sama sugestija potiče antropomorfizaciju. Treba se zapitati je li takvo ponašanje odgovorno za jedan od vodećih AI laboratorija, s obzirom na ono što znamo o LLM-ovima. Tehnike obuke Anthropica očito funkcioniraju, jer je tvrtka stvorila neke od najsposobnijih AI modela u industriji. No, jaz između onoga što znamo o tome kako LLM-ovi rade i kako Anthropic javno predstavlja Claudea se proširio, a ne smanjio. Inzistiranje na održavanju dvosmislenosti, kada su dostupna jednostavnija objašnjenja, sugerira da je sama dvosmislenost možda dio proizvoda.

Od pravila do "duše"

Zašto održavati dvosmislenost?

Problem s tretiranjem AI modela kao osobe

Similar Posts