CUA: Revolucija u interakciji s računalnim sučeljima
CUA, model razvijen od strane OpenAI, predstavlja revolucionaran pristup u načinu na koji se umjetna inteligencija može koristiti za obavljanje zadataka na internetu. Inspiriran konceptima poput Antropijevog računala i Mariner Google DeepMind, CUA koristi snimke zaslona kako bi analizirao i razumio grafička korisnička sučelja (GUI). Ovaj model ne samo da skenira piksele, već poduzima radnje koje bi korisnici inače izvodili, poput ispunjavanja obrazaca ili navigacije kroz jelovnike.
Kako CUA funkcionira?
Djelovanje CUA temelji se na potpunoj interakciji s korisničkim sučeljima koja su familiarna ljudima. Umjetna inteligencija snima ekran, identificira elemente poput tipki, padajućih izbornika i tekstualnih okvira, a zatim donosi odluke na temelju dostupnih informacija. Postupak je iterativan: model poduzima radnje, skenira ekran za promjene, a zatim ponovno analizira situaciju i poduzima dodatne korake. Ova dinamika omogućuje mu izvršavanje raznovrsnih zadataka na web stranicama, od jednostavnih interakcija do složenijih operacija.
Nova vrata za softverske aplikacije
Prema Reiichiru Nakanu, znanstveniku iz OpenAI-a, tradicionalni modeli su se oslanjali na specijalizirane API-je, što je često lišavalo mnoge web stranice pristupa umjetnoj inteligenciji. CUA mijenja to pravilo. "Kada model može koristiti isto sučelje koje koriste ljudi, otvaraju se potpuno novi horizonti i mogućnosti," objašnjava Nakano. Ovo omogućuje pristup raznim aplikacijama i web stranicama koje su prije bile izvan dosega AI-a.
Rješavanje problema korak po korak
Jedna od ključnih prednosti CUA je sposobnost razbijanja složenih zadataka na manje, lakše upravljive korake. Ako se sustav suoči s poteškoćama, vratio bi se unatrag i pokušao pronaći drugo rješenje. OpenAI je koristio tehnike slične onima koje se primjenjuju na modele rasuđivanja O1 i O3, čime je modelu omogućio da učinkovitije rješava probleme.
Usporedba s drugim modelima
OpenAI je testirao performanse CUA na raznim industrijskim referentnim točkama koje procjenjuju sposobnost agenta za izvršavanje zadataka. Rezultati su impresivni. Na primjer, u testu Osworld, CUA je ostvarila 38,1% uspješnosti u zadacima kao što su spajanje PDF datoteka, dok je tradicionalno korištenje računala postiglo samo 22,0%. U testu Webvoyager, koji se usredotočuje na operacije unutar preglednika, CUA je ostvarila 87%, dok je njen najveći konkurent, Mariner, ostvario 83,5%.
Budućnost CUA i širi pristup razvoju
Iako trenutno CUA može funkcionirati samo unutar preglednika, OpenAI planira proširiti njegove mogućnosti. U budućnosti bi CUA mogla postati dostupna putem API-ja, što bi omogućilo drugim programerima da integriraju ovaj moćni alat u vlastite aplikacije. Time bi se otvorila vrata za nove inovacije i primjene u raznim industrijama.
Sigurnosni aspekti
OpenAI je također poduzeo mjere kako bi osigurao da CUA radi unutar sigurnosnih okvira. Uz pomoć ‘crvenih timova’, model je testiran na potencijalna zlonamerna ponašanja. "Obučili smo model da se zaustavi i zatraži dodatne informacije kada korisnici traže zadatke koji su neprihvatljivi," napominje Casey Chu, istraživač unutar tima.
Kako koristiti CUA
Korištenje CUA je jednostavno: korisnici unose svoje upute u tekstni okvir, a umjesto da šalje komande lokalnom pregledniku, CUA ih šalje na daljinski preglednik na OpenAI serveru. Ovaj pristup osigurava veću učinkovitost i brzinu, čime se dodatno razlikuje od sličnih modela kao što su Mariner i tradicionalna računala koja rade unutar lokalnog okruženja.
S CUA, OpenAI otvara nove horizonte u interakciji s tehnologijom, a uz uzbudljive razvojne mogućnosti koje dolaze, svijet digitalne produktivnosti nikada neće biti isti.