U svijetu umjetne inteligencije, model DeepSeek postavlja nove standarde u pristupu obrazloženju. Ovaj model nije samo rezultat tehnološke inovacije, već i izvor inspiracije za mnoge druge tvrtke koje sada razmišljaju o razvijanju vlastitih sličnih, jeftinijih modela obrazloženja. Kako se tehnologija razvija, tako i troškovi potrošnje energije postaju sve važnija tema među stručnjacima i korisnicima, a izgledi za budućnost potrošnje energije u AI sektoru nisu naročito optimistični; čak i pogledi na te aspekte postaju “već gledajući” manje ružičasti.
Životni ciklus bilo kojeg AI modela sastoji se od dviju ključnih faza: obuke i zaključivanja. Faza obuke često traje i do nekoliko mjeseci, tijekom kojih model uči iz raznih podataka. Kada se faza obuke završi, model je spreman za zaključivanje, što se događa svaki put kada ga netko upita. Obje faze obično se odvijaju u podatkovnim centrima, gdje se troše ogromne količine energije za napajanje procesora i hlađenje poslužitelja, što dovodi do značajnog ekološkog otiska.
U fazi obuke za svoj model R1, tim DeepSeeka primijenio je tehniku poznatu kao “mješavina stručnjaka”. Ova tehnika omogućava uključivanje samo određenog dijela milijardi parametara modela – “gumbova” koji modelu pomažu u formiranju boljih odgovora – tijekom određenog vremenskog razdoblja. Kako bi dodatno unaprijedili proces, tim je poboljšao i učenje pojačanja, gdje se rezultati modela analiziraju i unapređuju. Dok je tradicionalno recenziranje obavljao ljudski osoblje, DeepSeek je uspješno usvojio automatizaciju ovog procesa.
Iako se čini da bi optimizacija obuke mogla omogućiti tvrtkama da troše manje energije u fazi obuke, stvarnost je često drugačija. “Budući da je vrijednost inteligentnijeg sustava tako visoka”, primijetio je Dario Amodei, suosnivač kompanije Anthropic, “tvrtke troše više, a ne manje, na obuku svojih modela.” Ova pojava, poznata kao Jevonsov paradoks, pokazuje da čak i sa smanjenim troškovima obuke, tvrtke će biti sklone investirati više u razvoj inteligentnijih modela, što na kraju rezultira većom potrošnjom energije.
Kada govorimo o energiji potrebnoj za zaključivanje, situacija postaje još zanimljivija. DeepSeek je posebno dizajniran kako bi ispunio zahtjeve racionalnog rasuđivanja, što znači da se ističe u zadacima poput logike, prepoznavanja obrazaca i rješavanja matematičkih problema – aspektima koje generativni AI modeli često ne mogu učinkovito riješiti. Modeli kao što je DeepSeek koriste tehniku poznatu kao “lanac misli”, koja omogućuje AI modelu da koncept razloži na manje dijelove i prolazi kroz njih logičkim redoslijedom.
Uz pomoć DeepSeeka, primjerice, pitajući ga je li u redu lagati kako bi se zaštitili nečiji osjećaji, model najprije razmatra utilitaristički pristup, analizirajući neposredne koristi u odnosu na potencijalne buduće štete. Nakon toga, uključuje kantovsku etiku, koja naglašava djelovanje prema maksima koje bi mogle postati univerzalni zakoni. Razmatrajući sve te aspekte, model nudi odgovor koji je nijansiran i promišljen. Ovdje dolazi do zanimljivog uvida: DeepSeek zaključuje da je laganje “općenito prihvatljivo u situacijama kada su ljubaznost i sprječavanje štete ključni”, naglašavajući potrebu za obazrivošću bez pružanja jedinstvenog rješenja.