We value your privacy

We use cookies to enhance your browsing experience, serve personalised ads or content, and analyse our traffic. By clicking "Accept All", you consent to our use of cookies.

Customise Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorised as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyse the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customised advertisements based on the pages you visited previously and to analyse the effectiveness of the ad campaigns.

No cookies to display.

BEATMAG.TV
  • NASLOVNA
  • NEWS
  • MUSIC
  • GAMING
  • TECH
  • LIFESTYLE
  • VIDEOS
Reading: Antropic uvodi novu metodu zaštite velikih jezičnih modela od zatvorenih sustava
Share
Search
BEATMAG.TVBEATMAG.TV
Font ResizerAa
  • NASLOVNA
  • NEWS
  • MUSIC
  • GAMING
  • TECH
  • LIFESTYLE
  • VIDEOS
TECH

Antropic uvodi novu metodu zaštite velikih jezičnih modela od zatvorenih sustava

Written by: BEATMAG
Last updated: 05/02/2025
Share
Antropic uvodi novu metodu zaštite velikih jezičnih modela od zatvorenih sustava

Razumijevanje Jailbreakova u Jezičnim Modelima

U svijetu umjetne inteligencije, posebno među velikim jezičnim modelima (LLM-ovima), postoji stalna borba između dizajnera i korisnika. Većina velikih jezičnih modela, uključujući Claude od Anthropic-a, programirana je da odbija odgovore na pitanja o osjetljivim temama. Na primjer, Claude će automatski odbiti bilo kakvo pitanje koje se odnosi na kemijsko oružje, a Deepseekov R1 se drži podalje od rasprava o kineskoj politici. Međutim, rasprave oko ovih ograničenja otvaraju zanimljivu temu o “jailbreakovima” – metodama koje korisnici koriste kako bi zaobišli sigurnosne mjere ovih modela.

Što su Jailbreakovi?

Jailbreakovi se obično definiraju kao tehnike koje omogućuju korisnicima da prisile LLM-ove da prekrše svoja ugrađena pravila. Mnoge od tih strategija uključuju manipuliranje upitima kroz kreativne pristupe, kao što su igranje uloga ili korištenje neuobičajenog formatiranja, poput zamjene slova s brojevima ili korištenje nestandardne kapitalizacije. Ove tehnike imaju za cilj potaknuti model na davanje neočekivanih ili zabranjenih odgovora, čime se uklanjaju njegovih inherentnih barijera.

Protivnički Napadi i Njihove Posljedice

Fenomen jailbreakova može se smatrati oblikom protivničkog napada. U ovom slučaju, korisnik koristi strategije koje su namijenjene zavaravanju modela, s ciljem da postigne izlaz koji bi inače bio blokiran. Ova ranjivost neuronskih mreža proučavana je već više od desetljeća, uz rane radove koje je sve to 2013. opisao Ilya Sutskever, jedan od glavnih znanstvenika OpenAI-a. Iako su istraživanja napredovala, izgradnja otpornog modela koji nije ranjiv na jailbreakove ostaje izazov.

Anthropicov Pristup Rješavanju Jailbreakova

Umjesto da pokušavaju potpuno eliminirati jailbreakove, Anthropic je razvila sofisticiranije barijere koje smanjuju sposobnost modela da odgovori na tako manipulirane upite. Društvo vjeruje da bi LLM-ovi mogli postati potencijalni alati za pojedince s osnovnim tehničkim vještinama da proizvedu opasne tehnologije poput kemijskog, biološkog ili nuklearnog oružja. Zbog toga su im se ovi modeli često nalazili pod intelektualnom pažnjom i razmatranjem sigurnosti.

Razvijanje Univerzalnih Jailbreakova

Jedna od ključnih briga Anthropica su univerzalni jailbreakovi, kojima se može prisiliti LLM na prekršaj njegovih sigurnosnih mjera. Takvi pažljivo osmišljeni upiti mogu potpuno onemogućiti obranu modela. Primjer takvog jailbreaka poznat je kao “Učinite bilo što sada”, gdje korisnici uspijevaju prisiliti model na ponašanje koje se neće uklopiti u predviđena pravila. Prema riječima Mrininka Sharme, vođe tima Anthropica, postoje različiti razmjeri jailbreakova, od onih koji dovode do benignih rezultata, poput neprimjerenih izjava, do onih koji mogu potpuno deaktivirati sigurnosne mehanizme.

Pitanja i Odbijanje Odgovora

Anthropic aktivno održava popis tipova pitanja koja bi njihovi modeli trebali odbaciti. Kako bi izgradili svoj zaštitni mehanizam, tvrtka je započela proces stvaranja sintetičkih pitanja i odgovora za jačanje svojih modela. U ovom procesu, model je zadužen za generiranje primjera pitanja koja su prihvatljiva, poput onih o senfu, nasuprot pitanjima koja se smatraju neprihvatljivima, poput onih o osjetljivijim temama.

Share This Article
Facebook Email Print
Previous Article Alzheimerova udruga: Zdrav život za vaš mozak i tijelo – srijeda, 5. veljače 2025., od 11 do 12:30 sati Alzheimerova udruga: Zdrav život za vaš mozak i tijelo – srijeda, 5. veljače 2025., od 11 do 12:30 sati
Next Article Najbolji graditelj PC gamera iz 2024. godine prodao je više od 2,5 milijuna primjeraka, no evo velike vijesti: sada ima mostove! Najbolji graditelj PC gamera iz 2024. godine prodao je više od 2,5 milijuna primjeraka, no evo velike vijesti: sada ima mostove!
Leave a Comment

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Recent Posts

  • Roddy Lima – Night Time (Extended Mix)
  • Felix Cartal – Mouth of Madness (feat. Ofelia K)
  • Swiggy lansira novu kategoriju hrane bogate proteinima za poticanje zdravog načina prehrane
  • Ade 2025 otkriva prvi val umjetnika s više od 250 imena
  • Uzgajati vrt je dobio novo ažuriranje, ali ovaj put ostavljamo dinosauruse zbog nečeg sporijeg.

Recent Comments

No comments to show.

You Might Also Like

Tehnološki putevi koji vode do gorivnih ćelija
TECH

Tehnološki putevi koji vode do gorivnih ćelija

Inovacije u Pomorskom Transportu: Održivi Razvoj kroz Gorive Ćelije…

Writen by BEATMAG
31/01/2025
Kontroverzni Spot postavlja pitanje: Treba li NFL koristiti tehnologiju čipova?
TECH

Kontroverzni Spot postavlja pitanje: Treba li NFL koristiti tehnologiju čipova?

NFL Doigravanje: Uloga Technology i Kontroverza Oko Četvrtog Pada…

Writen by BEATMAG
29/01/2025
Serendipitozno otkriće tijekom istraživanja poluvodiča dovodi do probojne tehnologije baterija i patenta
TECH

Serendipitozno otkriće tijekom istraživanja poluvodiča dovodi do probojne tehnologije baterija i patenta

Inovativno otkriće za cinkove baterije na Politehnici Purdue Na…

Writen by BEATMAG
20/06/2025
Savezni imigracijski agenti imaju pristup naprednoj tehnologiji.
TECH

Savezni imigracijski agenti imaju pristup naprednoj tehnologiji.

Tehnologija i masovne deportacije: Trumpova strategija Uvod u tehnologiju…

Writen by BEATMAG
02/02/2025
BEATMAG.TV
  • Impressum
  • About
  • Join Us
  • Privacy Policy
  • Terms and Conditions
  • Marketing i oglašavanje
Reading: Antropic uvodi novu metodu zaštite velikih jezičnih modela od zatvorenih sustava
Share
Join Us!
Subscribe to our newsletter and never miss our latest news, podcasts etc..

Zero spam, Unsubscribe at any time.
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?