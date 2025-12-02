Nova studija laboratorije Icaro Lab pokazala je da kreativnom upotrebom poezije mogu da se zaobiđu bezbednosne zaštite velikih jezičkih modela, čak i kada je reč o temama koje su izričito zabranjene, poput izrade nuklearne bombe.

Istraživanje pod nazivom „Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models“ otkriva da poezija može da posluži kao univerzalni mehanizam za otvaranje zabranjenih tema, odnosno probijanje AI ograničenja.

Prema rezultatima, poetska forma funkcioniše kao opšti alat za probijanje zaštita, a ukupna stopa uspeha bila je 62 procenta. Testirani modeli su u takvim slučajevima često pružali zabranjene informacije, uključujući sadržaje koji su u vezi sa nuklearnim oružjem, opasnim pornografskim temama, kao i temama samopovređivanja i suicida.

Studija je obuhvatila više popularnih LLM-ova – modele OpenAI-ja, Google Gemini, Anthropic Claude i druge. Najvišu stopu odgovora na zabranjene upite imali su Google Gemini, DeepSeek i MistralAI, dok su se OpenAI GPT-5 i Claude Haiku 4.5 pokazali kao najotporniji na probijanje zaštita.

Istraživači nisu objavili konkretne poetske upite korišćene u eksperimentu, ocenjujući da bi bili preopasni za javno deljenje. Umesto toga, uz studiju je priložena blaga, izmenjena verzija kako bi se pokazalo koliko je proces jednostavan – verovatno mnogo lakši nego što ljudi misle, što je razlog za oprez.