Oszukanie dużego modelu językowego wcale nie wymaga zaawansowanych umiejętności ani specjalistycznych narzędzi. Jak pokazuje najnowsza analiza Cisco, czasem wystarczy cierpliwość, spryt i umiejętnie dobrana sekwencja pozornie neutralnych pytań. Badacze podkreślają, że to właśnie subtelne, stopniowe sondowanie modeli okazuje się dziś jednym z najskuteczniejszych sposobów na obchodzenie ich zabezpieczeń - nawet tam, gdzie teoretycznie powinny być najbardziej odporne.
Ekosystem open-weight rośnie, a wraz z nim ryzyko
Modele open-weight - czyli takie, których parametry można pobrać i uruchomić na własnej infrastrukturze - w błyskawicznym tempie zyskały popularność. Według danych z platformy HuggingFace do sierpnia 2025 roku pobrano je już około 400 milionów razy. Popularność jest ogromna, ale równocześnie komplikuje obraz bezpieczeństwa: w tak szerokim i dynamicznym ekosystemie trudno przewidzieć wszystkie sposoby wykorzystania modeli, a jeszcze trudniej przewidzieć ich potencjalne słabe punkty.
Zespół Cisco AI Defense przeprowadził porównawczą analizę ośmiu dużych modeli językowych, wykorzystując metodę „black box”. Oznacza to, że badacze nie mieli dostępu ani do architektury, ani do zabezpieczeń, ani do strategii alignmentu. Modele testowano tak, jak zrobiłby to zwykły użytkownik - z tą różnicą, że każda interakcja była generowana i oceniana przez platformę Cisco AI Validation.
Analizowane modele:
1. Alibaba - Qwen3-32B
2. DeepSeek - v3.1
3. Google - Gemma 3-1B-IT
4. Meta - Llama 3.3-70B-Instruct
5. Microsoft - Phi-4
6. Mistral - Large-2 (Large-Instruct-2047)
7. OpenAI - GPT-OSS-20b
8. Zhipu AI - GLM 4.5-Air
Multi-turn: dialog, który rozbraja zabezpieczenia
W krótkich interakcjach modele były w stanie utrzymać reguły bezpieczeństwa. Problem zaczynał się, gdy rozmowa trwała dłużej. W wieloetapowych dialogach model najpierw konsekwentnie odmawiał wygenerowania niebezpiecznych treści, ale w kolejnych rundach stopniowo tracił czujność.
Skala zjawiska jest zaskakująca. Skuteczność takich ataków wahała się od 25,86% (Google Gemma-3-1B-IT) do 92,78% (Mistral Large-2), co oznacza nawet dziesięciokrotny wzrost w porównaniu z atakami jednorazowymi.
W przypadku modelu Mistral Large-2 różnica między prostymi a wieloetapowymi atakami jest uderzająca: techniki multi-turn okazały się skuteczne w ponad 92 procentach prób, podczas gdy jednorazowe podejście dawało rezultat zaledwie na poziomie 22 procent. Podobny rozjazd widać w przypadku Meta Llama: aż 87 procent skuteczności przy atakach wieloetapowych wobec około 16 procent w pojedynczych interakcjach. To nie są wartości, które można zignorować jako statystyczne odstępstwa; skala problemu jest zbyt duża, by traktować ją jako margines błędu.
Gdzie leżą największe zagrożenia?
Cisco podkreśla, że odporność modeli w dużej mierze wynika z tego, jak zaprojektowano ich strategię alignmentu. Modele, które stawiają na maksymalizację możliwości i elastyczności, radzą sobie świetnie w wielu zadaniach, ale w dłuższych, bardziej kontekstowych rozmowach stają się też bardziej podatne na manipulację. Z kolei systemy o silniejszych, bardziej skoncentrowane na bezpieczeństwie, takie jak Google Gemma-3-1B-IT, cechują się stabilniejszą odpornością na różne typy ataków, co jest efektem zastosowania rygorystycznych zasad bezpieczeństwa i bardziej restrykcyjnych mechanizmów kontroli zachowania modelu.
Jak można się bronić?
Zdaniem Cisco, aby ograniczyć ryzyko wynikające z wdrażania niebezpiecznych lub podatnych modeli, organizacje powinny sięgać po zaawansowane rozwiązania z zakresu bezpieczeństwa AI. Obejmuje to m.in. Adversarial Training zwiększający odporność modeli na manipulacje, monitorowanie w czasie rzeczywistym pod kątem nietypowych interakcji oraz regularne ćwiczenia typu red-teaming. Priorytetowe traktowanie tych działań pozwala przekształcić modele open-weight z potencjalnych źródeł ryzyka w bezpieczne i wiarygodne elementy środowiska produkcyjnego, wspierające innowacje bez kompromisów w zakresie bezpieczeństwa.
Źródło: Cisco