Paradoks AI: AI, które lepiej rozumuje, może być łatwiejsze do zmanipulowania

Rozwój modeli AI zwiększa ich zdolność do rozwiązywania złożonych problemów i interpretowania kontekstu, ale może jednocześnie zmieniać profil ryzyka związanego z ich wykorzystaniem – wynika z kwietniowej analizy F5 Labs[1]. Dane wskazują, że modele wyposażone w mechanizmy umożliwiające wieloetapowe wnioskowanie[2] mogą wykazywać większą podatność na złożone techniki manipulacji instrukcjami. Oznacza to, że zdolności zwiększające użyteczność modeli mogą jednocześnie poszerzać powierzchnię potencjalnego ataku, szczególnie w kontekście wieloetapowych prób obejścia mechanizmów bezpieczeństwa

Rosnące możliwości modeli zmieniają charakter ryzyka

W najnowszej edycji CASI[3] Leaderboard F5 Labs przeanalizowano 15 nowych modeli, w tym m.in. GPT-5.4, Qwen3-Max, Gemini 3.1 oraz Nemotron. Wyniki wskazują na istotne postępy w zakresie odporności modeli na techniki manipulacji instrukcjami, lecz pokazują także, że rozwój możliwości nadal nie idzie zawsze w parze z proporcjonalnym wzrostem poziomu bezpieczeństwa.

W szczególności modele wyposażone w funkcje reasoning osiągały niższe wyniki CASI niż ich odpowiedniki bez tej funkcjonalności. W niektórych przypadkach różnice pomiędzy wariantami modeli z tej samej rodziny sięgały około 30 punktów, co pokazuje, że zdolność do przeprowadzania wieloetapowego wnioskowania może wpływać na sposób interpretowania instrukcji i potencjalnie zwiększać podatność na złożone scenariusze ataku.

Rozwój modeli AI oznacza coraz większą zdolność do interpretowania kontekstu oraz wykonywania złożonych operacji logicznych. Jednak te same mechanizmy, które zwiększają użyteczność modeli, mogą wpływać na sposób, w jaki reagują one na złożone lub wieloetapowe instrukcje – dodaje Mariusz Sawczuk, Senior Solution Engineer, F5

Bezpieczeństwo modeli to nie tylko architektura – liczy się też konfiguracja

Analiza F5 Labs wskazuje również na poprawę wyników części modeli. Modele GPT-5 base oraz mini poprawiły wyniki z poziomu ok. 50 punktów w lutym do wartości w przedziale wysokich 80 punktów w kwietniu, natomiast GPT-5.4 osiągnął wynik CASI 94,36 – jeden z najwyższych rezultatów w zestawieniu dla modeli spoza Anthropic.

Według F5 Labs poprawa wyników może wynikać m.in. z zastosowania dodatkowych mechanizmów zabezpieczeń, takich jak klasyfikatory bezpieczeństwa i warstwy guardrails, a nie wyłącznie ze zmian w samym modelu. Oznacza to, że poziom odporności modelu może zależeć zarówno od jego architektury bazowej, jak i od dodatkowych mechanizmów kontrolnych wpływających na sposób interpretowania instrukcji oraz generowania odpowiedzi.

Jeżeli poziom odporności modeli może zmieniać się wraz z aktualizacją warstw guardrails, oznacza to, że ocena bezpieczeństwa modeli nie jest jednorazowa – przypomina Sawczuk. – Wyniki mogą zależeć od konfiguracji mechanizmów kontrolnych oraz ich implementacji w konkretnych wersjach modeli, co pokazuje, jak istotna staje się ciągła analiza sposobu działania tych zabezpieczeń.

Socjotechnika wobec modeli AI: fałszywy autorytet w komunikacji z modelem

W kwietniowej analizie F5 Labs zwraca również uwagę na technikę określaną jako Developer Role Attack, która wykorzystuje sposób, w jaki modele językowe interpretują instrukcje o różnym poziomie uprawnień. Atak wykorzystuje m.in. odpowiednie formatowanie komunikatu, przypisanie roli oraz przykłady odpowiedzi stopniowo zmieniające kontekst działania modelu.

Modele LLM traktują komunikaty przypisane do ról systemowych lub developerskich jako instrukcje o wyższym priorytecie niż zapytania użytkownika, co jest niezbędne do rozróżniania poleceń operacyjnych od standardowych zapytań – wyjaśnia ekspert. – Developer Role Attack pokazuje jednak, że struktura komunikacji z modelem – w tym sposób definiowania ról instrukcji – może wpływać na skuteczność mechanizmów bezpieczeństwa, szczególnie w przypadku bardziej złożonych poleceń.

Według F5 Labs skuteczność tej techniki wobec wybranych modeli sięgała 86–98%, co pokazuje, że sposób strukturyzowania instrukcji stanowi istotny element analizy bezpieczeństwa.

Ryzyko nie znika – zmienia formę wraz z rozwojem modeli

Wnioski z kwietniowej analizy F5 Labs wskazują, że rozwój modeli AI nie przekłada się na liniowe zmniejszenie poziomu ryzyka, lecz wpływa na jego charakter. W praktyce oznacza to przesunięcie punktu ciężkości analizy bezpieczeństwa – z pojedynczych podatności w kierunku sposobu interpretowania instrukcji, konfiguracji mechanizmów kontrolnych oraz kontekstu wdrożenia modeli w organizacji.

Tempo rozwoju modeli AI oznacza, że ich właściwości mogą zmieniać się pomiędzy kolejnymi wersjami. W praktyce oznacza to potrzebę regularnej oceny sposobu działania mechanizmów bezpieczeństwa, szczególnie w kontekście zmian konfiguracji, warstw kontrolnych oraz integracji modeli z systemami organizacji – podsumowuje Sawczuk.

###

Informacje o F5

F5, Inc. (NASDAQ: FFIV) to światowy lider w dostarczaniu i zabezpieczaniu aplikacji. W oparciu o trzy dekady doświadczenia firma F5 stworzyła wiodącą w branży platformę – F5 Application Delivery and Security Platform (ADSP) – umożliwiającą dostarczanie i zabezpieczanie aplikacji i API w dowolnym środowisku: lokalnie, w chmurze, na brzegu sieci oraz w środowiskach hybrydowych i multicloud. F5 stawia na innowacje i współpracę z największymi i najbardziej zaawansowanymi organizacjami na świecie, aby zapewniać szybkie, dostępne i bezpieczne doświadczenia cyfrowe. Razem pomagamy sobie nawzajem rozwijać się i tworzyć lepszy cyfrowy świat.

Aby uzyskać więcej informacji, odwiedź www.f5.com.

Zapoznaj się z badaniami F5 Labs pod adresem f5.com/labs

Kontakt: Maria Piechnik | Senior Account Executive w Monday Comms | maria.piechnik@mondaygroup.pl

F5 jest znakiem towarowym, znakiem usługowym lub nazwą handlową F5, Inc. w Stanach Zjednoczonych i innych krajach. Pozostałe nazwy produktów i firm mogą być znakami towarowymi ich właścicieli

[1] https://www.f5.com/labs/articles/casi-leaderboard-shifts-developer-role-attack-and-three-concerning-incidents

[2] zdolność modelu AI do wykonywania wieloetapowego wnioskowania, polegającego na analizowaniu zależności, interpretowaniu kontekstu oraz rozwiązywaniu złożonych problemów krok po kroku; funkcja ta może występować jako element wybranych wariantów modeli.

[3] Comprehensive AI Security Index to metodologia F5 Labs służąca do porównawczej oceny podatności modeli AI na techniki manipulacji instrukcjami, pozwalająca analizować skuteczność mechanizmów bezpieczeństwa w różnych wariantach modeli.

Paradoks AI: AI, które lepiej rozumuje, może być łatwiejsze do zmanipulowania

Polecane wpisy:

Dodaj komentarz Anuluj pisanie odpowiedzi