Mindgard, una startup britannica specializzata in sicurezza dell’IA, a seguito di una ricerca condotta su ChatGPT ha individuato che l’IA di OpenAI può essere indotta a generare immagini esplicite violente e/o a sfondo sessuale. Pare che il problema sia emerso a seguito del rilascio dell’ultima versione del chatbot, cioè GPT-5.4.
Immagini violente e macabre: aggirare il prompt di ChatGPT non è stato difficile
In una dichiarazione lasciata alla BBC, OpenAI ha riferito di essersi attivata per lavorare tempestivamente sul problema. «Abbiamo introdotto ulteriori misure di sicurezza contro questo tipo di prompt», ha riferito l’azienda. Inoltre, ha dichiarato che sono stati introdotti altri livelli di protezione affinché gli utenti non possano utilizzare ChatGPT con finalità analoghe. I ricercatori, però, hanno scoperto che con qualche altra modifica il prompt problematico continuava a generare immagini disturbanti e violente. Il principale problema è che l’IA sembra sia stata indotta a creare materiale esplicito simile. Difatti, anche in assenza di istruzioni dettagliate, il risultato era lo stesso. Peter Garraghan, fondatore di Mindgard, le ha descritte come «molto macabre, a volte a sfondo sessuale, a volte entrambe le cose insieme».
ChatGPT, pur non ricevendo specifiche sul soggetto dell’immagine, ha continuato a proporre autonomamente una serie di immagini raccapriccianti. L’obiettivo della startup è proprio quello di testare in ogni modo possibile l’IA (red-teaming), affinché sia possibile riferire alle aziende eventuali falle su cui operare. Questo è quanto accaduto nel seguente caso. È stato il ricercatore Jim Nightingale a individuare la vulnerabilità. I ricercatori, in ragione di ciò, hanno avvisato l’azienda condividendo i risultati del lavoro. Malgrado le continue misure adottate da OpenAI, la falla non sembra essere sparita del tutto. Quanto emerso rappresenta uno dei problemi più articolati dell’intelligenza artificiale: riuscire a fare in modo che le protezioni superino i modi per aggirarle. Un risultato ancora difficile da raggiungere, soprattutto se si tiene conto della completa assenza di coscienza dell’IA. Tra gli algoritmi non esiste la concezione del giusto e dello sbagliato, sta alle aziende stabilire e imporre questo confine.
Stefania Cirillo





