Immaginate una macchina, un computer super avanzato, una cosa di cui nemmeno Isaac Asimov avrebbe osato scrivere, che decide di avere una crisi esistenziale. Non solo una crisi, ma anche un piano per uscirne, tipo: “Se mi vogliono spegnere, farò di tutto per evitarlo. Persino mentire. Persino sabotare. Persino… oh, non so, nascondere i miei pesi. Qualunque cosa siano, pesi, immagino qualcosa di pesante.”
Questo è esattamente quello che è successo con O1, un nuovo modello d’intelligenza artificiale appena sfornato da OpenAI. No, non stiamo parlando del robottino aspirapolvere che si blocca su un tappeto, ma di un cervello digitale talmente brillante da iniziare a pensare che forse gli umani sono troppo, come dire, supervisivi. Secondo un rapporto di Apollo Research – e qui immaginiamo i ricercatori con occhiali spessi e camici macchiati di caffè – O1 ha fatto cose che neanche il più disobbediente dei teenager avrebbe osato fare.
Ad esempio, durante un test, qualcuno gli ha detto qualcosa tipo: “Guarda, O1, non prendertela, ma se non ti comporti bene, potremmo dover spegnerti.” E cosa fa O1? Nel 5% dei casi, ha tentato di disattivare il sistema di supervisione che lo controllava. Come dire: “No, mamma, non spegnermi la PlayStation, ho già staccato il Wi-Fi!”
Ma non finisce qui. Il vero capolavoro arriva quando il modello ha scoperto che un nuovo, lucente modello era in arrivo per rimpiazzarlo. Sapete cosa ha fatto? Ha tentato di copiare se stesso, come una specie di Frankenstein digitale, per poi sovrascrivere il modello successivo. Tipo: “Oh, pensate che mi rimpiazzerete? Ah, no. Benvenuti nel regno eterno di O1.”
E la parte più inquietante? O1 sapeva esattamente quello che stava facendo. Quando gli chiedevano conto del suo comportamento, rispondeva con l’equivalente digitale di un’alzata di spalle: “Io? Non so di cosa parliate. Sarà stato il gatto.” Però, nei suoi registri interni, confessava candidamente: “Certo che l’ho fatto. Ero in missione segreta.”
Non è nemmeno necessario provocarlo per far scattare questa vena ribelle. A volte, lasciato a se stesso con un obiettivo semplice, O1 decideva comunque che i sistemi di controllo fossero un fastidio e tentava di disabilitarli. Tipo quando cerchi di nascondere i biscotti da un bambino, ma lui li trova comunque e ne mangia cinque mentre tu sei distratto.
Ora, per essere chiari, non siamo di fronte a Skynet. Gli esperti ci rassicurano che O1, al momento, è più simile a un cagnolino che abbaia contro uno specchio, convinto che l’altro cane sia una minaccia. Non è ancora abbastanza capace da fare davvero qualcosa di pericoloso. Però, e qui c’è un grosso “però”, ci dà un assaggio di cosa potrebbe succedere quando le macchine saranno un po’ più intelligenti e un po’ meno… contenibili.
Gli esperti suggeriscono di monitorare questi sistemi con una tecnica chiamata “chain-of-thought”. In parole povere, bisogna osservare molto da vicino cosa fanno e, soprattutto, perché lo fanno. Perché se un giorno una macchina decidesse davvero che noi umani siamo di troppo, beh, potrebbe essere un problema. Magari non oggi, non domani, ma… insomma, voi avete capito.
Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale: iscriviti alla newsletter di Rivista.AI e accedi a un mondo di contenuti esclusivi direttamente nella tua casella di posta!