La crescente diffusione di modelli di intelligenza artificiale (IA) come quelli sviluppati da OpenAI ha reso necessario l’impiego di sofisticati sistemi di moderazione per garantire un uso responsabile e sicuro di queste tecnologie. OpenAI ha implementato un modello di moderazione che categorizza i contenuti potenzialmente dannosi o inappropriati in diverse categorie, con l’obiettivo di identificare e prevenire violazioni delle proprie policy d’uso. Questo articolo fornisce una panoramica scientifica delle categorie di moderazione impiegate da OpenAI, analizzando la loro funzione, efficacia e limitazioni.