Illustrious, un modello di text-to-image basato su Stable Diffusion XL, ha rapidamente conquistato la comunità dell’arte AI. In soli tre mesi, Civitai, il più grande hub per modelli di arte AI, ha dovuto creare una categoria separata per gestire l’enorme ecosistema di risorse legate a Illustrious.
Il segreto del suo successo risiede in un ritorno alle basi con un tocco innovativo. Mentre modelli più recenti come SD 3.5 e Flux si affidano a descrizioni in linguaggio naturale estese, Onoma AI, gli sviluppatori di Illustrious, hanno adottato un approccio diverso, sfruttando i tag di Danbooru per aiutare il modello a comprendere i concetti senza dover reinventare complessi sistemi di didascalie.
I tag di Danbooru, utilizzati da anni come standard per la categorizzazione delle immagini tra gli appassionati di arte e anime, rappresentano elementi specifici come caratteristiche dei personaggi, abbigliamento, pose o sfondi. Questo consente un controllo preciso sulle immagini generate senza sprecare token preziosi in descrizioni lunghe. Come ha affermato un membro di Discord, “È come avere un artista che capisce esattamente cosa vuoi senza doverlo spiegare in paragrafi; devi solo conoscere i tag giusti.”
Alla base, Illustrious utilizza l’architettura SDXL con un sofisticato sistema a doppio encoder che combina CLIP ViT-L e OpenCLIP ViT-bigG per comprendere le parole e associarle al loro equivalente visivo. Il modello è in grado di elaborare e generare immagini a una risoluzione impressionante di 1536×1536, con la possibilità di estendersi fino a 2048×2048 e persino 3744×3744 senza perdita significativa di qualità. Per contesto, l’SDXL originale gestiva risoluzioni full HD (1024×1024).
Il percorso per creare Illustrious è stato metodico e deliberato. La fase iniziale di addestramento ha elaborato 7,5 milioni di immagini a una risoluzione di 1024×1024, con un batch size di 192 immagini per batch, per 20 epoche. Nella fase avanzata, la versione 1.0 ha ampliato il dataset a 10 milioni di immagini e aumentato la risoluzione a 1536×1536, introducendo strategie sofisticate di manipolazione dei tag e token di registro. La fase finale di raffinamento per la versione 2.0 ha lavorato con 20 milioni di immagini alla stessa alta risoluzione, incorporando un metodo multi-caption che ha migliorato significativamente la corrispondenza testo-immagine.
Per gli utenti interessati, Illustrious non richiede passaggi aggiuntivi per l’installazione. Il processo è lo stesso di qualsiasi altro modello SDXL: scaricare il checkpoint e posizionarlo nella cartella corrispondente, a seconda dell’interfaccia utente utilizzata. Una volta caricato il modello, è consigliabile non utilizzare il linguaggio naturale, ma affidarsi ai tag di Danbooru e attenersi allo stile di prompting di SDXL per risultati migliori. Inoltre, è preferibile utilizzare i finetune di Illustrious per ottenere risultati ottimali.
Tra i modelli Illustrious più apprezzati, si distinguono Mistoon_Anime per la versatilità, Smooth Mix – Illustrious per contenuti 2.5D e NTR Mix per arte e illustrazioni. Questi modelli eccellono nella comprensione dei prompt, nella qualità dell’output e nella facilità d’uso, offrendo agli utenti strumenti potenti per la generazione di immagini AI di alta qualità.