Dopo il passo falso con Stable Diffusion 3 Medium, Stability AI torna in carreggiata con la versione 3.5, che introduce modelli personalizzabili, privi di censure, veloci e accessibili a tutti.
Stability AI sembra aver imboccato la strada della redenzione. Dopo la delusione della release di Stable Diffusion 3 Medium, l’azienda ha mantenuto la promessa fatta a luglio e ha rilasciato due nuovi modelli: Stable Diffusion 3.5 Large e Stable Diffusion 3.5 Large Turbo.
In un comunicato ufficiale, Stability AI ha spiegato:
“A giugno abbiamo rilasciato Stable Diffusion 3 Medium, la prima versione aperta della serie SD3. Questa versione, però, non ha soddisfatto pienamente i nostri standard né le aspettative della community. Abbiamo ascoltato i feedback e, invece di apportare una soluzione rapida, ci siamo presi il tempo necessario per sviluppare una versione che continui la nostra missione di trasformare i media visivi.”
I risultati di alcuni test effettuati con i nuovi modelli sono stati notevoli, soprattutto considerando che si tratta di una versione base. La famiglia SD 3.5 è stata progettata per funzionare anche su hardware di livello consumer, rendendo la generazione di immagini avanzate accessibile a un pubblico molto ampio.
Novità della licenza
Una delle principali novità di Stable Diffusion 3.5 riguarda il modello di licenza. La versione 3.5 è disponibile con una licenza più permissiva, che consente sia l’uso commerciale che non commerciale. Le piccole aziende o i privati con un fatturato inferiore a 1 milione di dollari possono utilizzare e sviluppare gratuitamente questi modelli. Per coloro che superano questo limite, è necessario negoziare con Stability AI per eventuali tariffe.
I nuovi modelli: Large, Turbo e Medium
Stability AI ha rilasciato tre versioni di Stable Diffusion 3.5 per rispondere a esigenze diverse:
- Stable Diffusion 3.5 Large: con 8 miliardi di parametri, è progettato per offrire immagini di qualità superiore e un’aderenza rapida ai prompt. Ottimizzato per usi professionali, gestisce facilmente diversi stili e formati visivi.
- Stable Diffusion 3.5 Large Turbo: una versione più veloce che sacrifica un po’ di qualità per una maggiore velocità, generando immagini in soli quattro passaggi rispetto ai 30 della versione normale.
- Stable Diffusion 3.5 Medium: in arrivo a breve, con 2,5 miliardi di parametri, è ottimizzato per hardware consumer e bilancia prestazioni e facilità di personalizzazione.
I modelli sono più flessibili, permettendo agli utenti di adattarli a specifiche esigenze creative. Durante i test, Large Turbo ha generato immagini in circa 40 secondi su una RTX 2060 con 6 GB di VRAM, mentre la versione full-fat richiede circa 3 minuti sullo stesso hardware.
Stability ha condiviso una guida LoRA per iniziare rapidamente. LoRA è una tecnica che permette di perfezionare modelli per specializzarli in uno stile o argomento specifico, senza riaddestrare l’intero modello.
Miglioramenti tecnici
Stability AI ha migliorato la personalizzazione dei modelli con una nuova architettura che semplifica il processo di ottimizzazione. Inoltre, la versione 3.5 supporta richieste negative, permettendo agli utenti di specificare cosa escludere nelle immagini generate. Questo fornisce un controllo maggiore sulla creazione, avvicinando il sistema a uno stile di prompting più simile a quello di MidJourney.
Aderenza e qualità dell’immagine
Il modello Large si distingue per la sua capacità di seguire rapidamente i prompt e la qualità delle immagini è competitiva rispetto ai modelli più avanzati sul mercato, come Flux. Anche la versatilità stilistica è notevole: il modello gestisce bene vari stili, dai rendering 3D alle immagini fotorealistiche.
Contenuti senza censure
Una delle caratteristiche distintive di Stable Diffusion 3.5 è la mancanza di censura, rendendolo adatto anche alla generazione di contenuti più controversi, come la nudità, sebbene la qualità in questi casi non sia ancora all’altezza di alcuni modelli personalizzati di Flux.
Prossimi sviluppi
Il 29 ottobre verrà rilasciata la versione Stable Diffusion 3.5 Medium, seguita dai ControlNets, che offriranno funzionalità avanzate di controllo per usi professionali. Questi strumenti permetteranno di regolare aspetti come la posa del soggetto o le mappe di profondità.
Nonostante la potenza di SD3.5, gli artisti NSFW Furry non dovrebbero aspettarsi un Pony Diffusion Model presto, o mai. Il creatore del modello NSFW più potente ha confermato di non voler sviluppare una versione precisa di SD3.5. Invece, stanno costruendo i loro modelli usando Auraflow come base. Una volta completati, potrebbero considerare Flux.
Sebbene non possa ancora essere definito un “Flux killer”, Stable Diffusion 3.5 rappresenta un significativo passo avanti per Stability AI, che sta correggendo gli errori del passato e rendendo i suoi strumenti sempre più accessibili.