Oltre ai nuovi modelli Gemma 3 e a Gemini Robotics, Google ha annunciato la disponibilità per tutti gli sviluppatori della native image output, funzionalità multi-modale di Gemini che permette all’assistente di modificare immagini caricate dall’utente in base alle indicazioni fornite, di generare immagini con testo e molto altro.
Si tratta di una funzionalità, annunciata con Gemini 2.0 Flash lo scorso dicembre e inizialmente disponibile per un ristretto numero di tester “fidati”, che migliora il processo di creazione dell’assistente, sempre più multi-modale e in grado di accettare vari input per generare output simili.
Gemini 2.0 Flash: una potenzialità multi-modale è disponibile per tutti gli sviluppatori
Come suggerito da Google, il modello Gemini 2.0 Flash combina input multi-modali (testo e immagini), ragionamento avanzato e comprensione del linguaggio naturale per creare immagini che rispecchiano la richiesta effettiva dell’utente.
A partire da oggi, tutti gli sviluppatori delle regioni supportate (tra le quali figura l’Italia) possono sperimentare su Google AI Studio una delle novità annunciate lo scorso dicembre dal colosso di Mountain View: si tratta del native image output (lett. “output di immagini native).
Questa novità, che permette di creare contenuti visivi più ricchi e complessi, è disponibile grazie a una versione sperimentale del modello (gemini-2.0-flash-exp) di intelligenza artificiale e rende il modello in grado, tra le altre cose, di comprendere e modificare le immagini fornite dall’utente. Ecco alcuni esempi di cosa permetta di fare questa novità.
- Generazione di testo e immagini insieme (il modello è in grado di raccontare una storia con annesse immagini, mantenendo coerenza per quanto concerne ambientazioni e personaggi).
- Modifica di immagini fornite dall’utente (il modello è in grado di aggiungere o rimuovere elementi da una immagine in base ai suggerimenti forniti dall’utente).
- Comprensione del mondo (grazie a ragionamento avanzato e conoscenze intrinseche del mondo, il modello sarà in grado di creare un’immagine corretta e dettagliata in base al contesto fornito).
- Rendering del testo all’interno di immagini (a differenza di altri modelli che generano immagini, Gemini 2.0 Flash è in grado di inserire all’interno delle immagini lunghe sequenze di testo con un tasso di accuratezza molto più alto).
Che tu stia creando agenti AI, sviluppando app con elementi visivi accattivanti come storie interattive illustrate o facendo brainstorming di idee visive in conversazione, Gemini 2.0 Flash ti consente di aggiungere testo e generazione di immagini con un solo modello. Siamo impazienti di vedere cosa creano gli sviluppatori con l’output di immagini native e il tuo feedback ci aiuterà a finalizzare presto una versione pronta per la produzione.
Per maggiori dettagli, vi rimandiamo al post dedicato che Google ha pubblicato sul blog per gli sviluppatori e alla documentazione relativa alla generazione di immagini.
Vedi Post Originale: https://www.tuttoandroid.net/news/2025/03/12/gemini-2-0-flash-output-immagini-native-disponibile-sviluppatori-google-ai-studio-1084171/
0 Comments