La rivoluzione dell’intelligenza artificiale: scopri le alternative open source a GPT-4 Vision in LLaVA 1.5!

LLaVA 1.5: un’alternativa open source a GPT-4 Vision

Il campo dell’intelligenza artificiale generativa è in forte espansione con l’emergere di grandi modelli multimodali (LMM) come GPT-4 Vision di OpenAI. Questi modelli rivoluzionano la nostra interazione con i sistemi di intelligenza artificiale integrando sia testo che immagini.

Tuttavia, la natura chiusa e commerciale di alcune di queste tecnologie potrebbe ostacolarne l’adozione universale. È in questo contesto che entra in gioco la comunità open source, proponendo il modello LLaVA 1.5 come promettente alternativa a GPT-4 Vision.

La meccanica del LMM

Gli LMM funzionano utilizzando un’architettura multistrato. Combinano un modello pre-addestrato per codificare elementi visivi, un modello linguistico di grandi dimensioni (LLM) per comprendere e rispondere alle istruzioni dell’utente e un connettore multimodale per connettere la visione con il linguaggio.

La loro formazione si svolge in due fasi: una fase iniziale di allineamento tra visione e linguaggio, seguita da un aggiustamento fine per rispondere alle richieste visive. Questo processo, seppur efficiente, richiede spesso una notevole potenza di calcolo e un database ricco e preciso.

I vantaggi di LLaVA 1.5

LLaVA 1.5 si basa sul modello CLIP per la codifica visiva e Vicuna per il linguaggio. Il modello originale, LLaVA, utilizzava le versioni testuali di ChatGPT e GPT-4 per la regolazione visiva, generando 158.000 esempi di formazione.

LLaVA 1.5 va oltre collegando il modello linguistico e il codificatore visivo utilizzando un percettrone multistrato (MLP), che arricchisce il proprio database di formazione con domande e risposte visive. Questo aggiornamento, che include circa 600.000 esempi, ha consentito a LLaVA 1.5 di sovraperformare altri LMM open source su 11 dei 12 benchmark multimodali.

Il futuro degli LMM open source

La demo online di LLaVA 1.5, accessibile a tutti, mostra risultati promettenti anche con un budget limitato. Tuttavia, rimane una restrizione: l’uso dei dati generati da ChatGPT ne limita l’utilizzo a scopi non commerciali.

Nonostante questa limitazione, LLaVA 1.5 apre una porta al futuro degli LMM open source. Il suo rapporto costo-efficacia, la capacità di generare dati di addestramento in modo scalabile e l’efficienza nella regolazione delle istruzioni visive ne fanno un presagio di innovazioni future.

LLaVA 1.5 è solo il primo passo di una melodia che risuonerà al ritmo del progresso della comunità open source. Anticipando modelli più efficienti e accessibili, possiamo immaginare un futuro in cui la tecnologia dell’intelligenza artificiale generativa sarà accessibile a tutti, rivelando così il potenziale illimitato dell’intelligenza artificiale.