人工知能革命: LLaVA 1.5 で GPT-4 Vision に代わるオープンソースを発見してください!

LLaVA 1.5: GPT-4 Vision に代わるオープンソース

生成人工知能の分野は、OpenAI の GPT-4 Vision などの大規模マルチモーダルモデル (LMM) の出現により急成長しています。これらのモデルは、テキストと画像の両方を統合することにより、AI システムとの対話に革命をもたらします。

ただし、これらのテクノロジーの一部は閉鎖的かつ商業的な性質を持っているため、一般的な採用が妨げられる可能性があります。このような状況でオープンソースコミュニティが登場し、GPT-4 Vision の有望な代替案として LLaVA 1.5 モデルを推進しています。

LMM の仕組み

LMM は、多層アーキテクチャを使用して動作します。これらは、視覚要素をエンコードするための事前トレーニング済みモデル、ユーザーの指示を理解して応答するための大規模言語モデル (LLM)、および視覚と言語を接続するためのマルチモーダルコネクタを組み合わせています。

彼らの訓練は 2 つの段階で行われます。視覚と言語の調整の初期段階と、その後の視覚的な要求に応えるための微調整です。このプロセスは効率的ではありますが、多くの場合、かなりのコンピューティング能力と豊富で正確なデータベースを必要とします。

LLaVA 1.5の利点

LLaVA 1.5 は、ビジュアルエンコーディングには CLIP モデル、言語には Vicuna に依存しています。元のモデル LLaVA は、視覚的な調整に ChatGPT および GPT-4 のテキストバージョンを使用し、158,000 のトレーニングサンプルを生成しました。

LLaVA 1.5 は、多層パーセプトロン (MLP) を使用して言語モデルとビジュアルエンコーダーを接続することでさらに進化し、ビジュアル Q&A でトレーニングデータベースを強化します。約 600,000 のサンプルを含むこのアップデートにより、LLaVA 1.5 は 12 のマルチモーダルベンチマークのうち 11 で他のオープンソース LMM を上回るパフォーマンスを発揮できるようになりました。

オープンソース LMM の将来

LLaVA 1.5 のオンラインデモは誰でもアクセスでき、限られた予算でも有望な結果を示しています。ただし、ChatGPT によって生成されたデータの使用は非営利目的に制限されるという制限が 1 つ残っています。

この制限にもかかわらず、LLaVA 1.5 はオープンソース LMM の未来への扉を開きます。その費用対効果、スケーラブルな方法でトレーニングデータを生成する機能、および視覚的な指示を調整する効率により、将来のイノベーションの予兆となります。

LLaVA 1.5 は、オープンソースコミュニティの進歩に共鳴するメロディーの最初のステップにすぎません。より効率的でアクセスしやすいモデルを期待することで、生成 AI テクノロジーが誰もがアクセスできるようになり、人工知能の無限の可能性が明らかになる未来を思い描くことができます。