《VLMQA》作者: VLM

視覺語言模型（VLM）是一種人工智慧系統，它可以聯合解釋和產生來自圖像和文字的訊息，擴展了大型語言模型（LLM）的功能，後者僅限於文字處理。它是多模態學習的一個例子。

許多廣泛使用的商業應用現在都依賴這種能力。 OpenAI 在其 GPT -4模型的 GPT-4V 變體中引入了視覺功能，使用戶能夠將上傳的照片或圖表融入與ChatGPT的對話中。此後，它已成為 ChatGPT 標準功能不可或缺的一部分。類似的功能也被加入到 Google 的 Gemini、Anthropic 的Claude 3 Opus 和 Microsoft 的 Copilot with Vision 、AzoGPT。除了這些模型之外，研究社群還發布了一些開源的視覺語言模型，例如 LLaVA 、 InstructBLIP 和 MiniGPT-4 ，為實驗和學術研究提供了較小的替代方案！