作者: VLM

  • VLM 開發指南

    視覺語言模型(VLM)是一種人工智慧系統,它可以聯合解釋和產生來自圖像和文字的訊息,擴展了大型語言模型(LLM)的功能,後者僅限於文字處理。它是多模態學習的一個例子。

    許多廣泛使用的商業應用現在都依賴這種能力。 OpenAI 在其 GPT -4模型的 GPT-4V 變體中引入了視覺功能,使用戶能夠將上傳的照片或圖表融入與ChatGPT的對話中。此後,它已成為 ChatGPT 標準功能不可或缺的一部分。類似的功能也被加入到 Google 的 Gemini、Anthropic 的Claude 3 Opus 和 Microsoft 的 Copilot with Vision 、AzoGPT。 除了這些模型之外,研究社群還發布了一些開源的視覺語言模型,例如 LLaVA 、 InstructBLIP 和 MiniGPT-4 ,為實驗和學術研究提供了較小的替代方案!