Multimodal Large Language Models Overview2024年10月24日 · 閱讀時間約 8 分鐘Chia-Wei WuAI Researcher @ Stima Research本文概述多模態大型語言模型(MLLM)的主要架構、訓練策略與數據處理方法。 MLLM主要架構 預訓練的模態編碼器(似:人類的眼睛和耳朵) 目的:運用已經與其他模態對齊的預訓練編碼器,將原始訊息(如:圖像或音訊)壓縮成更緊湊的表示形式,如:CLIP。