YYMuse

多模态模型

多模态模型打破了单一数据类型的限制，让 AI 能像人类一样跨模态理解世界。

典型能力： - 图文理解：分析图表、截图、手写内容 - 视觉问答：基于图像回答问题 - 图像生成：GPT-4o 的原生图像输出 - 语音交互：实时语音输入输出（GPT-4o Realtime）

代表模型： | 模型 | 支持模态 | |------|----------| | GPT-4o | 文本、图像、音频 | | Gemini 2.0 | 文本、图像、音频、视频 | | Claude 3.5+ | 文本、图像、PDF |

技术实现： 通常用独立编码器（Vision Encoder）处理非文本模态，将其投影到语言模型的 Token 空间后统一处理。