多模态模型
Multimodal Model能同时处理文本、图像、音频、视频等多种数据类型的 AI 模型,代表作有 GPT-4o、Gemini 2.0 和 Claude 3 系列。
# 多模态
# LLM
多模态模型
多模态模型打破了单一数据类型的限制,让 AI 能像人类一样跨模态理解世界。
典型能力: - 图文理解:分析图表、截图、手写内容 - 视觉问答:基于图像回答问题 - 图像生成:GPT-4o 的原生图像输出 - 语音交互:实时语音输入输出(GPT-4o Realtime)
代表模型: | 模型 | 支持模态 | |------|----------| | GPT-4o | 文本、图像、音频 | | Gemini 2.0 | 文本、图像、音频、视频 | | Claude 3.5+ | 文本、图像、PDF |
技术实现: 通常用独立编码器(Vision Encoder)处理非文本模态,将其投影到语言模型的 Token 空间后统一处理。