YYMuse

多模态模型

Multimodal Model
大语言模型

能同时处理文本、图像、音频、视频等多种数据类型的 AI 模型,代表作有 GPT-4o、Gemini 2.0 和 Claude 3 系列。

# 多模态 # LLM

多模态模型

多模态模型打破了单一数据类型的限制,让 AI 能像人类一样跨模态理解世界。

典型能力: - 图文理解:分析图表、截图、手写内容 - 视觉问答:基于图像回答问题 - 图像生成:GPT-4o 的原生图像输出 - 语音交互:实时语音输入输出(GPT-4o Realtime)

代表模型: | 模型 | 支持模态 | |------|----------| | GPT-4o | 文本、图像、音频 | | Gemini 2.0 | 文本、图像、音频、视频 | | Claude 3.5+ | 文本、图像、PDF |

技术实现: 通常用独立编码器(Vision Encoder)处理非文本模态,将其投影到语言模型的 Token 空间后统一处理。

← 返回词汇列表