计算机视觉
Computer Vision使计算机理解和分析图像、视频的 AI 技术,涵盖目标检测、图像分类、语义分割等任务,现已深度融合进多模态 LLM。
# 图像
# 多模态
计算机视觉
核心任务:
| 任务 | 说明 | 代表模型 |
|---|---|---|
| 图像分类 | 图片属于哪个类别 | ResNet、ViT |
| 目标检测 | 定位并识别图中物体 | YOLO、DETR |
| 语义分割 | 逐像素分类 | SAM(Segment Anything) |
| 图像生成 | 文字→图像 | Stable Diffusion、DALL-E |
| 视觉问答 | 基于图像回答问题 | GPT-4V、Claude 3 |
技术演进: - 传统 CV:手工特征(SIFT、HOG) - 深度学习:CNN 自动提取特征(2012 AlexNet 里程碑) - 多模态时代:Vision Transformer(ViT)+ LLM 融合
提示: 现代多模态 LLM 已将 CV 能力内化——直接调用 GPT-4o/Claude 的视觉能力比自建 CV 模型更快。