YYMuse

计算机视觉

Computer Vision

AI 应用

使计算机理解和分析图像、视频的 AI 技术，涵盖目标检测、图像分类、语义分割等任务，现已深度融合进多模态 LLM。

# 图像 # 多模态

计算机视觉

核心任务：

任务	说明	代表模型
图像分类	图片属于哪个类别	ResNet、ViT
目标检测	定位并识别图中物体	YOLO、DETR
语义分割	逐像素分类	SAM（Segment Anything）
图像生成	文字→图像	Stable Diffusion、DALL-E
视觉问答	基于图像回答问题	GPT-4V、Claude 3

技术演进： - 传统 CV：手工特征（SIFT、HOG） - 深度学习：CNN 自动提取特征（2012 AlexNet 里程碑） - 多模态时代：Vision Transformer（ViT）+ LLM 融合

提示： 现代多模态 LLM 已将 CV 能力内化——直接调用 GPT-4o/Claude 的视觉能力比自建 CV 模型更快。

← 返回词汇列表