YYMuse

计算机视觉

Computer Vision
AI 应用

使计算机理解和分析图像、视频的 AI 技术,涵盖目标检测、图像分类、语义分割等任务,现已深度融合进多模态 LLM。

# 图像 # 多模态

计算机视觉

核心任务:

任务 说明 代表模型
图像分类 图片属于哪个类别 ResNet、ViT
目标检测 定位并识别图中物体 YOLO、DETR
语义分割 逐像素分类 SAM(Segment Anything)
图像生成 文字→图像 Stable Diffusion、DALL-E
视觉问答 基于图像回答问题 GPT-4V、Claude 3

技术演进: - 传统 CV:手工特征(SIFT、HOG) - 深度学习:CNN 自动提取特征(2012 AlexNet 里程碑) - 多模态时代:Vision Transformer(ViT)+ LLM 融合

提示: 现代多模态 LLM 已将 CV 能力内化——直接调用 GPT-4o/Claude 的视觉能力比自建 CV 模型更快。

← 返回词汇列表