大语言模型
Large Language Model (LLM)在海量文本上预训练的超大规模神经网络,能够理解和生成自然语言,是当前 AI 应用的核心引擎。
# LLM
# 基础
大语言模型 (LLM)
LLM 通过预测下一个 Token 来学习语言规律,涌现出推理、翻译、编程等能力。
关键指标: - 参数量:7B / 70B / 405B - 上下文窗口:8K / 128K / 1M tokens - 训练数据量:万亿 tokens
主流模型: | 厂商 | 模型 | |------|------| | Anthropic | Claude 3.5/4 | | OpenAI | GPT-4o | | Google | Gemini 2.0 | | Meta | Llama 3.1 |
提示: 参数量不是唯一指标,训练数据质量和 RLHF 对效果影响同样关键。