大模型
训练
- 预训练
- 监督微调 - SFT (Supervised Fine-Tuning) 监督微调
- 基于人类反馈的强化学习 RLHF (Reinforcement Learning from Human Feedback)
训练工具
特点
- 规模和参数量大
- 适应性和灵活性强
- 广泛数据集预训练
- 计算资源需求大
分类
- 大语言模型 LLM
- GPT-3, GPT-4
- Bard
- 通义千问
- Deepseek
- 多模态模型
工作流程
- 分词化(Tokenization)与词表映射
- 词粒度(Word-Level Tokenization)
- 字符力度(Character-Level)
- 子词粒度(Subword-Level)