大模型

训练

预训练
监督微调 - SFT (Supervised Fine-Tuning) 监督微调
- 专注于特定领域
基于人类反馈的强化学习 RLHF (Reinforcement Learning from Human Feedback)
- 比如筛选暴力机密等敏感信息

训练工具

transfomer

特点

规模和参数量大
适应性和灵活性强
广泛数据集预训练
计算资源需求大

分类

大语言模型 LLM
- GPT-3, GPT-4
- Bard
- 通义千问
- Deepseek
多模态模型
- 计算机视觉模型
- 音频处理模型
- ….

工作流程

分词化(Tokenization)与词表映射
- 词粒度(Word-Level Tokenization)
- 字符力度(Character-Level)
- 子词粒度(Subword-Level)