大模型

训练

  • 预训练
  • 监督微调 - SFT (Supervised Fine-Tuning) 监督微调
    • 专注于特定领域
  • 基于人类反馈的强化学习 RLHF (Reinforcement Learning from Human Feedback)
    • 比如筛选 暴力 机密 等敏感信息

训练工具

  • transfomer

特点

  • 规模和参数量大
  • 适应性和灵活性强
  • 广泛数据集预训练
  • 计算资源需求大

分类

  • 大语言模型 LLM
    • GPT-3, GPT-4
    • Bard
    • 通义千问
    • Deepseek
  • 多模态模型
    • 计算机视觉模型
    • 音频处理模型
    • ….

工作流程

  • 分词化(Tokenization)与词表映射
    • 词粒度(Word-Level Tokenization)
    • 字符力度(Character-Level)
    • 子词粒度(Subword-Level)