一、模型微调：领域适应的核心手段

1. 微调策略对比

方法	参数量调整比例	适用场景	硬件需求
全参数微调	100%	数据充足且领域差异大	多卡GPU（A100×8）
Adapter	0.5%-5%	多任务快速适配	单卡GPU
LoRA	1%-10%	平衡效果与成本（主流选择）	单卡/多卡
Prefix Tuning	0.1%-1%	生成任务（如对话系统）	低配GPU

LoRA原理图示：

2. 代码实战（PyTorch）

# 使用HuggingFace PEFT库实现LoRA
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,                  # 低秩维度
    target_modules=["q_proj", "v_proj"],  # 仅调整注意力层的Q/V矩阵
    lora_alpha=32,        # 缩放系数
    lora_dropout=0.1
)
model = get_peft_model(pretrained_model, lora_config)

二、SFT（监督微调）：对齐人类指令

1. 数据构建关键

指令多样性：覆盖开放域问答、创作、推理等任务
python
instructions = [ {"instruction": "写一首关于春天的诗", "output": "春风拂面百花开..."}, {"instruction": "解释牛顿第一定律", "output": "任何物体都保持..."} ]
质量把控：拒绝低质量数据（如“你好”→“你好啊”这类无意义对话）专家审核占比≥10%

2. 训练技巧

技巧	作用	参数示例
渐增学习率	防止灾难性遗忘	初始lr=1e-5 → 5e-5
课程学习	先易后难（简单指令→复杂推理）	按难度分批次训练
损失加权	关键样本高权重	创造性任务权重×2

三、RLHF（人类反馈强化学习）：价值观对齐

1. 三阶段流程

2. 奖励模型训练

数据收集：同一问题生成多个回答（如4个）人工标注排序：A > B > C > D

3. PPO优化核心步骤

关键参数：

KL散度系数β：控制与原始策略偏离程度（通常0.1-0.2）
奖励缩放：将原始分数归一化到[-1,1]避免梯度爆炸

四、行业实践与挑战

1. 典型配置对比

项目	SFT数据量	RLHF标注量	硬件消耗	效果提升
ChatGPT	10万+指令对	100万+偏好对	数千A100月	人类偏好胜率↑35%
Claude	5万+高质量QA	50万+对比	自定义TPU集群	有害输出↓60%
文心一言	百万中文指令	强化学习+规则	昇腾910集群	中文理解↑28%

2. 常见问题与解决方案

问题	原因	解决方案
过度迎合	奖励模型过拟合人工偏好	增加多样性标注者 + 对抗训练
模式坍塌	生成重复/安全但无意义内容	KL惩罚 + 增加创意样本
成本过高	人工标注和计算资源消耗大	半自动标注（模型辅助筛选）

五、前沿进展

1. 替代技术探索

2. 开源工具链

工具	功能	链接
TRL	HuggingFace的RLHF全流程库	github.com/huggingface/trl
DeepSpeed-Chat	微软三阶段训练加速框架	GitHub
ColossalAI	支持RLHF的低成本训练方案	colossalai.org

六、知识总结

模型微调是领域适应的基础手段，LoRA等高效方法降低门槛
SFT通过高质量指令数据教会模型“理解任务”
RLHF通过人类偏好对齐价值观，但面临标注成本和过度优化挑战

关键实践：

使用LoRA在单卡上微调LLaMA-2生成古诗
构建100条中文指令数据集并完成SFT
对比DPO与PPO在相同偏好数据下的效果差异

汤科资源网

《模型微调、SFT、RLHF》_模型调节

一、模型微调：领域适应的核心手段

1. 微调策略对比

2. 代码实战（PyTorch）

二、SFT（监督微调）：对齐人类指令

1. 数据构建关键

2. 训练技巧

三、RLHF（人类反馈强化学习）：价值观对齐

1. 三阶段流程

2. 奖励模型训练

3. PPO优化核心步骤

四、行业实践与挑战

1. 典型配置对比

2. 常见问题与解决方案

五、前沿进展

1. 替代技术探索

2. 开源工具链

六、知识总结