diff --git a/RELEASE.md b/RELEASE.md index 500877531bb5065634eb21dadd0d5457e6507612..6074bf9e4555819fb537020c9f3192856a8bd5fb 100644 --- a/RELEASE.md +++ b/RELEASE.md @@ -4,8 +4,8 @@ ### 模型与算法 -* 新增了1个PyTorch训练模型 -* 新增了5个大模型训练示例,涉及verl和OpenRLHF框架 +* 新增了1个PyTorch训练小模型示例 +* 新增了5个大模型强化学习微调示例,使用了[verl](https://github.com/volcengine/verl)和[OpenRLHF](https://github.com/OpenRLHF/OpenRLHF)工具箱
| PyTorch | |||||
|---|---|---|---|---|---|
| 大模型 | |||||
| Llama3-8B PPO(OpenRLHF) | -Llama3-8B DPO(OpenRLHF) | -Llama3-8B KTO(OpenRLHF) | +Llama3-8B PPO (OpenRLHF) | +Llama3-8B DPO (OpenRLHF) | +Llama3-8B KTO (OpenRLHF) |
| Qwen2.5-1.5B(verl) | -Qwen2.5-7B(verl) | +Qwen2.5-1.5B (verl) | +Qwen2.5-7B (verl) | ||