fix

2026-04-28 17:29:39 +00:00 · 2025-04-28 23:08:11 +01:00 · 2025-04-28 23:08:11 +01:00 · 39b6f8f7e2
commit 39b6f8f7e2
parent a5aaa89de4
1 changed files with 1 additions and 1 deletions
--- a/training/trainers/ray_grpo_trainer.py
+++ b/training/trainers/ray_grpo_trainer.py
@ -330,7 +330,7 @@ class RayGRPOTrainer(RayPPOTrainer):
                        batch.batch["token_level_scores"] = reward_tensor

                        # compute rewards. apply_kl_penalty if available
-                        if config.algorithm.use_kl_in_reward:
+                        if self.config.algorithm.use_kl_in_reward:
                            batch, kl_metrics = apply_kl_penalty(
                                batch, kl_ctrl=self.kl_ctrl_in_reward, kl_penalty=self.config.algorithm.kl_penalty
                            )