reasoning-gym

mirror of https://github.com/open-thought/reasoning-gym.git synced 2026-04-19 12:58:07 +00:00

History

Zafir Stojanovski c6663cdb81 fix(training): Prepend `<think>` token in format reward (#396 ) * prepend think token in format reward * pre commit + fix some default vals * add checkpoint config		2025-03-28 09:45:17 +01:00
..
llama3.1_1b_grpo.yaml	fix(training): Prepend `<think>` token in format reward (#396 )	2025-03-28 09:45:17 +01:00
qwen2.5_1.5b_grpo.yaml	fix(training): Prepend `<think>` token in format reward (#396 )	2025-03-28 09:45:17 +01:00