reasoning-gym

open-thought/reasoning-gym

Fork 0

mirror of https://github.com/open-thought/reasoning-gym.git synced 2026-04-19 12:58:07 +00:00

Commit graph

Author SHA1 Message Date

Author	SHA1	Message	Date
Zafir Stojanovski	695aad4dbc	fix(training): Prepend `<think>` token in format reward (#396 ) * prepend think token in format reward * pre commit + fix some default vals * add checkpoint config	2025-03-28 09:45:17 +01:00
Oliver Stanley	9304b23c1b	initial verl training codebase (#389 ) * fixes for latest verl * composite dataset training experiment * use stateful dataloaders to match verl changes * training readme * add formatting reward * length reward impl * standalone reasoning_gym config section * curriculum learning, new length reward, more config	2025-03-20 15:04:57 +00:00

Zafir Stojanovski

695aad4dbc

fix(training): Prepend <think> token in format reward (#396 )

* prepend think token in format reward

* pre commit + fix some default vals

* add checkpoint config

2025-03-28 09:45:17 +01:00

Oliver Stanley

9304b23c1b

initial verl training codebase (#389 )

* fixes for latest verl
* composite dataset training experiment
* use stateful dataloaders to match verl changes
* training readme
* add formatting reward
* length reward impl
* standalone reasoning_gym config section
* curriculum learning, new length reward, more config

2025-03-20 15:04:57 +00:00

2 commits