reasoning-gym

open-thought/reasoning-gym

Fork 0

mirror of https://github.com/open-thought/reasoning-gym.git synced 2026-04-19 12:58:07 +00:00

Commit graph

Author SHA1 Message Date

Author	SHA1	Message	Date
joesharratt1229	43c739cb3e	Feat/curr adj (#394 )	2025-04-02 06:39:14 +01:00
Zafir Stojanovski	c6663cdb81	fix(training): Prepend `<think>` token in format reward (#396 ) * prepend think token in format reward * pre commit + fix some default vals * add checkpoint config	2025-03-28 09:45:17 +01:00
Oliver Stanley	eb69916c1b	initial verl training codebase (#389 ) * fixes for latest verl * composite dataset training experiment * use stateful dataloaders to match verl changes * training readme * add formatting reward * length reward impl * standalone reasoning_gym config section * curriculum learning, new length reward, more config	2025-03-20 15:04:57 +00:00

joesharratt1229

43c739cb3e

Feat/curr adj (#394 )

2025-04-02 06:39:14 +01:00

Zafir Stojanovski

c6663cdb81

fix(training): Prepend <think> token in format reward (#396 )

* prepend think token in format reward

* pre commit + fix some default vals

* add checkpoint config

2025-03-28 09:45:17 +01:00

Oliver Stanley

eb69916c1b

initial verl training codebase (#389 )

* fixes for latest verl
* composite dataset training experiment
* use stateful dataloaders to match verl changes
* training readme
* add formatting reward
* length reward impl
* standalone reasoning_gym config section
* curriculum learning, new length reward, more config

2025-03-20 15:04:57 +00:00

3 commits