reasoning-gym

mirror of https://github.com/open-thought/reasoning-gym.git synced 2026-04-24 17:05:03 +00:00

Author	SHA1	Message	Date
Andreas Köpf	28dc0932c4	Merge pull request #178 from olliestanley/feature/unsloth-train Add minimal working GRPO training example with Unsloth	2025-02-21 15:37:24 +01:00
Andreas Koepf	ff5b210106	use native types List->list, Dict->dict, Set->set, Tuple->tuple	2025-02-21 15:15:38 +01:00
Oliver	31941d09e6	Answer scoring fixes to address edge cases	2025-02-20 22:04:01 +00:00
Andreas Koepf	5803a2962e	more tolerant parsing of futoshiki answers	2025-02-16 14:23:40 +01:00
Oliver	d42b84ef4c	Add more instruction to generated questions	2025-02-15 13:47:54 +00:00
Oliver	b730709e34	formatting	2025-02-13 19:00:18 +00:00
Oliver	c716affdd0	Correct string formatting	2025-02-13 18:52:48 +00:00
Oliver	a53073278a	Remove rng param	2025-02-09 21:26:03 +00:00
Oliver	0627f2b02d	Greatly speed up solver	2025-02-09 21:23:53 +00:00
Oliver	26439cb943	Finish first draft futoshiki solver/gen	2025-02-07 00:09:35 +00:00
Oliver	1d88796c8d	Revert "Experiment with alternative solving/generation approach" This reverts commit `f91ee8a5b7`.	2025-02-07 00:06:38 +00:00
Oliver	f91ee8a5b7	Experiment with alternative solving/generation approach	2025-02-06 23:58:09 +00:00
Oliver	af16670c01	Initial draft of Futoshiki generator	2025-02-04 17:42:57 +00:00