[eval-basic] initial scripts for evaluating models on reasoning gym

2026-04-19 12:58:07 +00:00 · 2025-02-09 22:36:27 -08:00 · 2025-02-09 22:36:27 -08:00 · 75cfd31ec2
commit 75cfd31ec2
parent 8c4400b18a
11 changed files with 1306 additions and 0 deletions
--- a/eval/eval_basic.json
+++ b/eval/eval_basic.json
@ -0,0 +1,21 @@
+[
+    {
+      "name": "letter_counting",
+      "min_words": 5,
+      "max_words": 15,
+      "size": 10,
+      "seed": 42
+    },
+    {
+      "name": "propositional_logic",
+      "size": 10,
+      "seed": 42
+    },
+    {
+      "name": "leg_counting",
+      "min_animals": 3,
+      "max_animals": 8,
+      "size": 10,
+      "seed": 42
+    }
+  ]