Added games training and evaluation configuration (#426)

* added games * Update eval_games_composite.yaml * Delete training/evaluations/eval_qwen_3b.yaml * Add files via upload * Delete training/evaluations/eval_algebraic_composite.yaml * Delete training/evaluations/eval_algorithmic_composite.yaml * Delete training/evaluations/eval_arithmetic_composite.yaml * Delete training/evaluations/eval_cognition_composite.yaml * Delete training/evaluations/eval_games_composite.yaml
2026-04-19 12:58:07 +00:00 · 2025-04-26 19:45:32 +01:00 · 2025-04-26 19:45:32 +01:00 · 73e3cb33a4
commit 73e3cb33a4
parent 10863ea12b
7 changed files with 10 additions and 38 deletions
--- a/training/evaluations/intra-generalisation/eval_arithmetic_composite.yaml
+++ b/training/evaluations/intra-generalisation/eval_arithmetic_composite.yaml
@ -0,0 +1,24 @@
+# Model configuration
+model_path: ../utils/qwen_3b_arithmetic_100
+max_tokens: 1024
+temperature: 0.6
+top_p: 0.9
+developer_prompt: DeepSeekZero
+developer_role: system  # Standard role for system prompts
+
+# Output configuration
+output_dir: results
+save_metadata: true
+save_full_results: true
+eval_repeats: 3
+
+# Categories and datasets to evaluate
+categories:
+  - category: reasoning
+    datasets:
+      - dataset: prime_factorization
+        size: 100
+        seed: 42
+        params:
+          min_value: 2
+          max_value: 1000