Added games training and evaluation configuration (#426)

* added games * Update eval_games_composite.yaml * Delete training/evaluations/eval_qwen_3b.yaml * Add files via upload * Delete training/evaluations/eval_algebraic_composite.yaml * Delete training/evaluations/eval_algorithmic_composite.yaml * Delete training/evaluations/eval_arithmetic_composite.yaml * Delete training/evaluations/eval_cognition_composite.yaml * Delete training/evaluations/eval_games_composite.yaml
2026-04-19 12:58:07 +00:00 · 2025-04-26 19:45:32 +01:00 · 2025-04-26 19:45:32 +01:00 · 73e3cb33a4
commit 73e3cb33a4
parent 10863ea12b
7 changed files with 10 additions and 38 deletions
--- a/training/evaluations/eval_cognition_composite.yaml
+++ b/training/evaluations/eval_cognition_composite.yaml
@ -1,36 +0,0 @@
-# Model configuration
-model_path: ../utils/qwen3b_cognition
-max_tokens: 1024
-temperature: 0.6  # Lower temperature for more focused responses
-top_p: 0.9  # From rollout top_p
-developer_prompt: DeepSeekZero
-developer_role: system  # Standard role for system prompts
-
-# Output configuration
-output_dir: results
-save_metadata: true
-save_full_results: true
-eval_repeats: 3
-
-# Categories and datasets to evaluate
-categories:
-  - category: reasoning
-    datasets:
-    - dataset: number_sequence
-      size: 100
-      seed: 42
-      params:
-        min_terms: 4  # Minimum visible terms
-        max_terms:  8  # Maximum visible terms
-        min_value: -100  # Minimum allowed number
-        max_value: 100  # Maximum allowed number
-        max_complexity: 3  # Maximum number of operations to combine
-    - dataset: modulo_grid
-      size: 100
-      seed: 42
-      params:
-        size_x: 20
-        size_y: 20
-        max_divisor: 20
-        max_target: 20
-        max_holes: 1