consolidate eval scripts to have single eval.py

2026-04-19 12:58:07 +00:00 · 2025-02-25 16:13:22 +01:00 · 2025-02-25 16:13:22 +01:00 · e7ae82a831
commit e7ae82a831
parent bea806fe3c
12 changed files with 104 additions and 337 deletions
--- a/eval/yaml/algebra.yaml
+++ b/eval/yaml/algebra.yaml
@ -0,0 +1,13 @@
+model: deepseek/deepseek-r1
+category: algebra
+datasets:
+  - intermediate_integration
+  - polynomial_equations
+  - polynomial_multiplication
+  - simple_equations
+  - simple_integration
+  - complex_arithmetic
+eval_dir: eval/r1
+dataset_size: 50
+dataset_seed: 42
+developer_role: system
--- a/eval/yaml/algorithmic.yaml
+++ b/eval/yaml/algorithmic.yaml
@ -0,0 +1,24 @@
+model: deepseek/deepseek-r1
+category: algorithmic
+datasets:
+  - binary_matrix
+  - caesar_cipher
+  - group_anagrams
+  - isomorphic_strings
+  - letter_counting
+  - letter_jumble
+  - number_filtering
+  - number_sorting
+  - palindrome
+  - ransom_note
+  - rotate_matrix
+  - sentence_reordering
+  - spell_backward
+  - spiral_matrix
+  - word_ladder
+  - word_sequence_reversal
+  - word_sorting
+eval_dir: eval/r1
+dataset_size: 50
+dataset_seed: 42
+developer_role: system
--- a/eval/yaml/cognition.yaml
+++ b/eval/yaml/cognition.yaml
@ -0,0 +1,11 @@
+model: deepseek/deepseek-r1
+category: cognition
+datasets:
+  -  color_cube_rotation
+  -  figlet_font
+  -  number_sequence
+  -  rubiks_cube
+eval_dir: eval/r1
+dataset_size: 50
+dataset_seed: 42
+developer_role: system
--- a/eval/yaml/logic.yaml
+++ b/eval/yaml/logic.yaml
@ -0,0 +1,11 @@
+model: deepseek/deepseek-r1
+category: logic
+datasets:
+  - propositional_logic
+  - self_reference
+  - syllogism
+  - zebra_puzzles
+eval_dir: eval/r1
+dataset_size: 50
+dataset_seed: 42
+developer_role: system
--- a/eval/yaml/test.yaml
+++ b/eval/yaml/test.yaml
@ -0,0 +1,8 @@
+model: deepseek/deepseek-r1
+category: test
+datasets:
+  - YOUR_DATASET_NAME
+eval_dir: eval/r1
+dataset_size: 10
+dataset_seed: 42
+developer_role: system