Generate eval config tool (#240)

* feat: Add generate_config.py script to create eval configurations
2026-04-19 12:58:07 +00:00 · 2025-02-27 21:40:53 +01:00 · 2025-02-27 21:40:53 +01:00 · 5b8d1b5175
commit 5b8d1b5175
parent 850c1cf6f4
9 changed files with 858 additions and 338 deletions
--- a/eval/yaml/claude-3.5-sonnet.yaml
+++ b/eval/yaml/claude-3.5-sonnet.yaml
@ -1,34 +1,124 @@
-# Combined configuration for Claude 3.5 Sonnet
-model: "anthropic/claude-3.5-sonnet"
-provider: "Anthropic"
-output_dir: "results"
+model: anthropic/claude-3.5-sonnet
+provider: Anthropic
+output_dir: results
 max_concurrent: 10
 default_size: 50
 default_seed: 45
-
 categories:
-  - category: "algorithmic"
-    datasets:
-      - dataset: "count_primes"
-      - dataset: "game_of_life"
-      - dataset: "graph_color"
-      - dataset: "group_anagrams"
-      - dataset: "isomorphic_strings"
-      - dataset: "letter_counting"
-      - dataset: "letter_jumble"
-      - dataset: "manipulate_matrix"
-      - dataset: "number_filtering"
-      - dataset: "number_sorting"
-      - dataset: "palindrome"
-      - dataset: "pool_matrix"
-      - dataset: "ransom_note"
-      - dataset: "rotate_matrix"
-      - dataset: "sentence_reordering"
-      - dataset: "spell_backward"
-      - dataset: "spiral_matrix"
-      - dataset: "string_insertion"
-      - dataset: "string_manipulation"
-      - dataset: "string_synthesis"
-      - dataset: "word_ladder"
-      - dataset: "word_sequence_reversal"
-      - dataset: "word_sorting"
+- category: algebra
+  datasets:
+  - dataset: complex_arithmetic
+  - dataset: intermediate_integration
+  - dataset: polynomial_equations
+  - dataset: polynomial_multiplication
+  - dataset: simple_equations
+  - dataset: simple_integration
+- category: algorithmic
+  datasets:
+  - dataset: ab
+  - dataset: base_conversion
+  - dataset: binary_alternation
+  - dataset: binary_matrix
+  - dataset: caesar_cipher
+  - dataset: count_primes
+  - dataset: cryptarithm
+  - dataset: game_of_life
+  - dataset: graph_color
+  - dataset: group_anagrams
+  - dataset: isomorphic_strings
+  - dataset: jugs
+  - dataset: letter_counting
+  - dataset: letter_jumble
+  - dataset: manipulate_matrix
+  - dataset: number_filtering
+  - dataset: number_sorting
+  - dataset: palindrome
+  - dataset: palindrome_partitioning
+  - dataset: pool_matrix
+  - dataset: ransom_note
+  - dataset: rotate_matrix
+  - dataset: rotten_oranges
+  - dataset: sentence_reordering
+  - dataset: spell_backward
+  - dataset: spiral_matrix
+  - dataset: string_insertion
+  - dataset: string_manipulation
+  - dataset: string_splitting
+  - dataset: string_synthesis
+  - dataset: word_ladder
+  - dataset: word_sequence_reversal
+  - dataset: word_sorting
+- category: arc
+  datasets:
+  - dataset: arc_1d
+  - dataset: arc_agi
+  - dataset: rearc
+- category: arithmetic
+  datasets:
+  - dataset: basic_arithmetic
+  - dataset: bitwise_arithmetic
+  - dataset: calendar_arithmetic
+  - dataset: chain_sum
+  - dataset: count_bits
+  - dataset: decimal_arithmetic
+  - dataset: decimal_chain_sum
+  - dataset: dice
+  - dataset: fraction_simplification
+  - dataset: gcd
+  - dataset: gsm_symbolic
+  - dataset: lcm
+  - dataset: leg_counting
+  - dataset: number_format
+  - dataset: power_function
+  - dataset: prime_factorization
+  - dataset: products
+  - dataset: time_intervals
+- category: code
+  datasets:
+  - dataset: bf
+  - dataset: codeio
+- category: cognition
+  datasets:
+  - dataset: color_cube_rotation
+  - dataset: figlet_font
+  - dataset: needle_haystack
+  - dataset: number_sequence
+  - dataset: rectangle_count
+  - dataset: rubiks_cube
+- category: games
+  datasets:
+  - dataset: countdown
+  - dataset: emoji_mystery
+  - dataset: futoshiki
+  - dataset: knight_swap
+  - dataset: maze
+  - dataset: mini_sudoku
+  - dataset: n_queens
+  - dataset: rush_hour
+  - dataset: sokoban
+  - dataset: sudoku
+  - dataset: tower_of_hanoi
+  - dataset: tsumego
+- category: geometry
+  datasets:
+  - dataset: advanced_geometry
+  - dataset: simple_geometry
+- category: graphs
+  datasets:
+  - dataset: course_schedule
+  - dataset: family_relationships
+  - dataset: largest_island
+  - dataset: quantum_lock
+  - dataset: shortest_path
+- category: induction
+  datasets:
+  - dataset: list_functions
+- category: logic
+  datasets:
+  - dataset: aiw
+  - dataset: circuit_logic
+  - dataset: knights_knaves
+  - dataset: propositional_logic
+  - dataset: self_reference
+  - dataset: syllogism
+  - dataset: zebra_puzzles
--- a/eval/yaml/claude-3.7-sonnet_thinking.yaml
+++ b/eval/yaml/claude-3.7-sonnet_thinking.yaml
@ -0,0 +1,124 @@
+model: anthropic/claude-3.7-sonnet:thinking
+provider: Anthropic
+output_dir: results
+max_concurrent: 10
+default_size: 50
+default_seed: 45
+categories:
+- category: algebra
+  datasets:
+  - dataset: complex_arithmetic
+  - dataset: intermediate_integration
+  - dataset: polynomial_equations
+  - dataset: polynomial_multiplication
+  - dataset: simple_equations
+  - dataset: simple_integration
+- category: algorithmic
+  datasets:
+  - dataset: ab
+  - dataset: base_conversion
+  - dataset: binary_alternation
+  - dataset: binary_matrix
+  - dataset: caesar_cipher
+  - dataset: count_primes
+  - dataset: cryptarithm
+  - dataset: game_of_life
+  - dataset: graph_color
+  - dataset: group_anagrams
+  - dataset: isomorphic_strings
+  - dataset: jugs
+  - dataset: letter_counting
+  - dataset: letter_jumble
+  - dataset: manipulate_matrix
+  - dataset: number_filtering
+  - dataset: number_sorting
+  - dataset: palindrome
+  - dataset: palindrome_partitioning
+  - dataset: pool_matrix
+  - dataset: ransom_note
+  - dataset: rotate_matrix
+  - dataset: rotten_oranges
+  - dataset: sentence_reordering
+  - dataset: spell_backward
+  - dataset: spiral_matrix
+  - dataset: string_insertion
+  - dataset: string_manipulation
+  - dataset: string_splitting
+  - dataset: string_synthesis
+  - dataset: word_ladder
+  - dataset: word_sequence_reversal
+  - dataset: word_sorting
+- category: arc
+  datasets:
+  - dataset: arc_1d
+  - dataset: arc_agi
+  - dataset: rearc
+- category: arithmetic
+  datasets:
+  - dataset: basic_arithmetic
+  - dataset: bitwise_arithmetic
+  - dataset: calendar_arithmetic
+  - dataset: chain_sum
+  - dataset: count_bits
+  - dataset: decimal_arithmetic
+  - dataset: decimal_chain_sum
+  - dataset: dice
+  - dataset: fraction_simplification
+  - dataset: gcd
+  - dataset: gsm_symbolic
+  - dataset: lcm
+  - dataset: leg_counting
+  - dataset: number_format
+  - dataset: power_function
+  - dataset: prime_factorization
+  - dataset: products
+  - dataset: time_intervals
+- category: code
+  datasets:
+  - dataset: bf
+  - dataset: codeio
+- category: cognition
+  datasets:
+  - dataset: color_cube_rotation
+  - dataset: figlet_font
+  - dataset: needle_haystack
+  - dataset: number_sequence
+  - dataset: rectangle_count
+  - dataset: rubiks_cube
+- category: games
+  datasets:
+  - dataset: countdown
+  - dataset: emoji_mystery
+  - dataset: futoshiki
+  - dataset: knight_swap
+  - dataset: maze
+  - dataset: mini_sudoku
+  - dataset: n_queens
+  - dataset: rush_hour
+  - dataset: sokoban
+  - dataset: sudoku
+  - dataset: tower_of_hanoi
+  - dataset: tsumego
+- category: geometry
+  datasets:
+  - dataset: advanced_geometry
+  - dataset: simple_geometry
+- category: graphs
+  datasets:
+  - dataset: course_schedule
+  - dataset: family_relationships
+  - dataset: largest_island
+  - dataset: quantum_lock
+  - dataset: shortest_path
+- category: induction
+  datasets:
+  - dataset: list_functions
+- category: logic
+  datasets:
+  - dataset: aiw
+  - dataset: circuit_logic
+  - dataset: knights_knaves
+  - dataset: propositional_logic
+  - dataset: self_reference
+  - dataset: syllogism
+  - dataset: zebra_puzzles
--- a/eval/yaml/deepseek-r1.yaml
+++ b/eval/yaml/deepseek-r1.yaml
@ -1,61 +1,124 @@
-# Combined configuration for deepseek-r1
-model: "deepseek/deepseek-r1"
-provider: "Nebius"
-output_dir: "results"
+model: deepseek/deepseek-r1
+provider: Nebius
+output_dir: results
 max_concurrent: 10
 default_size: 50
 default_seed: 45
-
 categories:
-  - category: "algebra"
-    datasets:
-      - dataset: "intermediate_integration"
-      - dataset: "polynomial_equations"
-      - dataset: "polynomial_multiplication"
-      - dataset: "simple_equations"
-      - dataset: "simple_integration"
-      - dataset: "complex_arithmetic"
-
-  - category: "algorithmic"
-    datasets:
-      - dataset: "ab"
-      - dataset: "base_conversion"
-      - dataset: "binary_matrix"
-      - dataset: "caesar_cipher"
-      - dataset: "count_primes"
-      - dataset: "game_of_life"
-      - dataset: "graph_color"
-      - dataset: "group_anagrams"
-      - dataset: "isomorphic_strings"
-      - dataset: "letter_counting"
-      - dataset: "letter_jumble"
-      - dataset: "manipulate_matrix"
-      - dataset: "number_filtering"
-      - dataset: "number_sorting"
-      - dataset: "palindrome"
-      - dataset: "pool_matrix"
-      - dataset: "ransom_note"
-      - dataset: "rotate_matrix"
-      - dataset: "sentence_reordering"
-      - dataset: "spell_backward"
-      - dataset: "spiral_matrix"
-      - dataset: "string_insertion"
-      - dataset: "string_manipulation"
-      - dataset: "string_synthesis"
-      - dataset: "word_ladder"
-      - dataset: "word_sequence_reversal"
-      - dataset: "word_sorting"
-
-  - category: "cognition"
-    datasets:
-      - dataset: "color_cube_rotation"
-      - dataset: "figlet_font"
-      - dataset: "number_sequence"
-      - dataset: "rubiks_cube"
-
-  - category: "logic"
-    datasets:
-      - dataset: "propositional_logic"
-      - dataset: "self_reference"
-      - dataset: "syllogism"
-      - dataset: "zebra_puzzles"
+- category: algebra
+  datasets:
+  - dataset: complex_arithmetic
+  - dataset: intermediate_integration
+  - dataset: polynomial_equations
+  - dataset: polynomial_multiplication
+  - dataset: simple_equations
+  - dataset: simple_integration
+- category: algorithmic
+  datasets:
+  - dataset: ab
+  - dataset: base_conversion
+  - dataset: binary_alternation
+  - dataset: binary_matrix
+  - dataset: caesar_cipher
+  - dataset: count_primes
+  - dataset: cryptarithm
+  - dataset: game_of_life
+  - dataset: graph_color
+  - dataset: group_anagrams
+  - dataset: isomorphic_strings
+  - dataset: jugs
+  - dataset: letter_counting
+  - dataset: letter_jumble
+  - dataset: manipulate_matrix
+  - dataset: number_filtering
+  - dataset: number_sorting
+  - dataset: palindrome
+  - dataset: palindrome_partitioning
+  - dataset: pool_matrix
+  - dataset: ransom_note
+  - dataset: rotate_matrix
+  - dataset: rotten_oranges
+  - dataset: sentence_reordering
+  - dataset: spell_backward
+  - dataset: spiral_matrix
+  - dataset: string_insertion
+  - dataset: string_manipulation
+  - dataset: string_splitting
+  - dataset: string_synthesis
+  - dataset: word_ladder
+  - dataset: word_sequence_reversal
+  - dataset: word_sorting
+- category: arc
+  datasets:
+  - dataset: arc_1d
+  - dataset: arc_agi
+  - dataset: rearc
+- category: arithmetic
+  datasets:
+  - dataset: basic_arithmetic
+  - dataset: bitwise_arithmetic
+  - dataset: calendar_arithmetic
+  - dataset: chain_sum
+  - dataset: count_bits
+  - dataset: decimal_arithmetic
+  - dataset: decimal_chain_sum
+  - dataset: dice
+  - dataset: fraction_simplification
+  - dataset: gcd
+  - dataset: gsm_symbolic
+  - dataset: lcm
+  - dataset: leg_counting
+  - dataset: number_format
+  - dataset: power_function
+  - dataset: prime_factorization
+  - dataset: products
+  - dataset: time_intervals
+- category: code
+  datasets:
+  - dataset: bf
+  - dataset: codeio
+- category: cognition
+  datasets:
+  - dataset: color_cube_rotation
+  - dataset: figlet_font
+  - dataset: needle_haystack
+  - dataset: number_sequence
+  - dataset: rectangle_count
+  - dataset: rubiks_cube
+- category: games
+  datasets:
+  - dataset: countdown
+  - dataset: emoji_mystery
+  - dataset: futoshiki
+  - dataset: knight_swap
+  - dataset: maze
+  - dataset: mini_sudoku
+  - dataset: n_queens
+  - dataset: rush_hour
+  - dataset: sokoban
+  - dataset: sudoku
+  - dataset: tower_of_hanoi
+  - dataset: tsumego
+- category: geometry
+  datasets:
+  - dataset: advanced_geometry
+  - dataset: simple_geometry
+- category: graphs
+  datasets:
+  - dataset: course_schedule
+  - dataset: family_relationships
+  - dataset: largest_island
+  - dataset: quantum_lock
+  - dataset: shortest_path
+- category: induction
+  datasets:
+  - dataset: list_functions
+- category: logic
+  datasets:
+  - dataset: aiw
+  - dataset: circuit_logic
+  - dataset: knights_knaves
+  - dataset: propositional_logic
+  - dataset: self_reference
+  - dataset: syllogism
+  - dataset: zebra_puzzles
--- a/eval/yaml/llama-3.3-70b-instruct.yaml
+++ b/eval/yaml/llama-3.3-70b-instruct.yaml
@ -1,130 +1,124 @@
-# Combined configuration for llama-3.3-70b-instruct
-model: "meta-llama/llama-3.3-70b-instruct"
-provider: "Hyperbolic"
-output_dir: "results"
+model: meta-llama/llama-3.3-70b-instruct
+provider: Hyperbolic
+output_dir: results
 max_concurrent: 10
 default_size: 50
 default_seed: 45
-
 categories:
-  - category: "algebra"
-    datasets:
-      - dataset: "intermediate_integration"
-      - dataset: "polynomial_equations"
-      - dataset: "polynomial_multiplication"
-      - dataset: "simple_equations"
-      - dataset: "simple_integration"
-      - dataset: "complex_arithmetic"
-
-  - category: "algorithmic"
-    datasets:
-      - dataset: "ab"
-      - dataset: "base_conversion"
-      - dataset: "binary_alternation"
-      - dataset: "binary_matrix"
-      - dataset: "caesar_cipher"
-      - dataset: "count_primes"
-      - dataset: "cryptarithm"
-      - dataset: "game_of_life"
-      - dataset: "graph_color"
-      - dataset: "group_anagrams"
-      - dataset: "isomorphic_strings"
-      - dataset: "jugs"
-      - dataset: "letter_counting"
-      - dataset: "letter_jumble"
-      - dataset: "manipulate_matrix"
-      - dataset: "number_filtering"
-      - dataset: "number_sorting"
-      - dataset: "palindrome"
-      - dataset: "palindrome_partitioning"
-      - dataset: "pool_matrix"
-      - dataset: "ransom_note"
-      - dataset: "rotate_matrix"
-      - dataset: "rotten_oranges"
-      - dataset: "sentence_reordering"
-      - dataset: "spell_backward"
-      - dataset: "spiral_matrix"
-      - dataset: "string_insertion"
-      - dataset: "string_manipulation"
-      - dataset: "string_splitting"
-      - dataset: "string_synthesis"
-      - dataset: "word_ladder"
-      - dataset: "word_sequence_reversal"
-      - dataset: "word_sorting"
-
-  - category: "arc"
-    datasets:
-      - dataset: "arc_1d"
-      - dataset: "arc_agi"
-      - dataset: "rearc"
-
-  - category: "arithmetic"
-    datasets:
-      - dataset: "basic_arithmetic"
-      - dataset: "bitwise_arithmetic"
-      - dataset: "calendar_arithmetic"
-      - dataset: "chain_sum"
-      - dataset: "count_bits"
-      - dataset: "decimal_arithmetic"
-      - dataset: "decimal_chain_sum"
-      - dataset: "dice"
-      - dataset: "fraction_simplification"
-      - dataset: "gcd"
-      - dataset: "gsm_symbolic"
-      - dataset: "lcm"
-      - dataset: "leg_counting"
-      - dataset: "number_format"
-      - dataset: "power_function"
-      - dataset: "prime_factorization"
-      - dataset: "products"
-      - dataset: "time_intervals"
-
-  - category: "code"
-    datasets:
-      - dataset: "bf"
-
-  - category: "cognition"
-    datasets:
-      - dataset: "color_cube_rotation"
-      - dataset: "figlet_font"
-      - dataset: "needle_haystack"
-      - dataset: "number_sequence"
-      - dataset: "rectangle_count"
-      - dataset: "rubiks_cube"
-
-  - category: "games"
-    datasets:
-      - dataset: "countdown"
-      - dataset: "emoji_mystery"
-      - dataset: "futoshuki"
-      - dataset: "knight_swap"
-      - dataset: "maze"
-      - dataset: "mini_sudoku"
-      - dataset: "n_queens"
-      - dataset: "sokoban"
-      - dataset: "sudoku"
-      - dataset: "tower_of_hanoi"
-      - dataset: "tsumego"
-
-  - category: "geometry"
-    datasets:
-      - dataset: "simple_geometry"
-      - dataset: "advanced_geometry"
-
-  - category: "graphs"
-    datasets:
-      - dataset: "course_schedule"
-      - dataset: "family_relationships"
-      - dataset: "largest_island"
-      - dataset: "list_functions"
-      - dataset: "quantum_lock"
-      - dataset: "shortest_path"
-
-  - category: "logic"
-    datasets:
-      - dataset: "aiw"
-      - dataset: "circuit_logic"
-      - dataset: "propositional_logic"
-      - dataset: "self_reference"
-      - dataset: "syllogism"
-      - dataset: "zebra_puzzles"
+- category: algebra
+  datasets:
+  - dataset: complex_arithmetic
+  - dataset: intermediate_integration
+  - dataset: polynomial_equations
+  - dataset: polynomial_multiplication
+  - dataset: simple_equations
+  - dataset: simple_integration
+- category: algorithmic
+  datasets:
+  - dataset: ab
+  - dataset: base_conversion
+  - dataset: binary_alternation
+  - dataset: binary_matrix
+  - dataset: caesar_cipher
+  - dataset: count_primes
+  - dataset: cryptarithm
+  - dataset: game_of_life
+  - dataset: graph_color
+  - dataset: group_anagrams
+  - dataset: isomorphic_strings
+  - dataset: jugs
+  - dataset: letter_counting
+  - dataset: letter_jumble
+  - dataset: manipulate_matrix
+  - dataset: number_filtering
+  - dataset: number_sorting
+  - dataset: palindrome
+  - dataset: palindrome_partitioning
+  - dataset: pool_matrix
+  - dataset: ransom_note
+  - dataset: rotate_matrix
+  - dataset: rotten_oranges
+  - dataset: sentence_reordering
+  - dataset: spell_backward
+  - dataset: spiral_matrix
+  - dataset: string_insertion
+  - dataset: string_manipulation
+  - dataset: string_splitting
+  - dataset: string_synthesis
+  - dataset: word_ladder
+  - dataset: word_sequence_reversal
+  - dataset: word_sorting
+- category: arc
+  datasets:
+  - dataset: arc_1d
+  - dataset: arc_agi
+  - dataset: rearc
+- category: arithmetic
+  datasets:
+  - dataset: basic_arithmetic
+  - dataset: bitwise_arithmetic
+  - dataset: calendar_arithmetic
+  - dataset: chain_sum
+  - dataset: count_bits
+  - dataset: decimal_arithmetic
+  - dataset: decimal_chain_sum
+  - dataset: dice
+  - dataset: fraction_simplification
+  - dataset: gcd
+  - dataset: gsm_symbolic
+  - dataset: lcm
+  - dataset: leg_counting
+  - dataset: number_format
+  - dataset: power_function
+  - dataset: prime_factorization
+  - dataset: products
+  - dataset: time_intervals
+- category: code
+  datasets:
+  - dataset: bf
+  - dataset: codeio
+- category: cognition
+  datasets:
+  - dataset: color_cube_rotation
+  - dataset: figlet_font
+  - dataset: needle_haystack
+  - dataset: number_sequence
+  - dataset: rectangle_count
+  - dataset: rubiks_cube
+- category: games
+  datasets:
+  - dataset: countdown
+  - dataset: emoji_mystery
+  - dataset: futoshiki
+  - dataset: knight_swap
+  - dataset: maze
+  - dataset: mini_sudoku
+  - dataset: n_queens
+  - dataset: rush_hour
+  - dataset: sokoban
+  - dataset: sudoku
+  - dataset: tower_of_hanoi
+  - dataset: tsumego
+- category: geometry
+  datasets:
+  - dataset: advanced_geometry
+  - dataset: simple_geometry
+- category: graphs
+  datasets:
+  - dataset: course_schedule
+  - dataset: family_relationships
+  - dataset: largest_island
+  - dataset: quantum_lock
+  - dataset: shortest_path
+- category: induction
+  datasets:
+  - dataset: list_functions
+- category: logic
+  datasets:
+  - dataset: aiw
+  - dataset: circuit_logic
+  - dataset: knights_knaves
+  - dataset: propositional_logic
+  - dataset: self_reference
+  - dataset: syllogism
+  - dataset: zebra_puzzles
--- a/eval/yaml/openai-o1.yaml
+++ b/eval/yaml/openai-o1.yaml
@ -0,0 +1,124 @@
+model: openai/o1
+provider: OpenAI
+output_dir: results
+max_concurrent: 10
+default_size: 50
+default_seed: 45
+categories:
+- category: algebra
+  datasets:
+  - dataset: complex_arithmetic
+  - dataset: intermediate_integration
+  - dataset: polynomial_equations
+  - dataset: polynomial_multiplication
+  - dataset: simple_equations
+  - dataset: simple_integration
+- category: algorithmic
+  datasets:
+  - dataset: ab
+  - dataset: base_conversion
+  - dataset: binary_alternation
+  - dataset: binary_matrix
+  - dataset: caesar_cipher
+  - dataset: count_primes
+  - dataset: cryptarithm
+  - dataset: game_of_life
+  - dataset: graph_color
+  - dataset: group_anagrams
+  - dataset: isomorphic_strings
+  - dataset: jugs
+  - dataset: letter_counting
+  - dataset: letter_jumble
+  - dataset: manipulate_matrix
+  - dataset: number_filtering
+  - dataset: number_sorting
+  - dataset: palindrome
+  - dataset: palindrome_partitioning
+  - dataset: pool_matrix
+  - dataset: ransom_note
+  - dataset: rotate_matrix
+  - dataset: rotten_oranges
+  - dataset: sentence_reordering
+  - dataset: spell_backward
+  - dataset: spiral_matrix
+  - dataset: string_insertion
+  - dataset: string_manipulation
+  - dataset: string_splitting
+  - dataset: string_synthesis
+  - dataset: word_ladder
+  - dataset: word_sequence_reversal
+  - dataset: word_sorting
+- category: arc
+  datasets:
+  - dataset: arc_1d
+  - dataset: arc_agi
+  - dataset: rearc
+- category: arithmetic
+  datasets:
+  - dataset: basic_arithmetic
+  - dataset: bitwise_arithmetic
+  - dataset: calendar_arithmetic
+  - dataset: chain_sum
+  - dataset: count_bits
+  - dataset: decimal_arithmetic
+  - dataset: decimal_chain_sum
+  - dataset: dice
+  - dataset: fraction_simplification
+  - dataset: gcd
+  - dataset: gsm_symbolic
+  - dataset: lcm
+  - dataset: leg_counting
+  - dataset: number_format
+  - dataset: power_function
+  - dataset: prime_factorization
+  - dataset: products
+  - dataset: time_intervals
+- category: code
+  datasets:
+  - dataset: bf
+  - dataset: codeio
+- category: cognition
+  datasets:
+  - dataset: color_cube_rotation
+  - dataset: figlet_font
+  - dataset: needle_haystack
+  - dataset: number_sequence
+  - dataset: rectangle_count
+  - dataset: rubiks_cube
+- category: games
+  datasets:
+  - dataset: countdown
+  - dataset: emoji_mystery
+  - dataset: futoshiki
+  - dataset: knight_swap
+  - dataset: maze
+  - dataset: mini_sudoku
+  - dataset: n_queens
+  - dataset: rush_hour
+  - dataset: sokoban
+  - dataset: sudoku
+  - dataset: tower_of_hanoi
+  - dataset: tsumego
+- category: geometry
+  datasets:
+  - dataset: advanced_geometry
+  - dataset: simple_geometry
+- category: graphs
+  datasets:
+  - dataset: course_schedule
+  - dataset: family_relationships
+  - dataset: largest_island
+  - dataset: quantum_lock
+  - dataset: shortest_path
+- category: induction
+  datasets:
+  - dataset: list_functions
+- category: logic
+  datasets:
+  - dataset: aiw
+  - dataset: circuit_logic
+  - dataset: knights_knaves
+  - dataset: propositional_logic
+  - dataset: self_reference
+  - dataset: syllogism
+  - dataset: zebra_puzzles
--- a/eval/yaml/openai-o3.yaml
+++ b/eval/yaml/openai-o3.yaml
@ -1,126 +1,124 @@
-# Combined configuration for openai/o3-mini
-model: "openai/o3-mini"
-provider: "OpenAI"
-output_dir: "results"
+model: openai/o3-mini
+provider: OpenAI
+output_dir: results
 max_concurrent: 10
 default_size: 50
 default_seed: 45
-
 categories:
-  - category: "algebra"
-    datasets:
-      - dataset: "complex_arithmetic"
-      - dataset: "intermediate_integration"
-      - dataset: "polynomial_equations"
-      - dataset: "polynomial_multiplication"
-      - dataset: "simple_equations"
-      - dataset: "simple_integration"
-
-  - category: "algorithmic"
-    datasets:
-      - dataset: "ab"
-      - dataset: "binary_alternation"
-      - dataset: "base_conversion"
-      - dataset: "binary_matrix"
-      - dataset: "caesar_cipher"
-      - dataset: "count_primes"
-      - dataset: "cryptarithm"
-      - dataset: "game_of_life"
-      - dataset: "graph_color"
-      - dataset: "group_anagrams"
-      - dataset: "isomorphic_strings"
-      - dataset: "letter_counting"
-      - dataset: "letter_jumble"
-      - dataset: "manipulate_matrix"
-      - dataset: "number_filtering"
-      - dataset: "number_sorting"
-      - dataset: "palindrome"
-      - dataset: "pool_matrix"
-      - dataset: "ransom_note"
-      - dataset: "rotate_matrix"
-      - dataset: "sentence_reordering"
-      - dataset: "spell_backward"
-      - dataset: "spiral_matrix"
-      - dataset: "string_insertion"
-      - dataset: "string_manipulation"
-      - dataset: "string_synthesis"
-      - dataset: "word_ladder"
-      - dataset: "word_sequence_reversal"
-      - dataset: "word_sorting"
-
-  - category: "arc"
-    datasets:
-      - dataset: "arc_1d"
-      - dataset: "arc_agi"
-      - dataset: "rearc"
-
-  - category: "arithmetic"
-    datasets:
-      - dataset: "basic_arithmetic"
-      - dataset: "bitwise_arithmetic"
-      - dataset: "calendar_arithmetic"
-      - dataset: "chain_sum"
-      - dataset: "count_bits"
-      - dataset: "decimal_arithmetic"
-      - dataset: "decimal_chain_sum"
-      - dataset: "dice"
-      - dataset: "fraction_simplification"
-      - dataset: "gcd"
-      - dataset: "gsm_symbolic"
-      - dataset: "lcm"
-      - dataset: "leg_counting"
-      - dataset: "number_format"
-      - dataset: "power_function"
-      - dataset: "prime_factorization"
-      - dataset: "products"
-      - dataset: "time_intervals"
-
-  - category: "code"
-    datasets:
-      - dataset: "bf"
-
-  - category: "cognition"
-    datasets:
-      - dataset: "color_cube_rotation"
-      - dataset: "figlet_font"
-      - dataset: "needle_haystack"
-      - dataset: "number_sequence"
-      - dataset: "rectangle_count"
-      - dataset: "rubiks_cube"
-
-  - category: "games"
-    datasets:
-      - dataset: "countdown"
-      - dataset: "emoji_mystery"
-      - dataset: "futoshuki"
-      - dataset: "knight_swap"
-      - dataset: "maze"
-      - dataset: "mini_sudoku"
-      - dataset: "n_queens"
-      - dataset: "sokoban"
-      - dataset: "sudoku"
-      - dataset: "tower_of_hanoi"
-      - dataset: "tsumego"
-
-  - category: "geometry"
-    datasets:
-      - dataset: "simple_geometry"
-      - dataset: "advanced_geometry"
-
-  - category: "graphs"
-    datasets:
-      - dataset: "course_schedule"
-      - dataset: "family_relationships"
-      - dataset: "largest_island"
-      - dataset: "list_functions"
-      - dataset: "quantum_lock"
-      - dataset: "shortest_path"
-
-  - category: "logic"
-    datasets:
-      - dataset: "aiw"
-      - dataset: "circuit_logic"
-      - dataset: "propositional_logic"
-      - dataset: "self_reference"
-      - dataset: "syllogism"
-      - dataset: "zebra_puzzles"
+- category: algebra
+  datasets:
+  - dataset: complex_arithmetic
+  - dataset: intermediate_integration
+  - dataset: polynomial_equations
+  - dataset: polynomial_multiplication
+  - dataset: simple_equations
+  - dataset: simple_integration
+- category: algorithmic
+  datasets:
+  - dataset: ab
+  - dataset: base_conversion
+  - dataset: binary_alternation
+  - dataset: binary_matrix
+  - dataset: caesar_cipher
+  - dataset: count_primes
+  - dataset: cryptarithm
+  - dataset: game_of_life
+  - dataset: graph_color
+  - dataset: group_anagrams
+  - dataset: isomorphic_strings
+  - dataset: jugs
+  - dataset: letter_counting
+  - dataset: letter_jumble
+  - dataset: manipulate_matrix
+  - dataset: number_filtering
+  - dataset: number_sorting
+  - dataset: palindrome
+  - dataset: palindrome_partitioning
+  - dataset: pool_matrix
+  - dataset: ransom_note
+  - dataset: rotate_matrix
+  - dataset: rotten_oranges
+  - dataset: sentence_reordering
+  - dataset: spell_backward
+  - dataset: spiral_matrix
+  - dataset: string_insertion
+  - dataset: string_manipulation
+  - dataset: string_splitting
+  - dataset: string_synthesis
+  - dataset: word_ladder
+  - dataset: word_sequence_reversal
+  - dataset: word_sorting
+- category: arc
+  datasets:
+  - dataset: arc_1d
+  - dataset: arc_agi
+  - dataset: rearc
+- category: arithmetic
+  datasets:
+  - dataset: basic_arithmetic
+  - dataset: bitwise_arithmetic
+  - dataset: calendar_arithmetic
+  - dataset: chain_sum
+  - dataset: count_bits
+  - dataset: decimal_arithmetic
+  - dataset: decimal_chain_sum
+  - dataset: dice
+  - dataset: fraction_simplification
+  - dataset: gcd
+  - dataset: gsm_symbolic
+  - dataset: lcm
+  - dataset: leg_counting
+  - dataset: number_format
+  - dataset: power_function
+  - dataset: prime_factorization
+  - dataset: products
+  - dataset: time_intervals
+- category: code
+  datasets:
+  - dataset: bf
+  - dataset: codeio
+- category: cognition
+  datasets:
+  - dataset: color_cube_rotation
+  - dataset: figlet_font
+  - dataset: needle_haystack
+  - dataset: number_sequence
+  - dataset: rectangle_count
+  - dataset: rubiks_cube
+- category: games
+  datasets:
+  - dataset: countdown
+  - dataset: emoji_mystery
+  - dataset: futoshiki
+  - dataset: knight_swap
+  - dataset: maze
+  - dataset: mini_sudoku
+  - dataset: n_queens
+  - dataset: rush_hour
+  - dataset: sokoban
+  - dataset: sudoku
+  - dataset: tower_of_hanoi
+  - dataset: tsumego
+- category: geometry
+  datasets:
+  - dataset: advanced_geometry
+  - dataset: simple_geometry
+- category: graphs
+  datasets:
+  - dataset: course_schedule
+  - dataset: family_relationships
+  - dataset: largest_island
+  - dataset: quantum_lock
+  - dataset: shortest_path
+- category: induction
+  datasets:
+  - dataset: list_functions
+- category: logic
+  datasets:
+  - dataset: aiw
+  - dataset: circuit_logic
+  - dataset: knights_knaves
+  - dataset: propositional_logic
+  - dataset: self_reference
+  - dataset: syllogism
+  - dataset: zebra_puzzles