feat: Add CountdownGameDataset to reasoning_gym games module

2026-04-27 17:23:19 +00:00 · 2025-01-25 01:20:24 +01:00 · 2025-01-25 01:20:24 +01:00 · a5f0d5d6e5
commit a5f0d5d6e5
parent 519e411fa5
3 changed files with 230 additions and 1 deletions
--- a/reasoning_gym/games/init.py
+++ b/reasoning_gym/games/init.py
@ -5,14 +5,17 @@ Game tasks for training reasoning capabilities:
 - Strategy games
 """
 from .countdown_game import CountdownGameConfig, CountdownGameDataset
 from .maze import MazeConfig, MazeDataset
 from .mini_sudoku import MiniSudokuConfig, MiniSudokuDataset
 from .sudoku import SudokuConfig, SudokuDataset
 __all__ = [
    "CountdownGameConfig",
    "CountdownGameDataset",
    "MiniSudokuConfig",
    "MiniSudokuDataset",
-    "SudokuConfig",
+    "SudokuConfig", 
    "SudokuDataset",
    "MazeConfig",
    "MazeDataset",
--- a/reasoning_gym/games/countdown_game.py
+++ b/reasoning_gym/games/countdown_game.py
@ -0,0 +1,139 @@
 from dataclasses import dataclass
 from random import Random
 from typing import List, Optional, Tuple
 import sympy
 from sympy import Symbol, symbols
 from ..factory import ProceduralDataset, register_dataset
@dataclass
 class CountdownGameConfig:
    """Configuration for Countdown Number Game task generation"""
    min_numbers: int = 4  # Minimum numbers to provide
    max_numbers: int = 6  # Maximum numbers to provide
    min_value: int = 1  # Minimum value for source numbers
    max_value: int = 100  # Maximum value for source numbers
    min_target: int = 100  # Minimum target value
    max_target: int = 999  # Maximum target value
    operators: tuple = ("+", "-", "*", "/")  # Allowed operators
    randomize_numbers: bool = True  # Whether to randomize the order of source numbers
    seed: Optional[int] = None
    size: int = 500
    def validate(self) -> None:
        """Validate configuration parameters"""
        assert self.min_numbers > 1, "min_numbers must be greater than 1"
        assert self.max_numbers >= self.min_numbers, "max_numbers must be >= min_numbers"
        assert self.min_value > 0, "min_value must be positive"
        assert self.max_value >= self.min_value, "max_value must be >= min_value"
        assert self.min_target > 0, "min_target must be positive"
        assert self.max_target >= self.min_target, "max_target must be >= min_target"
        assert len(self.operators) > 0, "must specify at least one operator"
        assert all(op in ("+", "-", "*", "/") for op in self.operators), "invalid operator specified"
 class CountdownGameDataset(ProceduralDataset):
    """Generates Countdown Number Game tasks"""
    def __init__(self, config: CountdownGameConfig):
        self._prompt_templates = [
            "Using the numbers {numbers}, create an expression that equals {target}.\nYou can only use each number once.",
            "Find a way to make {target} using some or all of these numbers: {numbers}.\nEach number can only be used once.",
            "Calculate {target} using the numbers {numbers}.\nEach number may be used at most once.",
        ]
        super().__init__(config=config, seed=config.seed, size=config.size)
    def __getitem__(self, idx: int) -> dict:
        """Generate a single Countdown Game task
        Returns:
            dict with keys:
                - question: str, the task description with numbers and target
                - answer: str, one possible solution expression
                - metadata: dict with generation parameters
        """
        rng = Random(self.seed + idx)
        # Generate a valid expression and its result
        expression, numbers, target = self._generate_expression(rng)
        # Optionally randomize the order of numbers
        if self.config.randomize_numbers:
            rng.shuffle(numbers)
        numbers_str = ", ".join(map(str, numbers))
        return {
            "question": rng.choice(self._prompt_templates).format(
                numbers=numbers_str,
                target=target
            ),
            "answer": expression,
            "metadata": {
                "numbers": numbers,
                "target": target,
                "expression": expression,
            },
        }
    def _generate_expression(self, rng: Random) -> Tuple[str, List[int], int]:
        """Generate a valid expression and its result
        Returns:
            Tuple of (expression string, list of numbers used, target value)
        """
        num_terms = rng.randint(self.config.min_numbers, self.config.max_numbers)
        # Generate random numbers
        numbers = [rng.randint(self.config.min_value, self.config.max_value) 
                  for _ in range(num_terms)]
        # Create symbols for building expression
        syms = symbols(f"x:{num_terms}")
        # Build random expression
        expr = syms[0]
        used_nums = [numbers[0]]
        for i in range(1, num_terms):
            op = rng.choice(self.config.operators)
            if op == "+":
                expr = expr + syms[i]
            elif op == "-":
                expr = expr - syms[i]
            elif op == "*":
                expr = expr * syms[i]
            else:  # division
                # Ensure division results in integer
                if numbers[i] != 0:  # Avoid division by zero
                    # Try to find a number that divides evenly
                    remaining = [n for n in numbers[i:] if n != 0]
                    if remaining:
                        div = rng.choice(remaining)
                        numbers[i] = div
                        expr = expr / syms[i]
                    else:
                        # Fallback to multiplication
                        expr = expr * syms[i]
                else:
                    # Fallback to multiplication
                    expr = expr * syms[i]
            used_nums.append(numbers[i])
        # Substitute actual numbers to get target
        subs = {sym: num for sym, num in zip(syms, numbers)}
        target = int(expr.subs(subs))
        # Convert to string expression
        expr_str = str(expr)
        for i, sym in enumerate(syms):
            expr_str = expr_str.replace(str(sym), str(numbers[i]))
        return expr_str, numbers, target
 # Register the dataset
 register_dataset("countdown_game", CountdownGameDataset, CountdownGameConfig)
--- a/tests/test_countdown_game.py
+++ b/tests/test_countdown_game.py
@ -0,0 +1,87 @@
 import pytest
 from reasoning_gym.games.countdown_game import CountdownGameConfig, CountdownGameDataset
 def test_countdown_game_config_validation():
    """Test that invalid configs raise appropriate errors"""
    with pytest.raises(AssertionError):
        config = CountdownGameConfig(min_numbers=1)  # Too few numbers
        config.validate()
    with pytest.raises(AssertionError):
        config = CountdownGameConfig(min_numbers=4, max_numbers=3)  # Invalid range
        config.validate()
    with pytest.raises(AssertionError):
        config = CountdownGameConfig(operators=["^"])  # Invalid operator
        config.validate()
 def test_countdown_game_deterministic():
    """Test that dataset generates same items with same seed"""
    config = CountdownGameConfig(seed=42, size=10)
    dataset1 = CountdownGameDataset(config)
    dataset2 = CountdownGameDataset(config)
    for i in range(len(dataset1)):
        assert dataset1[i] == dataset2[i]
 def test_countdown_game_items():
    """Test basic properties of generated items"""
    config = CountdownGameConfig(
        min_numbers=3,
        max_numbers=5,
        min_value=1,
        max_value=20,  # Small numbers for testing
        min_target=10,
        max_target=100,
        size=50,
        seed=42
    )
    dataset = CountdownGameDataset(config)
    for item in dataset:
        assert isinstance(item, dict)
        assert "question" in item
        assert "answer" in item
        assert "metadata" in item
        # Check metadata contains required fields
        assert "numbers" in item["metadata"]
        assert "target" in item["metadata"]
        assert "expression" in item["metadata"]
        # Verify number of source numbers is within config range
        assert config.min_numbers <= len(item["metadata"]["numbers"]) <= config.max_numbers
        # Verify target is within config range
        assert config.min_target <= item["metadata"]["target"] <= config.max_target
        # Verify all numbers are within config range
        assert all(config.min_value <= n <= config.max_value for n in item["metadata"]["numbers"])
 def test_countdown_game_randomization():
    """Test number randomization configuration"""
    config = CountdownGameConfig(
        min_numbers=4,
        max_numbers=4,  # Fixed size for testing
        randomize_numbers=False,
        size=10,
        seed=42
    )
    # Without randomization, numbers should appear in same order
    dataset = CountdownGameDataset(config)
    first_item = dataset[0]
    expr_nums = [int(n) for n in first_item["metadata"]["expression"].replace("(","").replace(")","").split(" ") if n.isdigit()]
    assert expr_nums == first_item["metadata"]["numbers"]
    # With randomization, numbers might appear in different order
    config.randomize_numbers = True
    dataset = CountdownGameDataset(config)
    first_item = dataset[0]
    expr_nums = [int(n) for n in first_item["metadata"]["expression"].replace("(","").replace(")","").split(" ") if n.isdigit()]
    assert sorted(expr_nums) == sorted(first_item["metadata"]["numbers"])