Merge branch 'main' into koko/scramble

2026-04-19 12:58:07 +00:00 · 2025-01-26 15:41:25 +01:00 · 2025-01-26 15:41:25 +01:00 · 684a69603f
commit 684a69603f
parent 03d4a5d8ac 4fdf80e056
6 changed files with 171 additions and 31 deletions
--- a/reasoning_gym/algorithmic/init.py
+++ b/reasoning_gym/algorithmic/init.py
@ -12,10 +12,13 @@ from .letter_counting import LetterCountingConfig, LetterCountingDataset
 from .letter_jumble import LetterJumbleConfig, LetterJumbleDataset
 from .number_filtering import NumberFilteringConfig, NumberFilteringDataset
 from .number_sorting import NumberSortingConfig, NumberSortingDataset
-from .word_reversal import WordReversalConfig, WordReversalDataset
 from .sentence_reordering import SentenceReorderingConfig, SentenceReorderingDataset
+from .spell_backward import SpellBackwardConfig, SpellBackwardDataset
+from .word_sequence_reversal import WordSequenceReversalConfig, WordSequenceReversalDataset

 __all__ = [
+    "SpellBackwardConfig",
+    "SpellBackwardDataset",
    "BaseConversionConfig",
    "BaseConversionDataset",
    "CaesarCipherConfig",
@ -28,8 +31,8 @@ __all__ = [
    "NumberFilteringDataset",
    "NumberSortingConfig",
    "NumberSortingDataset",
-    "WordReversalConfig",
-    "WordReversalDataset",
    "SentenceReorderingConfig",
    "SentenceReorderingDataset",
+    "WordSequenceReversalConfig",
+    "WordSequenceReversalDataset",
 ]
--- a/reasoning_gym/algorithmic/spell_backward.py
+++ b/reasoning_gym/algorithmic/spell_backward.py
@ -0,0 +1,53 @@
+"""Spell backward task generator"""
+
+import re
+from dataclasses import dataclass
+from random import Random
+from typing import Optional
+
+from ..data import read_data_file
+from ..factory import ProceduralDataset, register_dataset
+
+
+@dataclass
+class SpellBackwardConfig:
+    """Configuration for spelling words backward task generation"""
+
+    min_word_len: int = 3  # Minimum word length
+    seed: Optional[int] = None
+    size: int = 500  # Virtual dataset size
+
+    def validate(self) -> None:
+        """Validate configuration parameters"""
+        assert self.min_word_len > 0, "min_word_len must be positive"
+
+
+class SpellBackwardDataset(ProceduralDataset):
+    """Generates tasks to spell words backward"""
+
+    def __init__(self, config: SpellBackwardConfig):
+        super().__init__(config=config, seed=config.seed, size=config.size)
+
+        # Load and preprocess text
+        text = read_data_file("in_the_year_2889.txt")
+        # Extract words and clean them to contain only alphanumeric characters
+        self.words = [
+            word for word in re.findall(r"\b\w+\b", text) if word.isalnum() and len(word) >= config.min_word_len
+        ]
+
+    def __getitem__(self, idx: int) -> dict:
+        """Generate a single spell backward task"""
+        rng = Random(self.seed + idx)
+
+        # Select random word
+        word = rng.choice(self.words)
+        answer = word[::-1]
+
+        return {
+            "question": f"Spell this word backward (example: sun -> nus): {word}",
+            "answer": answer,
+            "metadata": {"word": word, "word_len": len(word)},
+        }
+
+
+register_dataset("spell_backward", SpellBackwardDataset, SpellBackwardConfig)
--- a/reasoning_gym/algorithmic/word_sequence_reversal.py
+++ b/reasoning_gym/algorithmic/word_sequence_reversal.py
@ -10,8 +10,8 @@ from ..factory import ProceduralDataset, register_dataset


@dataclass
-class WordReversalConfig:
-    """Configuration for word reversal task generation"""
+class WordSequenceReversalConfig:
+    """Configuration for word sequence reversal task generation"""

    min_words: int = 3  # Minimum words in list
    max_words: int = 8  # Maximum words in list
@ -24,10 +24,10 @@ class WordReversalConfig:
        assert self.max_words >= self.min_words, "max_words must be >= min_words"


-class WordReversalDataset(ProceduralDataset):
-    """Generates word reversal tasks from text spans"""
+class WordSequenceReversalDataset(ProceduralDataset):
+    """Generates word sequence reversal tasks from text spans"""

-    def __init__(self, config: WordReversalConfig):
+    def __init__(self, config: WordSequenceReversalConfig):
        super().__init__(config=config, seed=config.seed, size=config.size)

        # Load and preprocess text
@ -55,4 +55,4 @@ class WordReversalDataset(ProceduralDataset):
        }


-register_dataset("word_reversal", WordReversalDataset, WordReversalConfig)
+register_dataset("word_sequence_reversal", WordSequenceReversalDataset, WordSequenceReversalConfig)