add self-reference puzzles

2026-04-19 12:58:07 +00:00 · 2025-02-07 15:09:42 +01:00 · 2025-02-07 15:09:42 +01:00 · bd8fc9beeb
commit bd8fc9beeb
parent 2458d3a646
5 changed files with 436 additions and 2 deletions
--- a/tests/test_self_reference.py
+++ b/tests/test_self_reference.py
@ -0,0 +1,55 @@
+import pytest
+
+from reasoning_gym.logic.self_reference import SelfReferenceConfig, SelfReferenceDataset
+
+
+def test_self_reference():
+    """Test basic properties and solution of generated items"""
+
+    # Easy
+    config = SelfReferenceConfig(seed=42, size=20, difficulty=1)
+    dataset = SelfReferenceDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer=99, entry=item) == 0.1
+        assert dataset.score_answer(answer="99", entry=item) == 0.1
+        assert dataset.score_answer(answer=None, entry=item) == 0.0
+
+    # # Medium
+    config = SelfReferenceConfig(seed=42, size=1, difficulty=5)
+    dataset = SelfReferenceDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer=99, entry=item) == 0.1
+        assert dataset.score_answer(answer="99", entry=item) == 0.1
+        assert dataset.score_answer(answer=None, entry=item) == 0.0
+
+    # # Hard
+    config = SelfReferenceConfig(seed=42, size=1, difficulty=10)
+    dataset = SelfReferenceDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer=99, entry=item) == 0.1
+        assert dataset.score_answer(answer="99", entry=item) == 0.1
+        assert dataset.score_answer(answer=None, entry=item) == 0.0