adds Needle in a Haystack problems

2026-04-19 12:58:07 +00:00 · 2025-02-20 12:28:30 +01:00 · 2025-02-20 12:28:30 +01:00 · 621c20d8d8
commit 621c20d8d8
parent 8b03bf6a92
4 changed files with 3584 additions and 0 deletions
--- a/tests/test_needle_haystack.py
+++ b/tests/test_needle_haystack.py
@ -0,0 +1,72 @@
+import pytest
+
+from reasoning_gym.cognition.needle_haystack import NeedleHaystackConfig, NeedleHaystackDataset
+
+
+def test_needle_haystack():
+    """Test basic properties and solution of generated items"""
+    config = NeedleHaystackConfig(seed=42, size=50, num_statements=50)
+    dataset = NeedleHaystackDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer="david bowie rules", entry=item) == 0.01
+        assert dataset.score_answer(answer=None, entry=item) == 0.0
+
+    config = NeedleHaystackConfig(seed=42, size=1, num_statements=500)
+    dataset = NeedleHaystackDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer=None, entry=item) == 0.0
+
+    config = NeedleHaystackConfig(seed=42, size=1, num_statements=5000)
+    dataset = NeedleHaystackDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer=None, entry=item) == 0.0
+
+    config = NeedleHaystackConfig(seed=42, size=1, num_statements=50000)
+    dataset = NeedleHaystackDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer=None, entry=item) == 0.0
+
+    config = NeedleHaystackConfig(seed=42, size=1, num_statements=500000)
+    dataset = NeedleHaystackDataset(config)
+
+    for item in dataset:
+        assert isinstance(item, dict)
+        assert "question" in item
+        assert "answer" in item
+        assert "metadata" in item
+
+        # Test the scoring
+        assert dataset.score_answer(answer=item["answer"], entry=item) == 1.0
+        assert dataset.score_answer(answer=None, entry=item) == 0.0