Minor question template & score_answer improvements (#261)

* math prompt improvements * ignore brackets in complex_arithmetic results * improve additional instruction in prompt of polynomial_equations * more strict tests for score_answer in polynomial_equations * simplify special reward handling * fix test_intermediate_integration * fix sokoban dataset * add common dataset score_answer consistency test
2026-04-23 16:55:05 +00:00 · 2025-03-04 21:55:09 +01:00 · 2025-03-04 21:55:09 +01:00 · b2904ccab9
commit b2904ccab9
parent bf24999bb0
106 changed files with 403 additions and 507 deletions
--- a/tests/test_quantum_lock.py
+++ b/tests/test_quantum_lock.py
@ -43,7 +43,8 @@ def test_quantumlock_items():
        assert "target_value" in item["metadata"]

        # Verify solution works
-        assert dataset.score_answer(answer=item["metadata"]["solution_path"], entry=item) == 1.0
+        answer = "".join(item["metadata"]["solution_path"])
+        assert dataset.score_answer(answer=answer, entry=item) == 1.0
        assert dataset.score_answer(answer=None, entry=item) == 0.0


@ -98,17 +99,17 @@ def test_quantumlock_scoring():
    dataset = QuantumLockDataset(config)

    for item in dataset:
-        solution = item["metadata"]["solution_path"]
+        solution = item["answer"]

        # Test correct solution
        assert dataset.score_answer(solution, item) == 1.0

        # Test empty/None answers
        assert dataset.score_answer(None, item) == 0.0
-        assert dataset.score_answer("", item) == 0.1
+        assert dataset.score_answer("", item) == 0.0

        # Test invalid buttons
-        assert dataset.score_answer("XYZ", item) == 0.1
+        assert dataset.score_answer("XYZ", item) == 0.0

        # Test case insensitivity
        if solution: