Eval N completions per prompt (#374)

* feat: Add support for generating multiple completions per prompt * feat: Track best and mean scores for multiple completions per prompt * feat: Add checkpoint and resume functionality to evaluation script
2026-04-19 12:58:07 +00:00 · 2025-03-15 16:39:36 +01:00 · 2025-03-15 16:39:36 +01:00 · bfa5f8078b
commit bfa5f8078b
parent bd13b1b92a
12 changed files with 426 additions and 126 deletions
--- a/eval/yaml/deepseek-r1.yaml
+++ b/eval/yaml/deepseek-r1.yaml
@ -89,6 +89,7 @@ categories:
  - dataset: rubiks_cube
 - category: games
  datasets:
+  - dataset: boxnet
  - dataset: countdown
  - dataset: emoji_mystery
  - dataset: futoshiki