added r1 evaluation logic

2026-04-19 12:58:07 +00:00 · 2025-02-11 03:46:56 +00:00 · 2025-02-11 03:46:56 +00:00 · 42e02640a3
commit 42e02640a3
parent 0657222a8f
6 changed files with 208 additions and 0 deletions
--- a/eval/r1/yaml/algebra.yaml
+++ b/eval/r1/yaml/algebra.yaml
@ -0,0 +1,13 @@
+model: deepseek/deepseek-r1
+category: algebra
+datasets:
+  - intermediate_integration
+  - polynomial_equations
+  - polynomial_multiplication
+  - simple_equations
+  - simple_integration
+  - complex_arithmetic
+eval_dir: eval/r1
+dataset_size: 50
+dataset_seed: 42
+developer_role: system