sacrebleu>=2.5.1
bert-score>=0.3.13
evaluate>=0.4.3
rouge_score>=0.1.2
datasets>=3.3.2
pandas>=2.2.3
tqdm>=4.67.1
numpy>=1.26.4
model2vec>=0.4.1
absl-py>=0.9.0
python-dotenv>=1.0.0
# Optional dependencies for reference generation
# vllm>=0.8.3