To display benchmark results for models reported in the paper, run [`show_eval_results.sh`](show_eval_results.sh). To run a model on all benchmarks, see [`run_all_evals.sh`](run_all_evals.sh).