cfg

2026-04-29 17:35:16 +00:00 · 2025-04-22 20:33:04 +01:00 · 2025-04-22 20:33:04 +01:00 · 1ccd62bc1a
commit 1ccd62bc1a
parent e372224ee1
1 changed files with 4 additions and 4 deletions
--- a/training/configs/external_generalisation/math_curriculum_qwen_7b.yaml
+++ b/training/configs/external_generalisation/math_curriculum_qwen_7b.yaml
@ -136,7 +136,7 @@ actor_rollout_ref:
    enforce_eager: True
    free_cache_engine: True
    load_format: dummy_dtensor
-    tensor_model_parallel_size: 4
+    tensor_model_parallel_size: 2
    max_num_batched_tokens: 12288
    max_num_seqs: 1024
    log_prob_micro_batch_size: null # will be deprecated, use log_prob_micro_batch_size_per_gpu
@ -167,12 +167,12 @@ trainer:
  balance_batch: True
  total_epochs: 1
  total_training_steps: 1500
-  project_name: inter-domain-generalisation
-  experiment_name: inter_reasoning_algebra_qwen_3b_composite
+  project_name: external-generalisation
+  experiment_name: math_curriculum_qwen_7b
  logger: [ 'console', 'wandb' ]
  val_generations_to_log_to_wandb: 0
  nnodes: 1
-  n_gpus_per_node: 4
+  n_gpus_per_node: 2
  save_freq: 100
  # auto: find the last ckpt to resume. If can't find, start from scratch
  resume_mode: auto # or auto or resume_path if