Diplomacy trainer env (#227)

* minimal implementation, simplified challenge registry * need game save logic * fixed challenge gen, works with local test * updated challenge gen with wider ranges, working with local script * runs working correctly, wandb stats look ok * linting * Add diplomacy environment with AI_Diplomacy submodule - Add diplomacy_env_minimal.py for diplomacy game environment - Add atropos_client_minimal.py for client interface - Add diplomacy_local_server.py for local game server - Add AI_Diplomacy submodule from GoodStartLabs/AI_Diplomacy - Fix import ordering and remove unused imports * test file working, moving to cluster to test training * updated gitignore * removed logs * minor fixes, training running now * readded proxy reg and queue system * linting * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * queue gameid bug, refactored * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * cleaned up configs & allowed for openrouter models to be easily used * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci * linting * Remove duplicate dependencies from diplomacy requirements.txt Only keep AI_Diplomacy-specific dependencies that aren't already in the main project --------- Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
2026-04-19 12:57:58 +00:00 · 2025-08-12 09:02:16 +10:00 · 2025-08-12 09:02:16 +10:00 · 46f0602227
commit 46f0602227
parent 4fe67e698d
13 changed files with 1317 additions and 4 deletions
--- a/.gitignore
+++ b/.gitignore
@ -205,3 +205,6 @@ environments/community/word_hunt/word_hunt_rollouts*.html
 *.z8
 *.ni
 *.z5
+
+# Diplomacy artefacts
+environments/game_environments/diplomacy_environment/logs/
--- a/.gitmodules
+++ b/.gitmodules
@ -4,3 +4,6 @@
 [submodule "environments/reasoning_gym_environment/reasoning-gym"]
 	path = environments/reasoning_gym_environment/reasoning-gym
 	url = https://github.com/open-thought/reasoning-gym
+[submodule "environments/game_environments/diplomacy_environment/AI_Diplomacy"]
+	path = environments/game_environments/diplomacy_environment/AI_Diplomacy
+	url = https://github.com/GoodStartLabs/AI_Diplomacy.git
--- a/environments/game_environments/diplomacy_environment/AI_Diplomacy
+++ b/environments/game_environments/diplomacy_environment/AI_Diplomacy
@ -0,0 +1 @@
+Subproject commit 70d4ae2fe029ed38bf823ce70f5d45a7bcc7afbc
--- a/environments/game_environments/diplomacy_environment/README.md
+++ b/environments/game_environments/diplomacy_environment/README.md
@ -0,0 +1,54 @@
+# Minimal Diplomacy Environment
+
+A simplified Diplomacy RL training environment for Atropos that integrates with AI_Diplomacy.
+
+## Overview
+
+This minimal implementation provides:
+- Basic game integration via AI_Diplomacy submodule
+- Parallel rollouts with configurable group_size
+- LLM request interception through AtroposClient proxy
+- Simple supply center based scoring
+- No complex features (no GRPO, memory systems, or advanced scoring)
+
+## Architecture
+
+```
+Atropos Policy Server
+        ↓
+AtroposClientMinimal (proxy)
+        ↓
+AI_Diplomacy Game Engine
+        ↓
+Game Execution
+```
+
+## Quick Start
+
+1. Install dependencies:
+```bash
+pip install -r requirements.txt
+cd AI_Diplomacy
+pip install -e .
+```
+
+2. Start your Atropos policy server on port 8000
+
+3. Run the environment:
+```bash
+python diplomacy_env_minimal.py serve
+```
+
+## Configuration
+
+Key settings in `DiplomacyEnvMinimalConfig`:
+- `max_game_turns`: Number of game turns (default: 10)
+- `training_power`: Which power the RL agent controls (default: "FRANCE")
+- `group_size`: Number of parallel games per trajectory (default: 4)
+
+## How It Works
+
+1. **Parallel Rollouts**: Each training step runs `group_size` games with the same initial seed
+2. **LLM Interception**: AtroposClientMinimal intercepts all LLM calls from AI_Diplomacy
+3. **Trajectory Collection**: Game interactions are collected and scored
+4. **Best Selection**: The highest scoring trajectory is returned for training
--- a/environments/game_environments/diplomacy_environment/init.py
+++ b/environments/game_environments/diplomacy_environment/init.py
@ -0,0 +1,7 @@
+"""
+Minimal Diplomacy Environment for Atropos RL Training
+"""
+
+from .diplomacy_env_minimal import DiplomacyEnvMinimal, DiplomacyEnvMinimalConfig
+
+__all__ = ["DiplomacyEnvMinimal", "DiplomacyEnvMinimalConfig"]
--- a/environments/game_environments/diplomacy_environment/atropos_client_minimal.py
+++ b/environments/game_environments/diplomacy_environment/atropos_client_minimal.py
@ -0,0 +1,268 @@
+"""
+
+This is a queue-based proxy that:
+- Intercepts LLM requests from AI_Diplomacy
+- Puts them on a queue for the environment to process
+- Waits for responses from the environment
+- Returns responses to AI_Diplomacy
+"""
+
+import asyncio
+import contextvars
+import json
+import logging
+import os
+import sys
+import uuid
+from typing import Dict, List, Optional
+
+from environments.game_environments.diplomacy_environment.AI_Diplomacy.ai_diplomacy import (
+    clients,
+)
+from environments.game_environments.diplomacy_environment.queue_manager import (
+    PolicyRequest,
+    QueueManager,
+    get_queue_manager,
+)
+
+sys.path.append(os.path.join(os.path.dirname(__file__), "AI_Diplomacy"))
+
+from environments.game_environments.diplomacy_environment.AI_Diplomacy.ai_diplomacy.clients import (  # noqa: E402
+    BaseModelClient,
+)
+
+logger = logging.getLogger(__name__)
+
+current_game_context = contextvars.ContextVar("current_game_id", default=None)
+_game_interactions = {}
+
+
+class AtroposClientMinimal(BaseModelClient):
+    """
+    Queue-based proxy client that forwards LLM requests through queues.
+    """
+
+    def __init__(
+        self,
+        model_name: str,
+        queue_manager: Optional[QueueManager] = None,
+    ):
+        super().__init__(model_name)
+        self.game_id = current_game_context.get()
+        if not self.game_id:
+            raise ValueError("AtroposClientMinimal created without game context set")
+
+        self.queue_manager = queue_manager or get_queue_manager()
+
+        self.interactions: List[Dict] = []
+        self.current_power: Optional[str] = None
+        self.current_phase: Optional[str] = None
+
+        logger.info(
+            f"Initialized AtroposClientMinimal for {model_name} in game {self.game_id}"
+        )
+
+    async def generate_response(self, prompt: str, temperature: float = 0.0) -> str:
+        """
+        Put request on queue and wait for response from environment.
+        This is the main method AI_Diplomacy calls for all LLM interactions.
+        """
+        task_type = self._infer_task_type(prompt)
+        power = self._extract_power(prompt)
+        phase = self._extract_phase(prompt)
+
+        if power:
+            self.current_power = power
+        if phase:
+            self.current_phase = phase
+
+        logger.debug(f"Generating response for {self.current_power}: {task_type}")
+
+        try:
+            request_id = str(uuid.uuid4())
+            request = PolicyRequest(
+                request_id=request_id,
+                game_id=self.game_id,
+                power=self.current_power or "UNKNOWN",
+                phase=self.current_phase or "UNKNOWN",
+                prompt=prompt,
+                temperature=temperature,
+                trajectory=self.interactions.copy(),
+            )
+
+            await self.queue_manager.put_request(self.game_id, request)
+            logger.debug(f"Put request {request_id} on queue for game {self.game_id}")
+
+            response = await self.queue_manager.get_response(self.game_id)
+
+            if response.request_id != request_id:
+                logger.warning(
+                    f"Response ID mismatch: expected {request_id}, got {response.request_id}"
+                )
+
+            response_text = response.response
+
+            # Track interaction
+            interaction = {
+                "power": self.current_power,
+                "phase": self.current_phase,
+                "task_type": task_type,
+                "prompt": prompt,
+                "response": response_text,
+                "metadata": response.metadata,  # Store any additional info from environment
+            }
+            self.interactions.append(interaction)
+
+            if self.game_id not in _game_interactions:
+                _game_interactions[self.game_id] = []
+            _game_interactions[self.game_id].append(interaction)
+
+            return response_text
+
+        except asyncio.TimeoutError:
+            logger.error("Timeout waiting for response from environment")
+            return self._generate_fallback_response(prompt)
+        except Exception as e:
+            logger.error(f"Error generating response: {e}")
+            return self._generate_fallback_response(prompt)
+
+    def _infer_task_type(self, prompt: str) -> str:
+        """Infer the type of task from the prompt."""
+        prompt_lower = prompt.lower()
+
+        if "orders" in prompt_lower or "submit" in prompt_lower:
+            return "orders"
+        elif "message" in prompt_lower or "negotiate" in prompt_lower:
+            return "negotiation"
+        elif "plan" in prompt_lower or "strategy" in prompt_lower:
+            return "planning"
+        else:
+            return "general"
+
+    def _extract_power(self, prompt: str) -> Optional[str]:
+        """Extract power name from prompt if mentioned."""
+        for power in [
+            "AUSTRIA",
+            "ENGLAND",
+            "FRANCE",
+            "GERMANY",
+            "ITALY",
+            "RUSSIA",
+            "TURKEY",
+        ]:
+            if power in prompt.upper():
+                return power
+        return None
+
+    def _extract_phase(self, prompt: str) -> Optional[str]:
+        """Extract game phase from prompt if mentioned."""
+        import re
+
+        phase_match = re.search(r"[SF]\d{4}[MRB]", prompt)
+        if phase_match:
+            return phase_match.group()
+
+        verbose_match = re.search(r"(Spring|Fall) \d{4}", prompt)
+        if verbose_match:
+            return verbose_match.group()
+
+        return None
+
+    def _generate_fallback_response(self, prompt: str) -> str:
+        """Generate a simple fallback response if there's an issue."""
+        task_type = self._infer_task_type(prompt)
+
+        if task_type == "orders":
+            return json.dumps(
+                {
+                    "orders": {},
+                    "explanations": {"general": "Fallback - no server connected"},
+                }
+            )
+        elif task_type == "negotiation":
+            return json.dumps(
+                {
+                    "messages": [],
+                    "explanations": {"general": "Fallback - no server connected"},
+                }
+            )
+        else:
+            return "Fallback response - server not available"
+
+    def get_interactions(self) -> List[Dict]:
+        """Get all tracked interactions for trajectory collection."""
+        return self.interactions
+
+    def clear_interactions(self):
+        """Clear tracked interactions for a new game."""
+        self.interactions = []
+        self.current_power = None
+        self.current_phase = None
+
+
+def get_game_interactions(game_id: str) -> List[Dict]:
+    """Get all interactions for a specific game."""
+    return _game_interactions.get(game_id, [])
+
+
+def clear_game_interactions(game_id: str):
+    """Clear interactions for a specific game."""
+    if game_id in _game_interactions:
+        del _game_interactions[game_id]
+
+
+def register_atropos_models_globally(queue_manager: Optional[QueueManager] = None):
+    """
+    Register AtroposClientMinimal with AI_Diplomacy's model loading system globally.
+    This should be called ONCE during environment setup.
+
+    Args:
+        queue_manager: Optional queue manager (uses global if not provided)
+    """
+
+    if hasattr(clients, "_atropos_registered"):
+        logger.info("AtroposClientMinimal already registered globally")
+        return
+
+    clients._original_load_model_client = clients.load_model_client
+    clients._atropos_queue_manager = queue_manager or get_queue_manager()
+
+    def load_model_client_with_atropos(
+        model_id: str, prompts_dir: Optional[str] = None
+    ) -> BaseModelClient:
+        if model_id.startswith("atropos-"):
+            logger.info(f"Creating context-aware AtroposClientMinimal for {model_id}")
+            return AtroposClientMinimal(model_id, clients._atropos_queue_manager)
+        else:
+            logger.info(f"Falling back to original loader for {model_id}")
+            return clients._original_load_model_client(model_id, prompts_dir)
+
+    clients.load_model_client = load_model_client_with_atropos
+    clients._atropos_registered = True
+
+    logger.info("Registered AtroposClientMinimal globally with AI_Diplomacy")
+
+
+if __name__ == "__main__":
+
+    async def test_client():
+        client = AtroposClientMinimal(
+            "atropos-test",
+            {"base_url": "http://localhost:8000", "model_name": "test-model"},
+        )
+
+        test_prompts = [
+            "You are FRANCE. What are your orders for Spring 1901?",
+            "Send a message to ENGLAND about cooperation.",
+            "What is your strategic plan?",
+        ]
+
+        for prompt in test_prompts:
+            print(f"\nPrompt: {prompt[:50]}...")
+            response = await client.generate_response(prompt)
+            print(f"Response: {response[:100]}...")
+
+        print(f"\nTracked {len(client.get_interactions())} interactions")
+        await client.close()
+
+    asyncio.run(test_client())
--- a/environments/game_environments/diplomacy_environment/diplomacy_env_minimal.py
+++ b/environments/game_environments/diplomacy_environment/diplomacy_env_minimal.py
@ -0,0 +1,636 @@
+"""
+Minimal Diplomacy Environment for Atropos
+
+A simplified implementation focusing on:
+- Basic game integration with AI_Diplomacy
+- Parallel rollouts with group_size
+- LLM proxy interception via AtroposClient
+- Simple supply center based scoring
+"""
+
+import asyncio
+import json
+import logging
+import os
+import random
+import subprocess
+import sys
+import time
+from pathlib import Path
+from typing import Dict, List, Optional, Tuple
+
+from atroposlib.envs.base import (
+    APIServerConfig,
+    BaseEnv,
+    BaseEnvConfig,
+    ScoredDataGroup,
+    ScoredDataItem,
+)
+from atroposlib.type_definitions import Item
+from atroposlib.utils.tokenize_for_trainer import tokenize_for_trainer
+from environments.game_environments.diplomacy_environment.atropos_client_minimal import (
+    clear_game_interactions,
+    current_game_context,
+    get_game_interactions,
+    register_atropos_models_globally,
+)
+from environments.game_environments.diplomacy_environment.queue_manager import (
+    PolicyRequest,
+    PolicyResponse,
+    get_queue_manager,
+)
+
+sys.path.append(os.path.join(os.path.dirname(__file__), "AI_Diplomacy"))
+import lm_game  # noqa: E402
+
+logger = logging.getLogger(__name__)
+
+POWERS = ["AUSTRIA", "ENGLAND", "FRANCE", "GERMANY", "ITALY", "RUSSIA", "TURKEY"]
+STARTING_SUPPLY_CENTERS = {
+    "AUSTRIA": 3,
+    "ENGLAND": 3,
+    "FRANCE": 3,
+    "GERMANY": 3,
+    "ITALY": 3,
+    "RUSSIA": 4,
+    "TURKEY": 3,
+}
+
+
+class DiplomacyEnvMinimalConfig(BaseEnvConfig):
+    """Configuration for the minimal Diplomacy environment."""
+
+    env_name: str = "diplomacy_minimal"
+
+    # Game settings (minimal implementation, no randomisation stuff)
+    max_game_turns: int = 10
+    training_power: str = "FRANCE"
+    total_steps: int = 10
+
+    # Scoring
+    supply_center_weight: float = 1.0
+    survival_bonus: float = 0.1
+    win_bonus: float = 5.0
+
+    # Process management
+    diplomacy_server_port: int = 8432
+    start_diplomacy_server: bool = True
+
+    # Logging
+    save_game_logs: bool = True
+    game_logs_dir: str = "./game_logs"
+
+    # Evaluation
+    eval_episodes: int = 10
+
+    # Opponent models (None = use SGLang endpoints from server_configs)
+    opponent_models: Optional[List[str]] = None
+
+
+class DiplomacyEnvMinimal(BaseEnv):
+    name = "diplomacy_minimal"
+    env_config_cls = DiplomacyEnvMinimalConfig
+
+    def __init__(
+        self,
+        config: DiplomacyEnvMinimalConfig,
+        server_configs: List[APIServerConfig],
+        slurm: bool = False,
+        testing: bool = False,
+    ):
+        super().__init__(config, server_configs, slurm, testing)
+        self.config: DiplomacyEnvMinimalConfig = config
+        self.game_server_process: Optional[subprocess.Popen] = None
+        self.game_outcomes_buffer: List[Dict] = []
+        self.eval_metrics_custom: List[Tuple[str, float]] = []
+
+        self.queue_manager = get_queue_manager()
+        self.active_games: Dict[str, Dict] = {}
+
+        if config.save_game_logs:
+            Path(config.game_logs_dir).mkdir(exist_ok=True)
+
+        self.system_prompt = (
+            f"You are playing Diplomacy as {config.training_power}. "
+            "Analyze the game state and respond with your strategy and orders."
+        )
+
+        if config.opponent_models:
+            self.opponent_models = config.opponent_models
+        else:
+            self.opponent_models = []
+            for server_config in server_configs:
+                model_spec = f"openai:{server_config.model_name}@{server_config.base_url}#{server_config.api_key}"
+                self.opponent_models.append(model_spec)
+
+    @classmethod
+    def config_init(cls) -> Tuple[DiplomacyEnvMinimalConfig, List[APIServerConfig]]:
+        """Initialize default configuration."""
+        env_config = DiplomacyEnvMinimalConfig(
+            tokenizer_name="NousResearch/Hermes-4-Qwen3-14B-1-e3",
+            group_size=4,
+            use_wandb=True,
+            rollout_server_url="http://localhost:8000",
+            max_token_length=4096,
+            wandb_name=cls.name,
+            steps_per_eval=20,
+        )
+        server_configs = [
+            APIServerConfig(
+                model_name="NousResearch/Hermes-4-Qwen3-14B-1-e3",
+                base_url="http://localhost:9004/v1",
+                api_key="x",
+                num_requests_for_eval=128,
+            ),
+            APIServerConfig(
+                model_name="NousResearch/Hermes-4-Qwen3-14B-1-e3",
+                base_url="http://localhost:9005/v1",
+                api_key="x",
+                num_requests_for_eval=128,
+            ),
+            APIServerConfig(
+                model_name="NousResearch/Hermes-4-Qwen3-14B-1-e3",
+                base_url="http://localhost:9006/v1",
+                api_key="x",
+                num_requests_for_eval=128,
+            ),
+            APIServerConfig(
+                model_name="NousResearch/Hermes-4-Qwen3-14B-1-e3",
+                base_url="http://localhost:9007/v1",
+                api_key="x",
+                num_requests_for_eval=128,
+            ),
+        ]
+        return env_config, server_configs
+
+    async def setup(self):
+        """Set up the environment."""
+        logger.info(f"Setting up {self.name} environment")
+
+        register_atropos_models_globally(self.queue_manager)
+
+        if self.config.start_diplomacy_server:
+            await self._start_diplomacy_server()
+
+        asyncio.create_task(self._poll_request_queues())
+
+    async def _poll_request_queues(self):
+        """Poll request queues and handle policy requests."""
+        while True:
+            try:
+                for game_id in list(self.active_games.keys()):
+                    queue_pair = self.queue_manager.get_queue_pair(game_id)
+                    if not queue_pair:
+                        continue
+
+                    try:
+                        request = queue_pair.request_queue.get_nowait()
+                        asyncio.create_task(self._handle_policy_request(request))
+                    except asyncio.QueueEmpty:
+                        pass
+
+                await asyncio.sleep(0.01)
+
+            except Exception as e:
+                logger.error(f"Error in queue polling: {e}")
+                await asyncio.sleep(1)
+
+    async def _handle_policy_request(self, request: PolicyRequest):
+        """Handle a single policy request by sampling from SGLang."""
+        try:
+            logger.info(
+                f"Handling request {request.request_id} for {request.power} in game {request.game_id}"
+            )
+
+            messages = [{"role": "system", "content": self.system_prompt}]
+
+            for interaction in request.trajectory:
+                messages.append({"role": "user", "content": interaction["prompt"]})
+                messages.append(
+                    {"role": "assistant", "content": interaction["response"]}
+                )
+
+            messages.append({"role": "user", "content": request.prompt})
+
+            async with self.server.dedicated_server() as server:
+                response = await server.chat_completion(
+                    messages=messages,
+                    n=1,
+                    temperature=request.temperature,
+                    max_tokens=2000,
+                )
+
+            response_text = response.choices[0].message.content.strip()
+
+            policy_response = PolicyResponse(
+                request_id=request.request_id,
+                response=response_text,
+                metadata={
+                    "power": request.power,
+                    "phase": request.phase,
+                },
+            )
+
+            await self.queue_manager.put_response(request.game_id, policy_response)
+            logger.debug(f"Sent response for request {request.request_id}")
+
+        except Exception as e:
+            logger.error(f"Error handling policy request: {e}")
+            error_response = PolicyResponse(
+                request_id=request.request_id,
+                response="Error: Failed to generate response",
+                metadata={"error": str(e)},
+            )
+            await self.queue_manager.put_response(request.game_id, error_response)
+
+    async def _start_diplomacy_server(self):
+        """Start the AI_Diplomacy game server."""
+        try:
+            logger.info(
+                f"Starting Diplomacy server on port {self.config.diplomacy_server_port}"
+            )
+            self.game_server_process = subprocess.Popen(
+                [
+                    sys.executable,
+                    "-m",
+                    "diplomacy.server.run",
+                    "--port",
+                    str(self.config.diplomacy_server_port),
+                ],
+                cwd=os.path.join(os.path.dirname(__file__), "AI_Diplomacy"),
+                stdout=subprocess.PIPE,
+                stderr=subprocess.PIPE,
+            )
+            # Give server time to start
+            await asyncio.sleep(3)
+            logger.info(
+                f"Diplomacy server started at http://localhost:{self.config.diplomacy_server_port}"
+            )
+        except Exception as e:
+            logger.error(f"Failed to start Diplomacy server: {e}")
+
+    async def collect_trajectories(
+        self, item: Item
+    ) -> Tuple[ScoredDataGroup, List[Item]]:
+        """
+        Run parallel Diplomacy games and collect all trajectories.
+
+        This implements the key RL training pattern:
+        1. Run group_size parallel games with the same seed
+        2. Each game explores different action sequences
+        3. Score each trajectory based on game outcome
+        4. Return all trajectories as a ScoredDataGroup for training
+        """
+        logger.warning(
+            f"[DiplomacyEnvMinimal] collect_trajectories called with item: {item}"
+        )
+        base_game_id = item.get("game_id", f"game-{int(time.time())}")
+        seed = item.get("seed", random.randint(0, 1_000_000))
+
+        logger.info(
+            f"Starting {self.config.group_size} parallel games with seed {seed}"
+        )
+
+        # Run parallel games w/ same seed
+        game_tasks = []
+        for i in range(self.config.group_size):
+            game_id = f"{base_game_id}-{i}"
+            task = self._run_single_game(game_id, seed, trajectory_id=i)
+            game_tasks.append(task)
+
+        results = await asyncio.gather(*game_tasks, return_exceptions=True)
+
+        scored_items = []
+        for i, result in enumerate(results):
+            if isinstance(result, Exception):
+                logger.error(f"Game {i} failed: {result}")
+                continue
+
+            if result and result[0]:
+                scored_items.append(result[0])
+
+        logger.warning(
+            f"[DiplomacyEnvMinimal] Collected {len(scored_items)} scored items"
+        )
+        if not scored_items:
+            logger.error("No valid trajectories collected")
+            return (
+                ScoredDataGroup(
+                    tokens=[],
+                    masks=[],
+                    scores=[],
+                    messages=[],
+                    advantages=None,
+                    ref_logprobs=None,
+                    group_overrides={},
+                    overrides=None,
+                    images=None,
+                ),
+                [],
+            )
+
+        sdg = ScoredDataGroup(
+            tokens=[],
+            masks=[],
+            scores=[],
+            messages=[],
+            advantages=None,
+            ref_logprobs=None,
+            group_overrides={},
+            overrides=None,
+            images=None,
+        )
+
+        for scored_item in scored_items:
+            sdg["tokens"].append(scored_item["tokens"])
+            sdg["masks"].append(scored_item["masks"])
+            sdg["scores"].append(scored_item["scores"])
+            if self.config.include_messages and scored_item.get("messages"):
+                sdg["messages"].append(scored_item["messages"])
+
+        logger.info(f"Collected {len(scored_items)} trajectories")
+        logger.warning(
+            f"[DiplomacyEnvMinimal] Returning ScoredDataGroup with {len(sdg['tokens'])} "
+            f"tokens, {len(sdg['scores'])} scores"
+        )
+        logger.warning(
+            f"[DiplomacyEnvMinimal] First few scores: {sdg['scores'][:5] if sdg['scores'] else 'None'}"
+        )
+
+        for i in range(self.config.group_size):
+            game_id = f"{base_game_id}-{i}"
+            if game_id in self.active_games:
+                del self.active_games[game_id]
+            try:
+                await self.queue_manager.remove_game_queues(game_id)
+            except Exception as e:
+                logger.debug(f"Error cleaning up queues for {game_id}: {e}")
+
+        return sdg, []
+
+    async def _run_single_game(
+        self, game_id: str, seed: int, trajectory_id: int
+    ) -> Tuple[Optional[ScoredDataItem], None]:
+        """
+        Run a single Diplomacy game and return scored trajectory.
+        """
+        try:
+            queue_pair = await self.queue_manager.create_game_queues(game_id)
+
+            self.active_games[game_id] = {
+                "queue_pair": queue_pair,
+                "start_time": time.time(),
+                "interactions": [],
+            }
+
+            token = current_game_context.set(game_id)
+
+            try:
+                game_result = await self._run_diplomacy_game(
+                    game_id, seed, trajectory_id
+                )
+            finally:
+                current_game_context.reset(token)
+
+            if not game_result:
+                logger.error(f"Game {game_id} failed to complete")
+                return None, None
+
+            score = self._calculate_score(game_result, self.config.training_power)
+
+            interactions = get_game_interactions(game_id)
+
+            training_interactions = [
+                i for i in interactions if i.get("power") == self.config.training_power
+            ]
+
+            if training_interactions:
+                messages = [{"role": "system", "content": self.system_prompt}]
+
+                for interaction in training_interactions:
+                    messages.append({"role": "user", "content": interaction["prompt"]})
+                    messages.append(
+                        {"role": "assistant", "content": interaction["response"]}
+                    )
+
+                logger.info(
+                    f"Collected {len(training_interactions)} interactions for {self.config.training_power}"
+                )
+            else:
+                logger.warning(
+                    f"No interactions found for {self.config.training_power} in game {game_id}"
+                )
+                messages = [
+                    {"role": "system", "content": self.system_prompt},
+                    {"role": "user", "content": f"Playing Diplomacy game {game_id}"},
+                    {
+                        "role": "assistant",
+                        "content": f"Game completed with score {score:.2f}",
+                    },
+                ]
+
+            clear_game_interactions(game_id)
+
+            tokenization_result = tokenize_for_trainer(
+                tokenizer=self.tokenizer,
+                chat=messages,
+                train_on_all_assistant_turns=True,
+            )
+
+            scored_data_item = ScoredDataItem(
+                messages=messages if self.config.include_messages else None,
+                tokens=tokenization_result["tokens"],
+                masks=tokenization_result["masks"],
+                scores=score,
+            )
+
+            self.game_outcomes_buffer.append(
+                {
+                    "game_id": game_id,
+                    "score": score,
+                    "winner": game_result.get("winner"),
+                    "turns": game_result.get("turns_played", 0),
+                    "final_centers": game_result.get("final_centers", {}),
+                }
+            )
+
+            return scored_data_item, None
+
+        except Exception as e:
+            logger.error(f"Error in game {game_id}: {e}", exc_info=True)
+            return None, None
+
+    async def _run_diplomacy_game(
+        self, game_id: str, seed: int, trajectory_id: int = 0
+    ) -> Optional[Dict]:
+        """Run a Diplomacy game using AI_Diplomacy's lm_game module."""
+
+        game_output_path = os.path.join(self.config.game_logs_dir, f"{game_id}.json")
+
+        models = []
+        opponent_idx = 0
+
+        for power in POWERS:
+            if power == self.config.training_power:
+                models.append("atropos-training-policy")
+            else:
+                models.append(
+                    self.opponent_models[opponent_idx % len(self.opponent_models)]
+                )
+                opponent_idx += 1
+
+        original_argv = sys.argv
+
+        try:
+            sys.argv = [
+                "lm_game.py",
+                "--models",
+                ",".join(models),
+                "--max_year",
+                str(1900 + self.config.max_game_turns),
+                "--output",
+                game_output_path,
+                "--seed",
+                str(seed + trajectory_id),
+                "--num_negotiation_rounds",
+                "0",
+            ]
+
+            await lm_game.main()
+
+            actual_game_file = os.path.join(game_output_path, "lmvsgame.json")
+            if os.path.exists(actual_game_file):
+                with open(actual_game_file, "r") as f:
+                    saved_game = json.load(f)
+
+                phases = saved_game.get("phases", [])
+                last_phase = phases[-1] if phases else {}
+
+                result = {
+                    "winner": saved_game.get("winner"),
+                    "turns_played": len(phases),
+                    "final_centers": {},
+                }
+
+                for power in POWERS:
+                    centers = (
+                        last_phase.get("state", {}).get("centers", {}).get(power, [])
+                    )
+                    result["final_centers"][power] = len(centers)
+
+                return result
+            else:
+                logger.error(f"Game output not found: {actual_game_file}")
+                return None
+
+        finally:
+            sys.argv = original_argv
+
+    def _calculate_score(self, game_result: Dict, power: str) -> float:
+        """Calculate score for a power based on game outcome."""
+        start_centers = STARTING_SUPPLY_CENTERS[power]
+        end_centers = game_result["final_centers"].get(power, 0)
+        center_score = (end_centers - start_centers) * self.config.supply_center_weight
+
+        survival_score = self.config.survival_bonus * game_result["turns_played"]
+
+        win_score = self.config.win_bonus if game_result["winner"] == power else 0.0
+
+        total_score = center_score + survival_score + win_score
+
+        logger.info(
+            f"{power} score: centers={center_score:.2f}, "
+            f"survival={survival_score:.2f}, win={win_score:.2f}, "
+            f"total={total_score:.2f}"
+        )
+
+        return total_score
+
+    async def get_next_item(self) -> Item:
+        """Generate configuration for the next game."""
+        return {
+            "game_id": f"game-{int(time.time())}-{random.randint(1000, 9999)}",
+            "seed": random.randint(0, 1_000_000),
+        }
+
+    async def evaluate(self, *args, **kwargs):
+        """Run evaluation games."""
+        logger.info(f"Starting evaluation with {self.config.eval_episodes} episodes")
+
+        eval_scores = []
+        wins = 0
+
+        for i in range(self.config.eval_episodes):
+            item = await self.get_next_item()
+            item["is_eval"] = True
+
+            scored_data_group, _ = await self.collect_trajectories(item)
+            if scored_data_group and scored_data_group["scores"]:
+                avg_score = sum(scored_data_group["scores"]) / len(
+                    scored_data_group["scores"]
+                )
+                eval_scores.append(avg_score)
+
+                if (
+                    self.game_outcomes_buffer
+                    and self.game_outcomes_buffer[-1]["winner"]
+                    == self.config.training_power
+                ):
+                    wins += 1
+
+        if eval_scores:
+            avg_score = sum(eval_scores) / len(eval_scores)
+            win_rate = wins / self.config.eval_episodes
+
+            self.eval_metrics_custom = [
+                (f"{self.name}_eval/avg_score", avg_score),
+                (f"{self.name}_eval/win_rate", win_rate),
+                (f"{self.name}_eval/num_completed", len(eval_scores)),
+            ]
+
+            logger.info(
+                f"Evaluation completed: avg_score={avg_score:.2f}, win_rate={win_rate:.2%}"
+            )
+
+    async def wandb_log(self, wandb_metrics: Optional[Dict[str, float]] = None):
+        """Log metrics to wandb."""
+        if wandb_metrics is None:
+            wandb_metrics = {}
+
+        if self.game_outcomes_buffer:
+            total_games = len(self.game_outcomes_buffer)
+            avg_score = sum(g["score"] for g in self.game_outcomes_buffer) / total_games
+            wins = sum(
+                1
+                for g in self.game_outcomes_buffer
+                if g["winner"] == self.config.training_power
+            )
+            win_rate = wins / total_games
+            avg_turns = sum(g["turns"] for g in self.game_outcomes_buffer) / total_games
+
+            wandb_metrics.update(
+                {
+                    f"{self.name}_train/avg_score": avg_score,
+                    f"{self.name}_train/win_rate": win_rate,
+                    f"{self.name}_train/avg_turns": avg_turns,
+                    f"{self.name}_train/num_games": total_games,
+                }
+            )
+
+        self.game_outcomes_buffer = []
+
+        for key, value in self.eval_metrics_custom:
+            wandb_metrics[key] = value
+        self.eval_metrics_custom = []
+
+        await super().wandb_log(wandb_metrics)
+
+    def __del__(self):
+        """Clean up server process on exit."""
+        if self.game_server_process:
+            self.game_server_process.terminate()
+            self.game_server_process.wait()
+
+
+if __name__ == "__main__":
+    DiplomacyEnvMinimal.cli()
--- a/environments/game_environments/diplomacy_environment/diplomacy_local_server.py
+++ b/environments/game_environments/diplomacy_environment/diplomacy_local_server.py
@ -0,0 +1,218 @@
+#!/usr/bin/env python3
+"""
+Local test server for the minimal Diplomacy environment.
+
+This script runs the full AI_Diplomacy game with real OpenAI models
+to test the AtroposClient proxy integration.
+"""
+
+import asyncio
+import logging
+import os
+
+from dotenv import load_dotenv
+
+from atroposlib.envs.base import APIServerConfig, EvalHandlingEnum
+from environments.game_environments.diplomacy_environment.diplomacy_env_minimal import (
+    DiplomacyEnvMinimal,
+    DiplomacyEnvMinimalConfig,
+)
+
+load_dotenv()
+
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+
+
+async def main():
+    """Run Diplomacy games for testing the minimal environment."""
+    logger.info("Starting Diplomacy minimal environment local test runner")
+
+    # Check for OpenRouter API key
+    if not os.getenv("OPENROUTER_API_KEY"):
+        logger.error(
+            "OPENROUTER_API_KEY not found. Please set it in your environment or .env file"
+        )
+        return
+
+    # Configure environment - using OpenRouter model
+    openrouter_api_key = os.getenv("OPENROUTER_API_KEY")
+    openrouter_model = (
+        f"openai:openai/gpt-oss-120b@https://openrouter.ai/api/v1#{openrouter_api_key}"
+    )
+
+    # Create list of opponent models (6 powers besides training power)
+    opponent_models = [openrouter_model] * 6
+
+    env_config = DiplomacyEnvMinimalConfig(
+        tokenizer_name="NousResearch/DeepHermes-3-Llama-3-8B-Preview",
+        group_size=2,  # Run 2 parallel games
+        use_wandb=False,
+        wandb_name="diplomacy_minimal_local_test",
+        max_num_workers=1,
+        rollout_server_url="http://localhost:8000",
+        total_steps=1,
+        batch_size=1,
+        steps_per_eval=0,
+        max_token_length=4096,
+        inference_weight=1.0,
+        data_path_to_save_groups=None,
+        eval_handling=EvalHandlingEnum.NONE,
+        eval_limit_ratio=0.0,
+        max_game_turns=5,  # Short games for testing
+        training_power="FRANCE",  # Which power we're training
+        include_messages=True,  # Include messages for debugging
+        eval_episodes=0,
+        start_diplomacy_server=True,  # Let the env start the server
+        save_game_logs=True,
+        game_logs_dir="./test_game_logs",
+        opponent_models=opponent_models,  # Use OpenRouter for all opponents
+    )
+
+    # Configure server - using 4 servers to match SLURM setup
+    # For local testing, we'll simulate this with the same OpenRouter endpoint
+    server_configs = [
+        APIServerConfig(
+            model_name="openai/gpt-oss-120b",  # Using the OpenRouter model
+            base_url="https://openrouter.ai/api/v1",
+            api_key=os.getenv("OPENROUTER_API_KEY"),
+            num_requests_for_eval=0,
+        ),
+        APIServerConfig(
+            model_name="openai/gpt-oss-120b",
+            base_url="https://openrouter.ai/api/v1",
+            api_key=os.getenv("OPENROUTER_API_KEY"),
+            num_requests_for_eval=0,
+        ),
+        APIServerConfig(
+            model_name="openai/gpt-oss-120b",
+            base_url="https://openrouter.ai/api/v1",
+            api_key=os.getenv("OPENROUTER_API_KEY"),
+            num_requests_for_eval=0,
+        ),
+        APIServerConfig(
+            model_name="openai/gpt-oss-120b",
+            base_url="https://openrouter.ai/api/v1",
+            api_key=os.getenv("OPENROUTER_API_KEY"),
+            num_requests_for_eval=0,
+        ),
+    ]
+
+    logger.info("Using OpenRouter openai/gpt-oss-120b for Diplomacy test")
+    logger.debug(f"Env Config: {env_config}")
+    logger.debug(f"Server Configs: {server_configs}")
+
+    try:
+        env = DiplomacyEnvMinimal(
+            config=env_config,
+            server_configs=server_configs,
+            slurm=False,
+            testing=False,
+        )
+    except Exception as e:
+        logger.exception(f"Failed to initialize DiplomacyEnvMinimal: {e}")
+        return
+
+    logger.info("Running test games")
+    try:
+        await env.setup()
+
+        # Get number of episodes from command line or default
+        import sys
+
+        num_episodes = int(sys.argv[1]) if len(sys.argv) > 1 else 3
+
+        # Track statistics
+        episode_results = []
+
+        for episode_num in range(num_episodes):
+            logger.info(f"\n===== Episode {episode_num + 1}/{num_episodes} =====")
+
+            item = await env.get_next_item()
+            logger.info(f"Game ID: {item['game_id']}, Seed: {item['seed']}")
+
+            # Collect trajectories (will run group_size parallel games)
+            scored_data_group, _ = await env.collect_trajectories(item)
+
+            if scored_data_group and scored_data_group["scores"]:
+                avg_score = sum(scored_data_group["scores"]) / len(
+                    scored_data_group["scores"]
+                )
+                logger.info(
+                    f"Collected {len(scored_data_group['scores'])} trajectories with average score: {avg_score:.2f}"
+                )
+
+                # Get game outcomes from buffer
+                if env.game_outcomes_buffer:
+                    latest_outcomes = env.game_outcomes_buffer[-env.config.group_size :]
+                    for i, outcome in enumerate(latest_outcomes):
+                        logger.info(
+                            f"  Game {i}: Score={outcome['score']:.2f}, "
+                            f"Winner={outcome['winner']}, "
+                            f"Turns={outcome['turns']}, "
+                            f"Centers={outcome['final_centers'].get(env.config.training_power, 0)}"
+                        )
+
+                episode_results.append(
+                    {
+                        "episode": episode_num + 1,
+                        "score": avg_score,
+                        "outcomes": latest_outcomes if env.game_outcomes_buffer else [],
+                    }
+                )
+            else:
+                logger.error("Failed to collect trajectory")
+                episode_results.append(
+                    {
+                        "episode": episode_num + 1,
+                        "score": 0.0,
+                        "outcomes": [],
+                    }
+                )
+
+        # Print overall statistics
+        logger.info("\n" + "=" * 60)
+        logger.info("OVERALL RESULTS SUMMARY")
+        logger.info("=" * 60)
+        logger.info(f"Total episodes: {num_episodes}")
+        logger.info(f"Group size: {env.config.group_size} games per episode")
+        logger.info(f"Training power: {env.config.training_power}")
+
+        # Calculate statistics
+        if episode_results:
+            avg_score = sum(ep["score"] for ep in episode_results) / len(
+                episode_results
+            )
+            logger.info(f"\nAverage trajectory score: {avg_score:.2f}")
+
+            # Count wins
+            total_games = 0
+            wins = 0
+            for ep in episode_results:
+                for outcome in ep["outcomes"]:
+                    total_games += 1
+                    if outcome["winner"] == env.config.training_power:
+                        wins += 1
+
+            if total_games > 0:
+                logger.info(
+                    f"Win rate: {wins}/{total_games} ({100*wins/total_games:.1f}%)"
+                )
+
+                # Average supply centers
+                total_centers = sum(
+                    outcome["final_centers"].get(env.config.training_power, 0)
+                    for ep in episode_results
+                    for outcome in ep["outcomes"]
+                )
+                avg_centers = total_centers / total_games
+                logger.info(f"Average final supply centers: {avg_centers:.1f}")
+
+        logger.info("\nTest completed successfully!")
+
+    except Exception as e:
+        logger.exception(f"An error occurred during test: {e}")
+
+
+if __name__ == "__main__":
+    asyncio.run(main())
--- a/environments/game_environments/diplomacy_environment/queue_manager.py
+++ b/environments/game_environments/diplomacy_environment/queue_manager.py
@ -0,0 +1,117 @@
+"""
+Queue Manager for Diplomacy Environment
+
+Manages request/response queues between AtroposClient proxies and the environment.
+Each game gets its own queue pair for isolation.
+"""
+
+import asyncio
+import logging
+from dataclasses import dataclass
+from typing import Dict, Optional
+
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class QueuePair:
+    """A pair of queues for a single game."""
+
+    game_id: str
+    request_queue: asyncio.Queue
+    response_queue: asyncio.Queue
+
+
+@dataclass
+class PolicyRequest:
+    """Request from proxy to environment for policy sampling."""
+
+    request_id: str
+    game_id: str
+    power: str
+    phase: str
+    prompt: str
+    temperature: float
+    trajectory: list
+
+
+@dataclass
+class PolicyResponse:
+    """Response from environment back to proxy."""
+
+    request_id: str
+    response: str
+    metadata: dict
+
+
+class QueueManager:
+    """Manages queues for all parallel games."""
+
+    def __init__(self):
+        self.queue_pairs: Dict[str, QueuePair] = {}
+        self._lock = asyncio.Lock()
+
+    async def create_game_queues(self, game_id: str) -> QueuePair:
+        """Create a new queue pair for a game."""
+        async with self._lock:
+            if game_id in self.queue_pairs:
+                logger.warning(f"Queue pair already exists for game {game_id}")
+                return self.queue_pairs[game_id]
+
+            queue_pair = QueuePair(
+                game_id=game_id,
+                request_queue=asyncio.Queue(),
+                response_queue=asyncio.Queue(),
+            )
+            self.queue_pairs[game_id] = queue_pair
+            logger.info(f"Created queue pair for game {game_id}")
+            return queue_pair
+
+    def get_queue_pair(self, game_id: str) -> Optional[QueuePair]:
+        """Get queue pair for a game."""
+        return self.queue_pairs.get(game_id)
+
+    async def remove_game_queues(self, game_id: str):
+        """Remove queues for a completed game."""
+        async with self._lock:
+            if game_id in self.queue_pairs:
+                del self.queue_pairs[game_id]
+                logger.info(f"Removed queue pair for game {game_id}")
+
+    def get_all_request_queues(self) -> Dict[str, asyncio.Queue]:
+        """Get all request queues for polling."""
+        return {
+            game_id: pair.request_queue for game_id, pair in self.queue_pairs.items()
+        }
+
+    async def put_request(self, game_id: str, request: PolicyRequest):
+        """Put a request on the appropriate queue."""
+        queue_pair = self.get_queue_pair(game_id)
+        if queue_pair:
+            await queue_pair.request_queue.put(request)
+        else:
+            raise ValueError(f"No queue pair found for game {game_id}")
+
+    async def get_response(self, game_id: str) -> PolicyResponse:
+        """Get a response from the appropriate queue."""
+        queue_pair = self.get_queue_pair(game_id)
+        if queue_pair:
+            return await queue_pair.response_queue.get()
+        else:
+            raise ValueError(f"No queue pair found for game {game_id}")
+
+    async def put_response(self, game_id: str, response: PolicyResponse):
+        """Put a response on the appropriate queue."""
+        queue_pair = self.get_queue_pair(game_id)
+        if queue_pair:
+            await queue_pair.response_queue.put(response)
+        else:
+            raise ValueError(f"No queue pair found for game {game_id}")
+
+
+_queue_manager = QueueManager()
+
+
+def get_queue_manager() -> QueueManager:
+    """Get the global queue manager instance."""
+    return _queue_manager
--- a/environments/game_environments/diplomacy_environment/requirements.txt
+++ b/environments/game_environments/diplomacy_environment/requirements.txt
@ -0,0 +1,8 @@
+# Requirements for minimal Diplomacy environment
+# Only includes dependencies specific to AI_Diplomacy that aren't in main project
+
+# AI_Diplomacy specific dependencies
+tornado>=6.0
+ujson>=5.0
+websockets>=10.0
+coloredlogs>=15.0.1
--- a/environments/game_environments/textworld_env/textworld_local_server.py
+++ b/environments/game_environments/textworld_env/textworld_local_server.py
@ -49,7 +49,7 @@ async def main():
    # Configure server - using same model as blackjack example
    server_configs = [
        APIServerConfig(
-            model_name="gpt-4.1-nano",
+            model_name="gpt-4.1",
            base_url="https://api.openai.com/v1",
            api_key=os.getenv("OPENAI_API_KEY"),
            num_requests_for_eval=0,
@ -99,7 +99,6 @@ async def main():
            item = await env.get_next_item()
            challenge_name = item["challenge_name"]
            challenge_counts[challenge_name] += 1
-
            logger.info(f"\n===== Episode {episode_num + 1}/{num_episodes} =====")
            logger.info(f"Using game: {item}")

--- a/environments/game_environments/textworld_env/textworld_registry.py
+++ b/environments/game_environments/textworld_env/textworld_registry.py
@ -44,7 +44,6 @@ class TextWorldChallengeRegistry:
    def __init__(self, seed: Optional[int] = None):
        self._challenges = self.CHALLENGES.copy()
        self.rng = random.Random(seed)
-
        # Cache for all possible combinations
        self._all_combinations = None
        self._combination_index = 0
--- a/environments/reasoning_gym_environment/reasoning-gym
+++ b/environments/reasoning_gym_environment/reasoning-gym
@ -1 +1 @@
-Subproject commit 0699e2f5074379bb19924b7f64221ccfc8cef6ef
+Subproject commit 9e79fc84b614b69c04325854335e308cd61d731d
				`@ -0,0 +1 @@`
				`Subproject commit 70d4ae2fe029ed38bf823ce70f5d45a7bcc7afbc`