Spaces:

williyam
/

agentic-rag-gym

Sleeping

williyam commited on Apr 28

Commit

9955cc3

1 Parent(s): a8780b7

fix: tighten reward/grade bounds to [0.01, 0.99] in models, orchestrator, and tests

Files changed (5) hide show

rag_master/models.py CHANGED Viewed

@@ -78,7 +78,7 @@ class Trajectory(BaseModel):
     task_id: str
     steps: List[StepRecord] = Field(default_factory=list)
     total_reward: float = 0.0
-    final_score: float = 0.0
     completed: bool = False
     metadata: Dict[str, Any] = Field(default_factory=dict)

     task_id: str
     steps: List[StepRecord] = Field(default_factory=list)
     total_reward: float = 0.0
+    final_score: float = Field(default=0.01, ge=0.01, le=0.99)
     completed: bool = False
     metadata: Dict[str, Any] = Field(default_factory=dict)

rag_master/orchestrator.py CHANGED Viewed

@@ -137,7 +137,7 @@ class Orchestrator:
         if self._state.done:
             return {
                 "observation": self._build_observation(),
-                "reward": 0.0,
                 "done": True,
                 "info": {"message": "Episode already completed."},
             }
@@ -280,10 +280,10 @@ class Orchestrator:
             ],
             "query_history": self._state.query_history[-5:],
             "current_answer": self._state.generated_answer[:1000],
-            "last_reward": (
                 self._state.intermediate_rewards[-1]
                 if self._state.intermediate_rewards
-                else 0.0
             ),
             "done": self._state.done,
         }

         if self._state.done:
             return {
                 "observation": self._build_observation(),
+                "reward": clamp_score(0.01),
                 "done": True,
                 "info": {"message": "Episode already completed."},
             }
             ],
             "query_history": self._state.query_history[-5:],
             "current_answer": self._state.generated_answer[:1000],
+            "last_reward": clamp_score(
                 self._state.intermediate_rewards[-1]
                 if self._state.intermediate_rewards
+                else 0.01
             ),
             "done": self._state.done,
         }

server/models.py CHANGED Viewed

@@ -60,14 +60,14 @@ class Observation(BaseModel):
         default_factory=list, description="Recent query history."
     )
     current_answer: str = Field(default="", description="Current answer draft.")
-    last_reward: float = Field(default=0.0, description="Reward from last step.")
     done: bool = Field(default=False, description="Whether the episode has ended.")
 class Reward(BaseModel):
     """Reward signal from the environment."""
-    value: float = Field(ge=0.0, le=1.0, description="Reward value.")
     breakdown: Dict[str, float] = Field(
         default_factory=dict, description="Reward component breakdown."
     )
@@ -77,7 +77,7 @@ class StepResult(BaseModel):
     """Result of a single environment step."""
     observation: Observation
-    reward: float = Field(ge=0.0, le=1.0)
     done: bool = Field(default=False)
     info: Dict[str, Any] = Field(default_factory=dict)
@@ -121,7 +121,7 @@ class GradeResult(BaseModel):
     """Grading result for a task."""
     task_id: str
-    score: float = Field(ge=0.0, le=1.0)
     episode_id: str = Field(default="")

         default_factory=list, description="Recent query history."
     )
     current_answer: str = Field(default="", description="Current answer draft.")
+    last_reward: float = Field(default=0.01, ge=0.01, le=0.99, description="Reward from last step (strictly within [0.01, 0.99]).")
     done: bool = Field(default=False, description="Whether the episode has ended.")
 class Reward(BaseModel):
     """Reward signal from the environment."""
+    value: float = Field(ge=0.01, le=0.99, description="Reward value (strictly within [0.01, 0.99]).")
     breakdown: Dict[str, float] = Field(
         default_factory=dict, description="Reward component breakdown."
     )
     """Result of a single environment step."""
     observation: Observation
+    reward: float = Field(ge=0.01, le=0.99)
     done: bool = Field(default=False)
     info: Dict[str, Any] = Field(default_factory=dict)
     """Grading result for a task."""
     task_id: str
+    score: float = Field(ge=0.01, le=0.99)
     episode_id: str = Field(default="")

tests/test_integration.py CHANGED Viewed

@@ -158,7 +158,7 @@ class TestFullEpisodeIntegration:
         resp = await client.post("/grade", json={})
         assert resp.status_code == 200
         grade = resp.json()
-        assert 0.0 <= grade["score"] <= 1.0
     @pytest.mark.asyncio
     async def test_reset_clears_previous_episode(self, client: AsyncClient) -> None:

         resp = await client.post("/grade", json={})
         assert resp.status_code == 200
         grade = resp.json()
+        assert 0.01 <= grade["score"] <= 0.99
     @pytest.mark.asyncio
     async def test_reset_clears_previous_episode(self, client: AsyncClient) -> None:

tests/test_orchestrator.py CHANGED Viewed

@@ -152,7 +152,7 @@ class TestOrchestrator:
         assert "observation" in result
         assert "reward" in result
         assert "done" in result
-        assert 0.0 <= result["reward"] <= 1.0
     @pytest.mark.asyncio
     async def test_step_reason(self, orchestrator: Orchestrator) -> None:
@@ -197,7 +197,7 @@ class TestOrchestrator:
         # Now episode is done, further steps should return done=True with 0 reward
         result = await orchestrator.step({"type": "retrieve"})
         assert result["done"] is True
-        assert result["reward"] == 0.0
     @pytest.mark.asyncio
     async def test_state_before_reset(self, orchestrator: Orchestrator) -> None:

         assert "observation" in result
         assert "reward" in result
         assert "done" in result
+        assert 0.01 <= result["reward"] <= 0.99
     @pytest.mark.asyncio
     async def test_step_reason(self, orchestrator: Orchestrator) -> None:
         # Now episode is done, further steps should return done=True with 0 reward
         result = await orchestrator.step({"type": "retrieve"})
         assert result["done"] is True
+        assert result["reward"] == 0.01
     @pytest.mark.asyncio
     async def test_state_before_reset(self, orchestrator: Orchestrator) -> None: