diff --git a/router/router.py b/router/router.py
index 12bd57a..6e9cfb8 100644
--- a/router/router.py
+++ b/router/router.py
@@ -102,7 +102,8 @@ def check_gpu_health(model, sidecar_timeout=5, gpu_timeout=3):
         if resp.status_code == 200:
             d = resp.json()
             pct = (d.get("vram_used_mb",0) / max(d.get("vram_total_mb",1), 1)) * 100
-            status = "healthy" if pct < 90 else "saturated"
+            status = "healthy"  # VRAM usage != saturation; busy slots handled by is_gpu_busy()
+            vram_warning = pct >= 95
             # Also check if llama.cpp endpoint is actually responding
             gpu_url = GPU_URLS.get(model, "")
             try:
@@ -111,7 +112,7 @@ def check_gpu_health(model, sidecar_timeout=5, gpu_timeout=3):
                     status = "down"
             except Exception:
                 status = "down"
-            return {"status": status, "vram_used_mb": d.get("vram_used_mb"), "vram_total_mb": d.get("vram_total_mb"), "vram_pct": round(pct,1), "temp_c": d.get("temp_c"), "gpu_util_pct": d.get("gpu_util_pct"), "gpu_name": d.get("gpu_name"), "power_w": d.get("power_w"), "power_limit_w": d.get("power_limit_w")}
+            return {"status": status, "vram_warning": vram_warning, "vram_used_mb": d.get("vram_used_mb"), "vram_total_mb": d.get("vram_total_mb"), "vram_pct": round(pct,1), "temp_c": d.get("temp_c"), "gpu_util_pct": d.get("gpu_util_pct"), "gpu_name": d.get("gpu_name"), "power_w": d.get("power_w"), "power_limit_w": d.get("power_limit_w")}
     except Exception: pass
     return {"status": "down"}