0 0 %↑ %↑ GPU Saved GPU 算力節省
Reuse the KV Cache and save more than half of your GPU compute. 透過 KV Cache 重用,GPU 節省一半以上的算力。
Phison AI Data Platform Infrastructure Phison AI Data Platform 基礎設施
aiDAPTIV Cache Server 把 GPU 叢集的 KV Cache 變成跨節點共享的儲存池 —
VRAM / DRAM / SSD 分層推論,透過 InfiniBand 或 RoCE 高速網路即取即用。
現有GPU叢集即刻上線、GPU推論成本砍半、Concurrent User倍增、TTFT 大幅下降。
Reuse the KV Cache and save more than half of your GPU compute. 透過 KV Cache 重用,GPU 節省一半以上的算力。
Same GPU cluster — more than 2× concurrent online users. 同樣的 GPU 叢集,同時並行使用者 2 倍以上。
Streaming KV Cache back to the GPU is 5×+ faster than recomputing prefill, and rock‑steady. 透過 KV Cache 回傳 GPU,比重算 prefill 快 5× 以上,且穩定。
現有 GPU Server 透過 InfiniBand / RoCE 連到 Cache Server。VRAM → DRAM → SSD 三層分層快取,容量隨需擴張,效能與成本同時兼顧。
現有 GPU Server 透過高速網路存取 Cache Server,無需更換 GPU 或重編應用。
VRAM / DRAM / SSD 三層快取,隨需擴充容量、同時壓低 GPU 運算成本。
從單一節點到大規模 GPU 叢集,靈活擴張,Kubernetes 原生支援。
以經濟的 SSD 取代昂貴 DRAM 擴充,低成本實現效能升級。
從 RAG、文件摘要到 Agent 多輪對話 — 一種架構,適合各種推論規模。
Agent 不是「一問一答」,而是「思考 → 動作 → 觀察」反覆循環 —— 每一步都把整段歷史壓進 cache。沒有 KV Cache Reuse,每步都得重算全部歷史 token。 Agents aren't one‑shot Q&A — they loop through Think → Act → Observe, packing the full history into cache at every step. Without KV Cache reuse, every step recomputes all historical tokens.
Tool schemas、MCP definitions、role instructions —— 5–20k tokens 起跳。
Thought → Action → Observation,每一步都附加進 context,且必須完整保留以維持推理連貫。
使用者累積 Long-Context 上下文後暫停。下次回來時,系統需讓 GPU 重算。
Web search、檔案讀取、資料庫查詢、API 回應常常一次塞進數千 tokens。
多個 sub-agent 各自帶完整 context,parallel tool calls 導致倍增 Cache 需求。
沒有 KV Cache Reuse,Agent 每一步都得重算所有歷史 token —— GPU 算力被 prefill 重算淹沒。
KV Cache 需求是數百 GB 到 TB 級,VRAM+DRAM 卻只能容納一小部分。新 request 一進來就 evict 舊熱資料,舊 session 回來只能重算 prefill —— 惡性循環。 KV Cache demand reaches hundreds of GB to TBs, but VRAM + DRAM holds only a small slice. New requests evict hot data on arrival; returning sessions are forced to recompute prefill — a vicious cycle.
惡性循環 VICIOUS LOOP
舊的熱資料被 LRU 踢掉。 Old hot data gets kicked out by LRU.
Cache miss,只能重算 prefill。 Cache miss — only option is to recompute prefill.
下一輪又重複此循環。 The next round repeats the same loop.
Hit Rate ≈ 10–30% · TTFT 抖動嚴重 Hit Rate ≈ 10–30% · TTFT highly jittery
帶來的改變 THE CHANGE
高頻訪問仍享有 ns–ms 級延遲。 High‑frequency access still enjoys ns–ms latency.
TB 級空間,evict 不再是常態。 TB‑scale capacity — eviction is no longer the norm.
比重算 prefill 仍快 7×+。 Still 7×+ faster than recomputing prefill.
Hit Rate ≈ 60–80%+ · TTFT 穩定 Hit Rate ≈ 60–80%+ · TTFT stable
VRAM is expensive and too small. With tiered caching, hot data stays in VRAM/DRAM while warm and cold data lives on NVMe or the Distributed Cache Server — and any node in the cluster can hit and reuse it. VRAM 昂貴又太少容量。透過分層快取,熱資料留在 VRAM/DRAM,溫冷資料使用 NVMe 或 Distributed Cache Server,叢集任一節點都能命中重用。
Old conversations no longer get squeezed out by VRAM. When users return, the cache is recalled — no recompute, continuous experience. 舊對話不再被 VRAM 容量擠掉,使用者回來時,調用 cache 不須重算,體驗連貫。
Cache on any cluster node can be reused by another prefill node — no session‑aware routing required. Cluster 內任一節點的 cache 可被其他 prefill node 重用,不需 session-aware routing。
Trade cheap NVMe / DRAM for expensive VRAM — per‑token serving cost drops dramatically. 用便宜的 NVMe / DRAM 換取貴的 VRAM,單位 token 服務成本顯著下降。
Agent workflows, multi‑turn dialogue, RAG, and document summarization all gain latency and stability together. Agent Workflow、多輪對話、RAG、文件摘要的延遲與穩定性同步改善。
Once produced, KV Cache is shared across the entire cluster. Long prompts, multi‑turn dialogue, agent workflows, and RAG prefixes don't have to run from scratch every time — Time‑to‑First‑Token drops immediately. KV Cache 一旦產生,就在整個 Cluster 內可共用。長 prompt、多輪對話、Agent workflow、RAG 的 prefix 不必再每次從零跑起,Time-to-First-Token 立刻下降。
Same GPU cluster, more than 2× concurrency. Prefill no longer hogs the GPU. 同樣的 GPU 叢集,翻倍以上的併發。Prefill 不再佔滿 GPU。
With KV Cache reuse, GPU compute drops by more than half. 透過 KV-Cache,GPU 節省一半以上的算力。
Hit‑and‑return replaces recompute. 命中即返,取代重算。
Give GPU time back to decode. Push prefill's compute cost down to storage. aiDAPTIV keeps your AI Factory running fuller, steadier, and cheaper. 把 GPU 的時間還給 decode。把 prefill 的計算成本轉嫁給儲存。aiDAPTIV 讓你的 AI Factory 跑得更滿、更穩、更便宜。
Drag SLA thresholds to find your workload's operating point. See how aiDAPTIV KV Cache reuse doubles capacity from the same GPU. 拖曳 SLA 門檻,找到你工作負載的最佳營運點。看 aiDAPTIV KV Cache 重用如何從相同 GPU 獲得雙倍容量。
Lower is better
Higher is better