Session

把智能路由收口到网关:vLLM Semantic Router 落地复盘

用户习惯选最大的模型、开最深的思考,但大部分请求根本用不到那么重的算力。智能路由自动把请求分给合适的模型,体验不掉,延迟更低,这也是当前大模型推理优化一个非常重要的方向。

但是如果从传统网关来处理,会导致路由逻辑散在业务服务里,结果通常是策略失控,排障链路越来越长。

这场分享讲一条更稳的做法:把决策收口到网关侧的 Envoy ExtProc。

我会用 semantic-router 走完整链路:请求进入网关后如何打上路由信号,Gateway 资源如何把流量落到具体后端。

同时对比两种常见部署路线:Istio + Gateway API Inference Extension,以及 Envoy AI Gateway。

Samzong Lu

PM at DaoCloud, AI/LLMOps PM Leader, CNCF Multiple Project Contributors, Open Source Enthusiast

Shanghai, China

Actions

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Jump to top