SGLang 面试题

30 道题

分类: LLM
题目数: 30 道

已阅读 0 / 30 题

1 SGLang 的核心架构与设计理念是什么？

答案：

SGLang 是一个面向大语言模型和视觉语言模型的高性能推理服务框架，由斯坦福大学、UC Berkeley 等机构联合开发。其核心设计理念围绕三个维度展开：高效前缀共享（RadixAttention）、结构化生成编程范式（SGLang DSL）与多后端可插拔运行时。

整体架构分层：

层级	组件	职责
Frontend	SGLang DSL / OpenAI API	编程接口与请求入口
Scheduler	SGLang Runtime	请求调度、前缀匹配、Batch 组装
KV Cache Manager	RadixAttention	基于 Radix Tree 的 KV Cache 共享与淘汰
Attention Backend	FlashInfer / FlashAttention / Triton	高效 Attention 计算
Model Backend	vLLM / LightLLM / TGI / SGLang Native	模型推理执行引擎
Quantization	AWQ / GPTQ / FP8	模型量化与压缩

设计原则：

Prefix-aware：以 Radix Tree 组织 KV Cache，自动识别和复用请求间的公共前缀，消除冗余计算
Backend-agnostic：通过抽象层解耦前端 DSL 与后端推理引擎，支持 vLLM、LightLLM、TGI 等多后端切换
Structured-first：将 LLM 调用抽象为 SGLang 原语（gen、select、fork），通过 DSL 原生表达复杂生成逻辑
Efficient Batching：Continuous Batching + RadixAttention 前缀共享，在相同硬件上获得数倍吞吐提升

请求处理流水线：

Client Request → Tokenizer → Radix Tree 前缀匹配 → KV Cache 复用
→ Prefill（仅计算增量部分） → Decode（Continuous Batching） → Detokenizer → Response

2 SGLang 的 RadixAttention 机制如何实现前缀共享和 KV Cache 复用？

答案：

RadixAttention 是 SGLang 的核心创新，通过 Radix Tree（基数树/压缩前缀树） 组织所有请求的 KV Cache，实现自动、透明的前缀检测与复用。与 PagedAttention 的块级管理不同，RadixAttention 在 请求级别 做前缀匹配，在序列维度最大化缓存复用的粒度。

Radix Tree 结构：

Root
├── "You are a helpful assistant."  [KV Block: 0x1A]
│   ├── "What is Kubernetes?"        [KV Block: 0x2B]
│   │   ├── "Explain in detail."     [KV Block: 0x3C]
│   │   └── "Give a short answer."   [KV Block: 0x4D]
│   └── "What is Docker?"            [KV Block: 0x5E]
└── "Summarize the following text:"  [KV Block: 0x6F]

前缀匹配流程：

新请求到达后，将请求的 token 序列插入 Radix Tree
沿树遍历，寻找最长公共前缀路径
命中节点对应的 KV Cache 块直接复用，仅需计算增量 token 的 Prefill
未命中部分创建新节点并分配 KV Cache 块

与朴素前缀缓存对比：

维度	朴素前缀缓存	RadixAttention
匹配粒度	仅完整 Prompt 匹配	任意前缀匹配
树结构	Hash Table	Radix Tree（压缩前缀树）
公共前缀复用	仅完全相同	自动拆分与复用
多轮对话效率	每轮重建全量 KV	仅计算增量
动态插入	不适用	O(L) 插入新前缀

多轮对话场景收益：

首轮：[System Prompt: 1024 tokens] + [User: 128 tokens] → 计算 1152 tokens
二轮：[System Prompt: 1024 tokens] + [User: 256 tokens] → 复用 1024 tokens，仅计算 256 tokens
三轮：[System Prompt: 1024 tokens] + [User: 64 tokens]  → 复用 1024 tokens，仅计算 64 tokens

在多轮对话场景中，RadixAttention 可将 Prefill 延迟降低 60%–80%。

3 SGLang 的 KV Cache 池化管理是如何设计的？

答案：

SGLang 的 KV Cache 池化管理建立在 RadixAttention 基础上，以 Radix Tree 节点为索引单位，结合 引用计数 + LRU 淘汰 策略管理 GPU 显存池。

池化架构：

组件	说明
KV Cache Pool	GPU 显存中的 KV Cache 块池，按页/块分配
Radix Tree Index	维护 token 序列到 KV 块地址的映射
Ref Counter	每个 KV 块的引用计数，追踪活跃请求数
Evictor	基于 LRU + 叶子节点的淘汰策略

内存分配策略：

GPU 显存总览：
├── Model Weights（模型权重固定占用）
├── KV Cache Pool（可调大小）
│   ├── Active Blocks（正在被使用，ref > 0）
│   └── Cached Blocks（可淘汰，ref = 0，按 LRU 顺序）
└── Workspace（临时计算缓冲区）

淘汰机制：

新请求需要分配新 KV Cache 块
优先从 Free List 分配
Free List 为空时，触发 Evictor
Evictor 从 Radix Tree 叶子节点开始，按 LRU 顺序淘汰 ref=0 的块
淘汰后释放对应 GPU 显存，新块入池

关键参数：

# KV Cache 池大小（GPU 显存占比）
--mem-fraction-static 0.85        # 模型权重 + KV Cache 静态占比
--max-total-tokens 65536          # KV Cache 池最大 token 数
--eviction-policy lru             # 淘汰策略

与 vLLM PagedAttention 对比：

维度	vLLM Block Table	SGLang Radix Tree
索引方式	逻辑块 → 物理块映射表	Token 序列 → KV 块 Radix 索引
前缀共享	需显式配置 Prefix Caching	自动透明共享
淘汰粒度	Block 级	子树级（级联淘汰）
内存碎片	块大小固定导致尾部碎片	前缀层级结构减少碎片
查找复杂度	O(1) 块查找	O(L) 树遍历，L 为序列长度

4 SGLang DSL（Domain Specific Language）的设计思想与编程模型是什么？

答案：

SGLang DSL 是一套专为 LLM 交互设计的领域特定语言，将 LLM 调用抽象为少量核心原语，支持控制流、并行调用、约束生成和状态管理，使复杂 LLM 应用可以用直观的代码表达。

核心原语：

原语	语义	示例
`s`	状态对象，存储生成上下文	`s = runtime.chat_template`
`s += gen(name, max_tokens, stop, regex)`	生成文本追加到状态	`s += gen("answer", max_tokens=256)`
`s += select(name, choices)`	从候选项中选择	`s += select("intent", ["chat", "search", "code"])`
`s += fork(n)`	并行分叉 N 个分支	`forks = s.fork(3)`
`forks.join()`	合并分叉结果	`results = forks.join()`

编程模型示例：

import sglang as sgl

@sgl.function
def multi_turn_agent(s, query):
    # System prompt 作为初始状态
    s += sgl.system("You are a helpful coding assistant.")
    s += sgl.user(query)

    # 选择意图
    s += sgl.assistant("Intent: ")
    s += sgl.gen("intent", max_tokens=16, stop="\n")

    # 根据意图分支
    intent = s["intent"]
    if "code" in intent:
        s += sgl.assistant("Code:\n```python\n")
        s += sgl.gen("code", max_tokens=512, stop="\n```")
    else:
        s += sgl.assistant(sgl.gen("response", max_tokens=256))

    return s

# 执行
state = multi_turn_agent.run("Write a function to sort a list.")
print(state["code"])  # 提取指定字段

核心设计理念：

Primitive Composition：复杂行为由 gen、select、fork 三个核心原语组合而成，拒绝控制流图膨胀
State-is-Context：状态对象 s 同时承载生成上下文和 KV Cache，原生支持前缀复用
Native Parallelism：fork 原语原生表达并行调用，SGLang Runtime 自动合并前缀共享部分
Constraint Transparency：regex / JSON Schema 约束以参数形式嵌入 gen 调用，运行时自动转换

5 SGLang 支持哪些 Runtime Backend？各有什么特点？

答案：

SGLang 通过抽象的后端接口层支持多种推理引擎，运行时通过 --backend 参数指定。

后端对比：

Backend	开发方	架构特点	适用场景	状态
SGLang Native (sglang)	SGLang 团队	原生实现，RadixAttention + FlashInfer	全场景首选	主要维护
vLLM	UC Berkeley	PagedAttention + Continuous Batching	需 vLLM 特性时	已支持
LightLLM	商汤 SenseTime	细粒度 Token-level 调度	高吞吐场景	社区支持
TGI (HuggingFace)	HuggingFace	Rust + Python 混合架构	HuggingFace 生态集成	社区支持

后端选择策略：

# SGLang Native（默认，推荐）
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3-70B \
    --backend sglang

# vLLM 后端
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3-70B \
    --backend vllm

架构抽象层：

graph TD
    Frontend["SGLang Frontend（DSL / OpenAI API）"]
    Runtime["SGLang Runtime（RadixAttention / Scheduler）"]
    Interface["Backend Interface（--backend 抽象）"]
    Sglang["sglang (Native)"]
    Vllm["vllm"]
    Lightllm["lightllm"]
    Tgi["tgi"]

    Frontend --> Runtime --> Interface
    Interface --> Sglang
    Interface --> Vllm
    Interface --> Lightllm
    Interface --> Tgi

各后端特性支持矩阵：

特性	SGLang Native	vLLM	LightLLM	TGI
RadixAttention	是	否	否	否
Continuous Batching	是	是	是	是
Tensor Parallelism	是	是	是	是
AWQ/GPTQ 量化	是	是	受限	是
Speculative Decoding	是	是	否	否
Structured Output	是	受限	否	受限
SGLang DSL	是	否	否	否

6 SGLang 的 Structured Output（结构化输出）是如何实现的？

答案：

SGLang 支持通过 JSON Schema、正则表达式（Regex） 和 上下文无关文法（Grammar） 三种方式约束 LLM 输出，基于 有限状态机（FSM） 在 token 采样阶段实时过滤非法 token，确保生成内容严格符合指定格式。

三种约束方式：

约束类型	描述	典型场景
Regex	正则表达式约束	电话号码、邮箱、日期格式
JSON Schema	JSON Schema 定义结构	API 参数提取、结构化数据生成
Grammar（EBNF）	扩展巴科斯范式定义文法	编程语言子集、SQL 生成

FSM 约束执行流程：

JSON Schema 定义 → 编译为 token-level FSM
    → Decode 阶段每步采样
        → FSM 给出合法 token 集合
            → Logits Mask（非法 token → -inf）
                → 从合法 token 集合中采样
                    → 推进 FSM 状态
                        → 循环直至终止

代码示例：

# Regex 约束
@sgl.function
def phone_extract(s, text):
    s += sgl.user(f"Extract phone number from: {text}")
    s += sgl.assistant(sgl.gen(
        "phone",
        regex=r"\d{3}-\d{3}-\d{4}",
        max_tokens=20
    ))

# JSON Schema 约束
@sgl.function
def json_api_call(s, prompt):
    s += sgl.user(prompt)
    s += sgl.assistant(sgl.gen(
        "api_params",
        max_tokens=256,
        json_schema={
            "type": "object",
            "properties": {
                "method": {"type": "string", "enum": ["GET", "POST", "PUT"]},
                "url": {"type": "string"},
                "headers": {"type": "object"}
            },
            "required": ["method", "url"]
        }
    ))

关键参数：

sgl.gen(
    name="output",
    max_tokens=512,
    regex=r"...",              # Regex 约束
    json_schema={...},         # JSON Schema 约束
    stop=["\n---", "END"],    # 停止标记
    temperature=0.0,           # 建议 temperature=0 确保确定性
    top_p=0.95
)

注意事项：

Structured Output 仅在 SGLang Native Backend 中完整支持
JSON Schema 内部编译为 FSM，复杂 Schema 可能增加编译时间
temperature=0 时配合 Structured Output 获得完全确定性输出
递归文法（如嵌套 JSON）需要 EBNF Grammar 约束方式

7 SGLang 的 Parallel Sampling 与 Fork 机制如何工作？

答案：

SGLang 的 Parallel Sampling 通过 fork() 原语实现单请求的多路并行生成，Runtime 自动合并共享前缀的 KV Cache 复用。

Fork 执行模型：

Request → Prefill（System + User Prompt）
    → Radix Tree 锚定前缀节点
        → fork(3)
            ├── Branch 0: decode → "temperature=0 的确定性回答"
            ├── Branch 1: decode → "temperature=0.7 的创造性回答"
            └── Branch 2: decode → "temperature=1.0 的高随机回答"
        → join → 返回 3 个结果

代码示例：

@sgl.function
def multi_branch_generation(s, prompt):
    s += sgl.system("You are a helpful assistant.")
    s += sgl.user(prompt)

    # 并行生成多个版本
    forks = s.fork(5)
    forks += sgl.assistant(sgl.gen(
        "response",
        max_tokens=256,
        temperature=0.8,
        top_p=0.95
    ))
    forks.join()

    return s

# Best-of-N 投票
@sgl.function
def best_of_n(s, prompt, n=5):
    s += sgl.user(prompt)
    forks = s.fork(n)
    forks += sgl.assistant(sgl.gen("candidate", max_tokens=100))
    forks.join()

    # 二次评估每个候选
    s += sgl.user(f"Rate each candidate from 1-10:\n" +
                  "\n".join([f"{i}: {s[f'candidate_{i}']}" for i in range(n)]))
    s += sgl.assistant(sgl.gen("best_index", regex=r"\d+", max_tokens=5))
    return s

与 vLLM Parallel Sampling 对比：

维度	vLLM	SGLang
触发方式	`n: 5` 参数	`fork(5)` 原语
前缀共享	独立 Prefill	Radix Tree 自动复用
合并策略	简单收集	`join()` 后继续生成
二次处理	需编码实现	DSL 原生支持
KV Cache 开销	N × copy	1 × shared + N × divergent

8 SGLang 的 Continuous Batching 与 RadixAttention 如何协同？

答案：

SGLang 在 Continuous Batching 基础上叠加 RadixAttention 前缀共享，形成 Prefix-aware Continuous Batching。

经典 Continuous Batching 流程：

时间线（单卡 GPU）：
t0: [Req1 Prefill] |                    | [Req1 Decode]
t1:                  | [Req2 Prefill]   | [Req1 Decode] [Req2 Decode]
t2:                                     | [Req1 Done]   [Req2 Decode] [Req3 Prefill]
t3:                                     |                [Req2 Done]   [Req3 Decode] [Req4 Prefill]

SGLang 增强：

在 Prefill 阶段，SGLang 检测新请求与已有请求的公共前缀，复用已缓存的 KV Cache，将 Prefill 计算量从 O(N) 降低至 O(N_Δ)：

t0: [Req1 Prefill: Full System Prompt 1024t]  |
t1: [Req2 Prefill: Reuse 1024t + Δ 128t]      |  [Req1 Decode] [Req2 Decode]
t2: [Req3 Prefill: Reuse 1024t + Δ 64t]       |  [Req1 Decode] [Req2 Decode] [Req3 Decode]

Batch 组装策略：

策略	说明
Prefix-batch first	相同前缀的请求优先合并为同一批次
Prefill-decode interleave	Prefill 与 Decode 请求可在同一批次中混合处理
Max batch size	控制单批次最大 token 数，防止 OOM
Priority queue	支持请求优先级，高优先级请求跳过常规队列

调度参数：

python -m sglang.launch_server \
    --max-total-tokens 65536 \      # KV Cache 池大小
    --max-running-requests 256 \    # 最大并发请求数
    --max-prefill-tokens 16384 \    # 单批次 Prefill 最大 token 数
    --schedule-policy lpm           # 调度策略：lpm (longest prefix match)

9 SGLang 的 Speculative Decoding 实现是怎样的？

答案：

SGLang 实现 Speculative Decoding（推测解码），通过小模型（Draft Model）快速生成候选 token，大模型（Target Model）并行验证，在不损失精度的前提下提升推理速度。

推测解码流程：

Target Model（大模型，验证者）
     ↑
     │ 并行验证 K 个候选 token
     │
Draft Model（小模型，推测者）
     ↑
     │ 快速自回归生成 K 个候选 token
     │
共享前缀（RadixAttention KV Cache 复用）

SGLang 配置示例：

# 启动 Server 端配置
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --speculative-algorithm eagle \
    --speculative-draft-model-path meta-llama/Llama-3.1-8B-Instruct \
    --speculative-num-steps 5 \
    --speculative-eagle-topk 1 \
    --speculative-num-draft-tokens 5

关键参数：

参数	说明	推荐值
`--speculative-algorithm`	推测解码算法（eagle / medusa）	eagle
`--speculative-draft-model-path`	Draft Model 路径	同类架构小模型
`--speculative-num-steps`	每轮推测步数	3–5
`--speculative-num-draft-tokens`	每次推测的 token 数	3–8
`--speculative-eagle-topk`	Eagle 算法中的 Top-K	1

SGLang 推测解码优势：

Draft Model 与 Target Model 共享通过 Radix Tree 组织的前缀 KV Cache
Draft Model 的 KV Cache 在验证后可复用，避免重复 Prefill
支持 Eagle / Medusa 两种推测架构

适用条件：

Draft Model 与 Target Model 使用相同的 Tokenizer
任务分布存在足够的语义冗余（代码补全、翻译、摘要等场景收益明显）
Draft Model 的接受率 > 50% 时吞吐收益显著

10 SGLang 的 Tensor Parallelism 多卡推理如何配置？

答案：

SGLang 支持 Tensor Parallelism（张量并行），将单模型权重切分到多张 GPU 上并行推理，突破单卡显存瓶颈。

并行方式对比：

并行类型	参数	切分维度	通信开销	适用场景
Tensor Parallelism	`--tp-size N`	权重矩阵列切/行切	AllReduce per layer	单机多卡
Pipeline Parallelism	`--pp-size N`	按层切分	P2P per stage	超大模型
Data Parallel	`--dp-size N`	数据复制	无需通信	高吞吐多副本

配置示例：

# 单机 4 卡 Tensor Parallelism
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --tp-size 4

# 单机 8 卡 Tensor Parallelism + Pipeline Parallelism
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-405B-Instruct \
    --tp-size 4 \
    --pp-size 2

# 指定 GPU 设备
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --tp-size 4

# Data Parallel 多实例（多组 TP）
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --tp-size 4 \
    --dp-size 2 \
    --node-rank 0

通信后端：

# NCCL 通信后端
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=0
export NCCL_NET_GDR_LEVEL=2

# 多节点场景
export MASTER_ADDR=<master-ip>
export MASTER_PORT=29500

关键参数：

参数	说明	推荐值
`--tp-size`	Tensor Parallelism 副本数	GPU 数量
`--pp-size`	Pipeline Parallelism 阶段数	按需
`--dp-size`	Data Parallel 副本数	按需
`--nccl-init-method`	NCCL 初始化方式	tcp://
`--load-format`	权重加载格式	auto / pt / safetensors

11 SGLang 如何提供 OpenAI Compatible API？

答案：

SGLang 启动 Server 后默认在 http://localhost:30000 提供 OpenAI 兼容的 HTTP API，支持 Chat Completions、Completions 和 Embeddings 端点。

启动命令：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --host 0.0.0.0 \
    --port 30000

支持的 API 端点：

端点	方法	说明
`/v1/chat/completions`	POST	对话补全（兼容 OpenAI Chat API）
`/v1/completions`	POST	文本补全
`/v1/models`	GET	模型列表
`/v1/embeddings`	POST	文本嵌入（需 Embedding 模型）
`/health`	GET	健康检查
`/health_generate`	GET	推理健康检查
`/get_server_info`	GET	Server 元信息
`/flush_cache`	POST	清空 KV Cache
`/generate`	POST	SGLang 原生生成接口
`/stream`	POST	SGLang 流式接口

调用示例：

# OpenAI Python SDK 调用
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:30000/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain Kubernetes in 3 sentences."}
    ],
    temperature=0.7,
    max_tokens=256,
    stream=True
)

for chunk in response:
    print(chunk.choices[0].delta.content, end="")

curl 调用：

curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.1-8B-Instruct",
    "messages": [
      {"role": "user", "content": "Hello!"}
    ],
    "temperature": 0.7,
    "max_tokens": 128
  }'

安全配置：

# 启用 API Key 验证
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --api-key my-secret-key

12 SGLang 在 Kubernetes 上的部署方案？

答案：

SGLang 在 Kubernetes 上以 Deployment 或 StatefulSet 形式部署，需关注 GPU 资源声明、显存配置、就绪探针和服务发现。

Deployment 示例：

apiVersion: v1
kind: ConfigMap
metadata:
  name: sglang-config
data:
  model-path: "meta-llama/Llama-3.1-8B-Instruct"
  tp-size: "1"
  port: "30000"
apiVersion: apps/v1
kind: Deployment
metadata:
  name: sglang-server
spec:
  replicas: 1
  selector:
    matchLabels:
      app: sglang
  template:
    metadata:
      labels:
        app: sglang
    spec:
      containers:
      - name: sglang
        image: lmsysorg/sglang:latest
        command: ["python", "-m", "sglang.launch_server"]
        args:
        - "--model-path"
        - "$(MODEL_PATH)"
        - "--tp-size"
        - "$(TP_SIZE)"
        - "--host"
        - "0.0.0.0"
        - "--port"
        - "$(PORT)"
        env:
        - name: MODEL_PATH
          valueFrom:
            configMapKeyRef:
              name: sglang-config
              key: model-path
        - name: TP_SIZE
          valueFrom:
            configMapKeyRef:
              name: sglang-config
              key: tp-size
        - name: PORT
          valueFrom:
            configMapKeyRef:
              name: sglang-config
              key: port
        - name: CUDA_VISIBLE_DEVICES
          value: "0"
        ports:
        - containerPort: 30000
          name: http
        resources:
          limits:
            nvidia.com/gpu: 1
            memory: "64Gi"
          requests:
            nvidia.com/gpu: 1
            memory: "32Gi"
        readinessProbe:
          httpGet:
            path: /health
            port: 30000
          initialDelaySeconds: 60
          periodSeconds: 10
        livenessProbe:
          httpGet:
            path: /health
            port: 30000
          initialDelaySeconds: 120
          periodSeconds: 30
        volumeMounts:
        - name: model-cache
          mountPath: /root/.cache/huggingface
      volumes:
      - name: model-cache
        persistentVolumeClaim:
          claimName: model-cache-pvc
apiVersion: v1
kind: Service
metadata:
  name: sglang-svc
spec:
  selector:
    app: sglang
  ports:
  - port: 30000
    targetPort: 30000
  type: ClusterIP

多卡部署（Tensor Parallelism）：

# 单 Pod 多卡
env:
- name: CUDA_VISIBLE_DEVICES
  value: "0,1,2,3"
resources:
  limits:
    nvidia.com/gpu: 4
args:
- "--model-path"
- "meta-llama/Llama-3.1-70B-Instruct"
- "--tp-size"
- "4"
- "--host"
- "0.0.0.0"
- "--port"
- "30000"

HPA 自动扩缩容：

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: sglang-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: sglang-server
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70

生产部署关键配置：

# 模型缓存 PVC
--model-path /models/Llama-3.1-8B-Instruct  # 本地路径优于远程下载

# 合理设置资源预留
--mem-fraction-static 0.85                    # GPU 显存静态分配比例
--max-total-tokens 65536                      # KV Cache 池大小

# 日志配置
--log-level info                              # 日志级别
--log-requests True                           # 记录请求日志

13 SGLang 的 RadixAttention 与 vLLM 的 PagedAttention 如何对比？

答案：

RadixAttention 与 PagedAttention 是两种不同的 KV Cache 管理策略，两者的核心区别在于索引结构和前缀共享机制。

架构对比：

维度	PagedAttention（vLLM）	RadixAttention（SGLang）
数据结构	Block Table（逻辑页→物理页映射）	Radix Tree（压缩前缀树）
前缀共享	Automatic Prefix Caching（需显式启用）	原生自动透明共享
匹配粒度	Block 级（16–128 token/block）	Token 序列级（任意长度前缀）
内存分配	物理块按需分配	节点绑定 KV 块，树结构分配
淘汰策略	Block 级 LRU	子树级级联 LRU
碎片问题	块尾部碎片	前缀层级结构减少碎片

核心差异分析：

graph LR
    subgraph PagedAttention
        BT["Block Table"]
        B0["Block 0 → GPU Addr"]
        B1["Block 1 → GPU Addr"]
        B2["Block 2 → GPU Addr"]
        BT --- B0
        BT --- B1
        BT --- B2
    end
    PagedAttention -.->|"需哈希匹配完整 Prompt"| Fixed["固定粒度"]

    subgraph RadixAttention
        RT["Radix Tree"]
        Root["Root"]
        Sys["System:"]
        KV["KV[0:1024]"]
        RT --- Root --> Sys --> KV
    end
    RadixAttention -.->|"任意 token 序列匹配"| Any["任意粒度"]

前缀共享场景性能差异：

场景	PagedAttention	RadixAttention
完全相同的 System Prompt	匹配命中	匹配命中
System Prompt 末尾追加新内容	不命中（哈希失效）	命中前缀部分
多轮对话追加新 user 消息	不命中	命中历史部分
Few-shot 示例不同但前缀相同	不命中	命中前缀部分
RAG 检索结果不同，Prompt 模板相同	不命中	命中模板前缀

性能基准（LMSYS 官方数据，Llama-2-7B，A10G）：

指标	vLLM	SGLang	提升幅度
吞吐量（req/s）	12.3	34.7	2.8×
TTFT（首 token 延迟）	320ms	85ms	3.8×
KV Cache 复用率	~40%	~85%	2.1×
显存利用率	72%	78%	+6%

14 SGLang 的 Interleaving 请求调度策略是如何工作的？

答案：

SGLang 的 Interleaving（交错调度）策略允许在单批次中混合 Prefill 和 Decode 阶段的请求，与传统的 Prefill-first 或 Decode-first 分阶段调度不同，它动态决定每步中 Prefill 与 Decode 的 token 占比。

调度策略对比：

策略	机制	优势	劣势
Prefill-first	优先完成所有 Prefill	尽快开始 Decode	首 token 延迟低但 Decode 排队
Decode-first	优先推进已有 Decode	减少正在进行的请求延迟	新请求排队时间增加
Interleaving（SGLang）	Prefill/Decode 混合调度	平衡新请求和进行中的请求	实现复杂度高

Interleaving 调度算法：

每步调度决策：
1. 计算当前 KV Cache 池剩余容量
2. 计算正在进行 Decode 的请求数
3. 计算等待 Prefill 的请求数及其 token 数
4. 决策：
   if 剩余 KV Cache > threshold_dec:
       优先完成 Prefill（快速释放 KV Cache 压力）
   elif 等待队列中 Prefill ≥ 2:
       混合 1 个 Prefill + N 个 Decode
   else:
       全部 Decode
5. Batched 执行，进入下一步

配置参数：

python -m sglang.launch_server \
    --schedule-policy lpm \                  # 最长前缀匹配调度
    --max-prefill-tokens 16384 \             # 单批次最大 Prefill token 数
    --schedule-conservativeness 0.5 \        # 调度保守度（0=激进, 1=保守）
    --max-running-requests 256               # 最大并发请求数

调度保守度（conservativeness）说明：

0.0（激进）：尽可能多地同时调度 Prefill + Decode，吞吐优先，延迟可能抖动
1.0（保守）：优先保证低延迟，限制同时进行的 Prefill 数量
0.5（默认平衡）：根据 KV Cache 池压力自适应调整

15 SGLang 支持哪些量化推理方案？

答案：

SGLang 支持 AWQ、GPTQ、FP8、BitsAndBytes 等多种量化方案，通过后端抽象统一接入。

量化方案对比：

方案	精度	显存节省	推理速度	模型质量	适用 GPU
AWQ	INT4	~4×	快	良好	全系列
GPTQ	INT4 / INT8	~4× / ~2×	快	良好	全系列
FP8	FP8	~2×	快	几乎无损	H100 / H200 / B200
BitsAndBytes	INT4 / INT8	~4× / ~2×	中等	良好	全系列
GGUF	Q4/Q5/Q8	~4× / ~3× / ~2×	慢（CPU 友好）	按需	CPU / CUDA

AWQ 量化部署：

# 使用 AWQ 量化模型
python -m sglang.launch_server \
    --model-path TheBloke/Llama-2-70B-Chat-AWQ \
    --quantization awq \
    --dtype float16 \
    --tp-size 4

GPTQ 量化部署：

# 使用 GPTQ 量化模型
python -m sglang.launch_server \
    --model-path TheBloke/Llama-2-70B-Chat-GPTQ \
    --quantization gptq \
    --dtype float16 \
    --tp-size 4

FP8 量化部署（H100/H200）：

# 使用 FP8 量化
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --quantization fp8 \
    --dtype float8_e4m3fn \
    --tp-size 2

FP8 动态量化（在线量化）：

# 运行时动态转换为 FP8
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8_e5m2 \           # KV Cache 单独指定 FP8
    --dtype float16                        # 权重数据类型

量化参数速查：

参数	说明	可选值
`--quantization`	量化方法	awq / gptq / fp8 / squeezellm / bitsandbytes
`--dtype`	计算精度	float16 / bfloat16 / float8_e4m3fn / float8_e5m2
`--kv-cache-dtype`	KV Cache 精度	auto / fp8_e5m2 / fp8_e4m3
`--load-format`	权重加载格式	auto / pt / safetensors / npcache

16 SGLang 如何支持多模态模型（LLaVA / Qwen-VL）推理？

答案：

SGLang 支持 LLaVA、Qwen-VL、InternVL、Phi-3-Vision 等多模态视觉语言模型，在 Chat API 中通过 image_url 传递图像。

支持的多模态模型：

模型系列	图像编码器	文本模型	支持状态
LLaVA-1.5 / 1.6	CLIP-ViT-L	Vicuna / Mistral	是
Qwen-VL / Qwen2-VL	ViT-bigG	Qwen / Qwen2	是
InternVL2	InternViT	InternLM2	是
Phi-3-Vision	CLIP-ViT-L	Phi-3	是
LLaMA 3.2 Vision	ViT	Llama 3.2	是
Pixtral	Pixtral-ViT	Mistral	是

部署命令：

# LLaVA-1.6 部署
python -m sglang.launch_server \
    --model-path liuhaotian/llava-v1.6-vicuna-7b \
    --tokenizer-path liuhaotian/llava-v1.6-vicuna-7b \
    --chat-template llava \
    --tp-size 1

# Qwen2-VL 部署
python -m sglang.launch_server \
    --model-path Qwen/Qwen2-VL-7B-Instruct \
    --tp-size 2

API 调用示例：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:30000/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="liuhaotian/llava-v1.6-vicuna-7b",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What's in this image?"},
            {"type": "image_url", "image_url": {
                "url": "https://example.com/image.jpg"
            }}
        ]
    }],
    max_tokens=256
)

SGLang DSL 多模态调用：

@sgl.function
def visual_qa(s, image_path, question):
    s += sgl.user(sgl.image(image_path) + question)
    s += sgl.assistant(sgl.gen("answer", max_tokens=256))
    return s

result = visual_qa.run(
    image_path="/path/to/image.jpg",
    question="Describe this image in detail."
)

多模态推理注意事项：

图像经由 ViT 编码器处理，编码结果与文本 token 拼接送入 LLM
图像 Prefill 阶段不参与 RadixAttention 前缀共享
多图像输入支持，每张图像占用额外显存
建议使用 TP=1 或 TP=2 配置，ViT 编码器不支持跨卡 Tensor Parallelism

17 SGLang 如何支持 LoRA 适配器？

答案：

SGLang 支持 LoRA（Low-Rank Adaptation） 适配器动态加载与热切换，允许同一基础模型服务多个 LoRA 变体，无需重启服务。

LoRA 架构原理：

Base Model Weight: W ∈ R^(d×k)
LoRA Adapter:       ΔW = A·B,   A ∈ R^(d×r), B ∈ R^(r×k), r ≪ min(d,k)
Effective Weight:   W' = W + ΔW

请求侧指定 adapter_id → Runtime 动态加载对应的 A,B 矩阵

配置示例：

# 启动时指定 LoRA 适配器目录
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --lora-paths \
        math=path/to/math-lora,\
        code=path/to/code-lora,\
        medical=path/to/medical-lora \
    --max-lora-rank 64 \
    --lora-backend triton \
    --tp-size 1

API 调用：

# 指定 LoRA 适配器
response = client.chat.completions.create(
    model="math",  # 对应 --lora-paths 中定义的 math 适配器
    messages=[{"role": "user", "content": "Solve integral of x^2 dx"}],
    max_tokens=256
)

# 不指定 LoRA：使用基础模型
response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[{"role": "user", "content": "Hello!"}],
    max_tokens=256
)

关键参数：

参数	说明	默认值
`--lora-paths`	LoRA 适配器名称与路径映射	无
`--max-lora-rank`	最大 LoRA 秩	32
`--max-loras`	最大同时加载的适配器数	4
`--max-cpu-loras`	CPU 可缓存的最大适配器数	8
`--lora-backend`	LoRA 计算后端	triton / punica

LoRA 调度与显存管理：

活跃 LoRA 的 A、B 矩阵驻留在 GPU 显存
非活跃 LoRA 可卸载到 CPU 内存（通过 --max-cpu-loras 控制）
请求到达时指定 LoRA 标识，Runtime 按需加载对应适配器
Punica 后端（默认）支持多 LoRA 批量合并计算，减少 kernel launch 开销

18 SGLang 的推理性能优化手段有哪些？

答案：

SGLang 综合运用 CUDA Graph、FlashInfer、Torch Compile、FP8 KV Cache 等多种优化技术提升推理性能。

优化技术全景：

优化技术	作用层面	收益	配置方式
CUDA Graph	Decode 阶段	减少 CPU-GPU 同步开销，提升小 Batch Decode 速度 20–40%	`--cuda-graph-max-bs 256`
FlashInfer	Attention 计算	高效 Prefill/Decode Attention 核函数	`--attention-backend flashinfer`
Torch Compile	模型编译	图级优化融合，逐层编译加速	`--enable-torch-compile`
FP8 KV Cache	显存	KV Cache 显存减半，提升 Batch Size	`--kv-cache-dtype fp8_e5m2`
Triton Kernels	自定义算子	针对特定模型的自定义 kernel	默认启用
Prefix Caching	Prefill	减少重复 Prefill 计算	RadixAttention 默认启用
Warmup	启动	预热 CUDA kernel，避免首次调用卡顿	默认启用

CUDA Graph 配置：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --cuda-graph-max-bs 256 \           # CUDA Graph 最大 batch size
    --cuda-graph-bs "[1,2,4,8,16,32]"  # 预编译的 batch size 列表

FlashInfer 配置：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --attention-backend flashinfer      # 使用 FlashInfer 作为 Attention 后端

Torch Compile 配置：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --enable-torch-compile              # 启用 Torch Inductor 编译

FP8 KV Cache 优化：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --kv-cache-dtype fp8_e5m2           # KV Cache 使用 FP8 存储

性能组合配置（高吞吐场景）：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --tp-size 4 \
    --attention-backend flashinfer \
    --kv-cache-dtype fp8_e5m2 \
    --cuda-graph-max-bs 256 \
    --enable-torch-compile \
    --mem-fraction-static 0.85 \
    --max-total-tokens 131072

19 SGLang 的分布式推理（Data Parallel / Expert Parallel）如何配置？

答案：

SGLang 支持 Data Parallel（数据并行） 和 Expert Parallel（专家并行） 两种分布式推理模式，适用于高吞吐场景和 MoE（Mixture of Experts）模型。

并行模式总览：

并行模式	切分方式	通信模式	适用模型	配置
Tensor Parallelism	权重矩阵切分	AllReduce	所有模型	`--tp-size N`
Pipeline Parallelism	按层切分	P2P Send/Recv	超大模型	`--pp-size N`
Data Parallel	数据复制	无	所有模型（多实例）	`--dp-size N`
Expert Parallel	按 Expert 分布	AllToAll	MoE 模型	`--ep-size N`

Data Parallel 配置：

# 单机 8 卡，Data Parallel：2 组 TP=4
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --tp-size 4 \
    --dp-size 2

# GPU 映射：GPU0-3 → TP Group 0（实例 0）
#          GPU4-7 → TP Group 1（实例 1）

Data Parallel 负载均衡：

# 配置请求路由均衡策略
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-70B-Instruct \
    --tp-size 4 \
    --dp-size 2 \
    --load-balance-method round-robin   # 轮询（默认）或 shortest-queue

Expert Parallel 配置（MoE 模型）：

# DeepSeek-V2 / Mixtral 8x7B 等 MoE 模型
python -m sglang.launch_server \
    --model-path deepseek-ai/DeepSeek-V2 \
    --tp-size 4 \
    --ep-size 8 \
    --enable-ep-moe                     # 启用 Expert Parallel + MoE 优化

多节点分布式推理：

# 节点 0（Master）
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-405B-Instruct \
    --tp-size 8 \
    --nnodes 2 \
    --node-rank 0 \
    --master-addr 192.168.1.100 \
    --master-port 29500

# 节点 1（Worker）
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-405B-Instruct \
    --tp-size 8 \
    --nnodes 2 \
    --node-rank 1 \
    --master-addr 192.168.1.100 \
    --master-port 29500

关键环境变量：

export NCCL_SOCKET_IFNAME=eth0          # 指定 NCCL 通信网卡
export NCCL_IB_DISABLE=0               # 启用 InfiniBand
export NCCL_NET_GDR_LEVEL=2            # GPUDirect RDMA
export NCCL_DEBUG=INFO                 # NCCL 调试日志
export GLOO_SOCKET_IFNAME=eth0         # Gloo 通信网卡

20 SGLang 的日志与监控如何实现？

答案：

SGLang 提供内置的请求日志、性能指标和 Prometheus 指标端点，支持与 Grafana 集成实现生产级可观测性。

日志配置：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --log-level info \
    --log-requests True \
    --log-requests-level 2 \
    --show-time-cost True

日志级别说明：

级别	内容
`--log-requests True`	记录每个请求的基本信息（ID、token 数、延迟）
`--log-requests-level 1`	额外记录 Prefill/Decode 阶段耗时
`--log-requests-level 2`	额外记录每个 decode step 的耗时
`--show-time-cost True`	显示 KV Cache 命中率、前缀复用统计

请求日志示例：

[2024-01-15 10:23:45] Finish request: rid=abc123, 
  input_tokens=2048, output_tokens=512,
  prefill_time=0.32s, decode_time=2.15s,
  ttft=0.35s, latency=2.47s, 
  kv_cache_hit_rate=0.85

Prometheus 指标端点：

# 访问 http://localhost:30000/metrics

sglang:num_running_reqs          # 当前正在处理的请求数
sglang:num_queue_reqs            # 队列中等待的请求数
sglang:num_used_tokens           # KV Cache 池已使用 token 数
sglang:token_usage               # KV Cache 使用率
sglang:gen_throughput            # Token 生成吞吐（tokens/s）
sglang:time_to_first_token       # 首 token 延迟统计
sglang:time_per_output_token     # 每 token 生成延迟
sglang:e2e_request_latency       # 端到端请求延迟
sglang:cache_hit_rate            # KV Cache 命中率

关键指标解读：

指标	类型	含义	阈值参考
`sglang:num_queue_reqs`	Gauge	排队请求数	> 10 需扩容
`sglang:token_usage`	Gauge	KV Cache 使用率	> 85% 需扩容或调整池大小
`sglang:gen_throughput`	Counter	Token 生成速率	低于基准 30% 需排查
`sglang:time_to_first_token`	Histogram	首 token 延迟	P99 > 2s 需优化
`sglang:cache_hit_rate`	Gauge	KV Cache 命中率	< 60% 检查工作负载特征

Grafana Dashboard 集成：

# Prometheus ServiceMonitor
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: sglang-monitor
spec:
  selector:
    matchLabels:
      app: sglang
  endpoints:
  - port: http
    path: /metrics
    interval: 15s

21 SGLang 的安全与访问控制机制有哪些？

答案：

SGLang 提供 API Key 认证、请求限流、模型访问控制和网络层安全等多层防护机制。

安全层级：

层级	机制	配置方式
API 认证	API Key 验证	`--api-key` / `--api-key-file`
请求限流	并发请求数限制、速率限制	`--max-running-requests` / `--max-total-tokens`
模型控制	指定可用模型列表	`--served-model-name`
网络层	绑定内网地址、反向代理	`--host` + Nginx/Traefik
内容过滤	输入/输出长度限制	`--context-length`

API Key 认证：

# 单 API Key
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --api-key sk-secret-key-12345

# 多 API Key（文件方式）
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --api-key-file /etc/sglang/api_keys.txt

# 客户端携带 API Key
client = OpenAI(
    base_url="http://localhost:30000/v1",
    api_key="sk-secret-key-12345"
)

请求限流配置：

python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --max-running-requests 64 \           # 最大并发请求数
    --max-total-tokens 65536 \            # KV Cache 池大小（隐式限流）
    --max-prefill-tokens 16384 \          # 单请求最大 Prefill token
    --context-length 8192                 # 上下文长度限制

网络层安全：

# 仅监听内网
python -m sglang.launch_server \
    --host 127.0.0.1 \                    # 仅本机访问
    --port 30000

# 反向代理 + HTTPS
# Nginx 配置示例
location /v1/ {
    proxy_pass http://127.0.0.1:30000;
    proxy_set_header Host $host;
    proxy_set_header X-Real-IP $remote_addr;
    proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
    proxy_read_timeout 600s;
    # 限流
    limit_req zone=sglang burst=20 nodelay;
}

安全最佳实践：

# 生产环境安全配置组合
python -m sglang.launch_server \
    --model-path /models/Llama-3.1-8B-Instruct \
    --host 127.0.0.1 \                    # 仅监听 localhost
    --port 30000 \
    --api-key $(cat /etc/sglang/api_key) \ # 环境变量或文件传入
    --max-running-requests 128 \
    --context-length 8192 \
    --trust-remote-code False             # 禁止执行远程代码

22 SGLang 如何适配自定义模型？

答案：

SGLang 提供模型注册机制，通过实现 Model 接口适配自定义模型架构。

适配方式概览：

适配方式	适用场景	难度
HuggingFace AutoModel	标准 Transformers 兼容模型	低
配置文件适配	非标准 config.json 的变体模型	中
自定义 Model Class	全新架构或非公开模型	高

方式一：HuggingFace 自动适配：

# 大部分 HuggingFace 模型无需额外适配，直接加载
python -m sglang.launch_server \
    --model-path my-org/my-custom-model \
    --trust-remote-code True

方式二：自定义模型配置文件：

# model_config.py 覆盖默认配置
from sglang.srt.models.llama import LlamaForCausalLM

class CustomLlamaForCausalLM(LlamaForCausalLM):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        # 覆盖 attention 或 FFN 实现

EntryClass = CustomLlamaForCausalLM

python -m sglang.launch_server \
    --model-path my-org/my-custom-model \
    --model-impl path/to/model_config.py \
    --trust-remote-code True

方式三：完整自定义 Model Class：

# custom_model.py
import torch
from sglang.srt.model_executor.model_runner import ModelRunner

class CustomModelRunner(ModelRunner):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def load_model(self):
        # 自定义模型加载逻辑
        pass

    def forward(self, input_ids, positions, ...):
        # 自定义前向传播
        pass

    def update_weights_from_disk(self, *args, **kwargs):
        # 自定义权重更新逻辑
        pass

自定义 Tokenizer：

# 指定独立的 Tokenizer 路径
python -m sglang.launch_server \
    --model-path my-org/my-custom-model \
    --tokenizer-path my-org/my-tokenizer \
    --trust-remote-code True

自定义 Chat Template：

# 指定 Chat Template
python -m sglang.launch_server \
    --model-path my-org/my-custom-model \
    --chat-template my-custom-template

23 SGLang 与 vLLM 深度对比分析？

答案：

对比维度	vLLM	SGLang
开发方	UC Berkeley	Stanford / UC Berkeley 联合
发布时间	2023 Q2	2024 Q1
KV Cache 管理	PagedAttention（分页虚拟内存）	RadixAttention（Radix Tree）
前缀共享	Automatic Prefix Caching（哈希匹配）	原生透明共享（树搜索）
前缀共享粒度	Block 级（64–128 token）	Token 序列级（任意长度）
调度策略	Prefill-first / Decode-first	Prefix-aware Interleaving
编程接口	OpenAI API + vLLM Sync/Async API	OpenAI API + SGLang DSL
Structured Output	guided_json / guided_regex / guided_choice	JSON Schema / Regex / EBNF Grammar
Parallel Sampling	`n` 参数支持	`fork()` 原语，支持 join 后处理
多模态	社区支持	原生支持 LLaVA / Qwen-VL / InternVL
Speculative Decoding	支持	支持（Eagle / Medusa）
量化	AWQ / GPTQ / FP8 / SqueezeLLM	AWQ / GPTQ / FP8 / BitsAndBytes
Tensor Parallelism	支持	支持
Pipeline Parallelism	支持	支持
Data Parallel	支持	支持
LoRA	支持（Punica）	支持（Triton / Punica）
社区生态	成熟（40k+ GitHub Stars）	快速增长（15k+ GitHub Stars）
企业采用	Anyscale / AWS / Databricks	LMSYS Chatbot Arena / 多个推理平台

性能对比（LMSYS 官方基准，Llama-2-7B，A10G）：

场景	vLLM	SGLang	SGLang 优势
单轮对话（随机 Prompt）	100%	102%	+2%
多轮对话（固定 System Prompt）	100%	180%	+80%
Few-shot In-Context Learning	100%	250%	+150%
RAG（相同 Prompt 模板）	100%	220%	+120%
Batch API 调用（相同 Prompt 前缀）	100%	350%	+250%

选型建议：

场景	推荐
通用推理服务，工作负载随机	vLLM 或 SGLang 均可
多轮对话 / 相同 System Prompt	SGLang
Few-shot / RAG / Prompt 模板复用	SGLang
需要 SGLang DSL 结构化生成	SGLang
需要成熟生态与社区支持	vLLM
Anyscale / AWS Bedrock 集成	vLLM
LMSYS / 多后端切换需求	SGLang

24 SGLang 与 HuggingFace TGI 对比？

答案：

对比维度	HuggingFace TGI	SGLang
开发方	HuggingFace	Stanford / UC Berkeley
技术栈	Rust + Python	Python + CUDA/C++
KV Cache 管理	传统 Paged KV Cache	RadixAttention（Radix Tree）
前缀共享	不支持原生前缀共享	原生透明前缀共享
Continuous Batching	支持	支持（Prefix-aware）
Structured Output	JSON / Regex（watermark 方式）	JSON Schema / Regex / Grammar（FSM 方式）
编程接口	OpenAI API + TGI Messages API	OpenAI API + SGLang DSL
量化	GPTQ / AWQ / EETQ / FP8	AWQ / GPTQ / FP8 / BitsAndBytes
Speculative Decoding	支持	支持（Eagle / Medusa）
多模态	支持（Idefics3 / LLaVA-NeXT / Qwen2-VL）	支持（LLaVA / Qwen-VL / InternVL）
分布式推理	TP + DP + PP	TP + DP + PP + EP
LoRA	支持	支持
Web UI	无内置	内置 Chat Web UI
HuggingFace Hub 集成	深度集成	通过 Transformers 库集成
API 文档	Swagger UI 自动生成	手动文档
生产成熟度	成熟（HuggingFace 官方维护）	快速迭代中
吞吐性能	基准	多场景 1.5×–3.5×

TGI 特性优势：

HuggingFace Hub 生态深度集成，模型下载、Token 管理一站式
Rust 实现的 Tokenizer 处理和请求路由，CPU 侧开销低
Swagger UI 自动 API 文档
HuggingFace Inference Endpoints 云服务原生支持

SGLang 特性优势：

RadixAttention 在前缀复用场景下吞吐数倍于 TGI
SGLang DSL 适合复杂 LLM 编排应用
FSM 结构化输出比 TGI 的 Watermark 方式更可靠
Expert Parallel 支持 MoE 模型高效推理

25 SGLang 与 TensorRT-LLM 对比？

答案：

对比维度	TensorRT-LLM（NVIDIA）	SGLang
开发方	NVIDIA	Stanford / UC Berkeley
技术栈	C++ / CUDA（核心）+ Python API	Python + CUDA/C++
编译方式	图编译（TRT Engine）	PyTorch eager + Torch Compile
模型支持	NVIDIA 官方优化的架构	HuggingFace 兼容的所有架构
新模型适配	需编写 TensorRT-LLM Plugin	自动适配（Transformers 兼容模型）
部署速度	构建 TRT Engine 耗时（分钟级）	即时启动（秒级）
KV Cache	Paged KV Cache	RadixAttention
前缀共享	不支持	原生支持
Structured Output	不支持原生约束生成	FSM 约束生成
量化	FP8 / INT8 / INT4（TensorRT 原生）	AWQ / GPTQ / FP8 / BitsAndBytes
Tensor Parallelism	支持	支持
Pipeline Parallelism	支持	支持
Inflight Batching	支持	支持（Continuous Batching）
Speculative Decoding	支持（Medusa）	支持（Eagle / Medusa）
单卡极限性能	最优（深度优化）	优异
吞吐（前缀复用场景）	基准	1.5×–3×
易用性	构建流程复杂	一键启动

TensorRT-LLM 核心优势：

单卡极致性能：通过图编译、Kernel Fusion、CUDA Kernel 深度优化，在单卡极限吞吐上表现最优
NVIDIA 官方全栈优化：与 CUDA、cuBLAS、cuDNN 深度耦合
FP8 原生优化：H100/H200 上 FP8 推理性能领先
NVIDIA Triton Inference Server 集成：企业级模型服务

SGLang 核心优势：

前缀复用场景吞吐远超 TensorRT-LLM
即时部署：无需 TRT Engine 构建，秒级启动
新模型零适配成本
SGLang DSL 结构化生成
社区驱动快速迭代

选型建议：

场景	推荐
单模型极致性能，有 NVIDIA 工程师支持	TensorRT-LLM
H100/H200 上 FP8 推理	TensorRT-LLM
频繁切换模型，快速试验	SGLang
多轮对话 / RAG / Prompt 模板复用	SGLang
需要结构化输出	SGLang
NVIDIA Triton 生态集成	TensorRT-LLM

26 SGLang 的延迟优化策略有哪些？

答案：

SGLang 的延迟优化覆盖请求全生命周期，从 Prefill 到 Decode 各阶段单独优化。

延迟构成分析：

端到端延迟 = Queue Waiting + Prefill Time + TTFT + Decode Time
              ──────────   ────────────   ────   ───────────
              Scheduler      Attention   调度+   自回归生成
              与KV Cache     计算+       Tokenizer
              管理            网络传输

各阶段优化策略：

阶段	优化手段	配置	预期收益
Queue Waiting	Prefix-aware 调度	`--schedule-policy lpm`	减少 50% 排队
Prefill	RadixAttention 前缀复用	默认启用	减少 60–80% Prefill
Prefill	CUDA Graph	`--cuda-graph-max-bs`	稳定 Prefill 延迟
Decode	FlashInfer Attention	`--attention-backend flashinfer`	减少 20% decode step
Decode	CUDA Graph（小 batch）	`--cuda-graph-bs "[1,2,4]"`	减少 CPU 调度开销
Tokenizer	服务器端缓存	默认	消除重复 tokenization
Token Output	Streaming 模式	`stream=True`	TTFT 感知降低

延迟优化配置模板：

# 低延迟优先配置
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --tp-size 1 \
    --attention-backend flashinfer \
    --cuda-graph-max-bs 64 \
    --cuda-graph-bs "[1,2,4,8,16,32,64]" \
    --max-running-requests 32 \             # 限制并发，降低排队
    --max-prefill-tokens 8192 \             # 限制单次 Prefill 规模
    --schedule-conservativeness 1.0 \       # 保守调度，延迟优先
    --disable-radix-cache False

TTFT（Time to First Token）优化：

# 客户端 Streaming 调用
response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[{"role": "user", "content": prompt}],
    max_tokens=256,
    stream=True,                # Streaming 降低 TTFT 感知
    temperature=0.0             # 贪婪采样减少延迟抖动
)

关键延迟指标与目标：

指标	定义	生产目标（P99）
TTFT	首 token 生成延迟	< 500ms
TPOT	每个 token 生成延迟	< 50ms
E2E Latency	完整请求响应延迟	< 3s（256 token 输出）
Queue Time	请求排队等待时间	< 200ms

27 SGLang 的吞吐量优化策略有哪些？

答案：

SGLang 的吞吐量优化聚焦于最大化 GPU 利用率、提高 Batch Size 和减少显存浪费。

吞吐量公式：

Throughput (tokens/s) = Batch_Size × Sequence_Length / Latency

优化方向：
1. 增大 Batch_Size：增加并发请求数、提高显存利用率
2. 减小 Latency：RadixAttention 前缀复用、FlashInfer 加速
3. 提高显存效率：FP8 KV Cache、量化权重

高吞吐配置模板：

# 高吞吐优先配置
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --tp-size 1 \
    --attention-backend flashinfer \
    --kv-cache-dtype fp8_e5m2 \             # FP8 KV Cache 节省 50% 显存
    --cuda-graph-max-bs 512 \               # 大 batch CUDA Graph
    --max-total-tokens 131072 \             # 大型 KV Cache 池
    --max-running-requests 512 \            # 高并发
    --max-prefill-tokens 32768 \            # 大批量 Prefill
    --mem-fraction-static 0.92 \            # 最大化显存分配
    --schedule-conservativeness 0.0 \       # 激进调度，吞吐优先
    --enable-torch-compile                  # Torch Inductor 编译优化

吞吐量优化技术矩阵：

优化技术	吞吐提升	代价	适用条件
FP8 KV Cache	+30–50%	精度轻微损失	H100 / H200 或 A100
大 Batch Size	+20–40%	延迟增加	高并发场景
Prefix-aware Batching	+50–250%	无	前缀重用场景
FlashInfer	+10–20%	需安装	所有 GPU
Torch Compile	+5–15%	首次编译时间	Python 3.10+
Data Parallel	线性扩展	额外 GPU	多卡场景

Batch Size 优化：

# 逐步调大，监控 OOM
--max-total-tokens 8192   # 初始值
--max-total-tokens 16384  # 调大
--max-total-tokens 32768  # 继续调大
--max-total-tokens 65536  # 目标值
--max-total-tokens 131072 # 最大尝试

# 监控指标
curl http://localhost:30000/metrics | grep "token_usage"

提升前缀复用率：

前缀复用率 = 复用的 token 数 / 总 Prefill token 数

提升方法：
1. 统一 System Prompt（所有请求使用相同或相似前缀）
2. Few-shot 示例标准化（固定格式，减少变化）
3. Prompt 模板化（动态部分放在末尾）
4. 请求分组路由（相似 Prompt 路由到同一实例）

28 SGLang 的故障恢复与容错机制如何设计？

答案：

SGLang 的故障恢复策略涵盖进程级、节点级和集群级三个层面。

故障类型与恢复策略：

故障类型	影响范围	恢复策略	实现方式
OOM（显存溢出）	当前请求	请求重试 + KV Cache 收缩	Runtime 捕获 + 请求拒绝
CUDA Error	当前实例	进程自动重启	Kubernetes liveness probe
Model Load 失败	实例启动	回滚到已知良好模型版本	蓝绿部署
GPU 故障	当前节点	节点驱逐 + 反亲和调度	Kubernetes + Node Problem Detector
网络分区	分布式推理	NCCL 超时重连	NCCL 配置 + Kubernetes 重调度

进程级容错：

# SGLang 异常请求处理
python -m sglang.launch_server \
    --model-path meta-llama/Llama-3.1-8B-Instruct \
    --max-total-tokens 65536 \              # 防止 OOM
    --context-length 8192 \                 # 限制单请求上下文
    --max-running-requests 128              # 限制并发

# 客户端重试机制
from tenacity import retry, stop_after_attempt, wait_exponential

@retry(
    stop=stop_after_attempt(3),
    wait=wait_exponential(multiplier=1, min=2, max=30)
)
def inference_request(prompt):
    return client.chat.completions.create(
        model="meta-llama/Llama-3.1-8B-Instruct",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=256
    )

Kubernetes 自动恢复：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: sglang-server
spec:
  replicas: 2
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxSurge: 1
      maxUnavailable: 0              # 零停机更新
  template:
    spec:
      affinity:
        podAntiAffinity:             # 反亲和：分散到不同节点
          requiredDuringSchedulingIgnoredDuringExecution:
          - labelSelector:
              matchLabels:
                app: sglang
            topologyKey: kubernetes.io/hostname
      containers:
      - name: sglang
        livenessProbe:               # 存活探针
          httpGet:
            path: /health_generate
            port: 30000
          initialDelaySeconds: 120
          periodSeconds: 30
          failureThreshold: 3
        readinessProbe:              # 就绪探针
          httpGet:
            path: /health
            port: 30000
          initialDelaySeconds: 60
          periodSeconds: 10
          failureThreshold: 3

模型版本回滚（蓝绿部署）：

# 当前生产版本（Blue）
apiVersion: apps/v1
kind: Deployment
metadata:
  name: sglang-v1
  labels:
    version: v1
    active: "true"
spec:
  replicas: 2
  ...

# 新版本（Green）
apiVersion: apps/v1
kind: Deployment
metadata:
  name: sglang-v2
  labels:
    version: v2
    active: "false"
spec:
  replicas: 0                        # 初始 0 副本
  ...

NCCL 容错配置：

# NCCL 超时与重试
export NCCL_ASYNC_ERROR_HANDLING=1
export NCCL_TIMEOUT=600               # NCCL 超时（秒）
export NCCL_NET_GDR_LEVEL=2
export NCCL_IB_TIMEOUT=22

29 SGLang 的新特性与版本演进（v0.3 / v0.4 / latest）

答案：

SGLang 自 2024 年发布以来快速迭代，主要版本里程碑如下。

版本演进路线：

版本	发布时间	核心新特性
v0.1.x	2024.01	初始发布，RadixAttention + SGLang DSL + vLLM 后端
v0.2.x	2024.04	SGLang Native Backend、Structured Output（JSON/Regex）、FlashInfer 支持、多模态 LLaVA
v0.3.x	2024.08	Speculative Decoding、LoRA 适配器、AWQ/GPTQ 量化、Data Parallel
v0.4.x	2024.12	Expert Parallel（MoE）、Torch Compile 集成、FP8 KV Cache、Qwen2-VL 支持
latest	2025+	Pipeline Parallelism、Chat Web UI、EBNF Grammar 约束、InternVL2 / Pixtral 支持、多节点分布式推理完善

v0.3 关键特性：

Speculative Decoding：Eagle / Medusa 架构推测解码，降低自回归延迟
LoRA Adapter：Punica / Triton 后端，支持热切换多 LoRA 变体
AWQ / GPTQ 量化：INT4 量化支持，显存减少 75%，吞吐提升 2–3×
Data Parallel：多组 TP 实例负载均衡
Chat Template 自动检测：支持 30+ 模型 chat template 自动适配

v0.4 关键特性：

Expert Parallel：DeepSeek-V2 / Mixtral 等 MoE 模型高效推理
Torch Compile (torch.compile)：图级编译优化，减少 Python 开销
FP8 KV Cache：KV Cache 显存减半，Batch Size 翻倍
Qwen2-VL / InternVL2：多模态模型扩展支持
Pipeline Parallelism：支持 400B+ 超大模型跨节点部署

latest 关键特性（2025+）：

EBNF Grammar 约束：支持递归文法，覆盖复杂结构化生成场景
Chat Web UI：内置可视化对话界面，方便测试与演示
SGLang Native Engine：原生推理引擎逐步替代 vLLM 后端依赖
Performance Benchmark Suite：标准化性能测试工具
Multi-node Expert Parallel：MoE 模型跨节点推理

版本升级注意事项：

# 检查当前版本
python -c "import sglang; print(sglang.__version__)"

# 升级到最新版本
pip install --upgrade sglang[all]

# 查看版本变更
# https://github.com/sgl-project/sglang/releases

30 SGLang 生产环境部署最佳实践

答案：

SGLang 生产环境部署需覆盖模型管理、资源配置、高可用、可观测性和安全治理五个维度。

一、模型管理

# 1. 模型本地持久化存储
# 使用 PVC 或 HostPath 缓存模型，避免每次启动从 HuggingFace 下载
python -m sglang.launch_server \
    --model-path /models/Llama-3.1-8B-Instruct \    # 本地路径
    --model-loader-extra-config '{"ignore_patterns":["*.safetensors"]}'

# 2. 模型预热
# 启动后发送预热请求，编译 CUDA Graph 和 Torch Inductor
curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"Llama-3.1-8B-Instruct","messages":[{"role":"user","content":"ping"}],"max_tokens":1}'

二、资源配置

# 显存分配
--mem-fraction-static 0.85                   # 85% 用户资源分配（余 15% 缓冲）
--max-total-tokens <显存取 60–70% 的 token 数>  # KV Cache 池大小

# 计算公式（以 80GB A100 + Llama-3.1-8B 为例）
# 模型权重：~16GB（FP16）
# 可用显存：80 - 16 = 64GB
# KV Cache Pool：64GB × 70% = 44.8GB
# max-total-tokens ≈ 44.8GB / (每 token KV Cache 大小)

三、高可用架构

graph TD
    LB["Load Balancer (Nginx / Envoy / Traefik)"]
    PodA["Pod A: GPU 0, TP=1 (单卡实例)"]
    PodB["Pod B: GPU 0,1,2,3, TP=4 (多卡实例)"]
    PodC["Pod C: GPU 0, TP=1 (单卡实例)"]

    LB --> PodA
    LB --> PodB
    LB --> PodC

四、可观测性

# Prometheus + Grafana 监控
# 关键指标面板：
#   1. 请求吞吐（tokens/s）
#   2. TTFT P50 / P99
#   3. TPOT P50 / P99
#   4. KV Cache 使用率
#   5. 队列长度
#   6. 请求错误率

# 告警规则示例（PromQL）
# KV Cache 使用率 > 85%
sglang:token_usage > 0.85

# 请求排队 > 10
sglang:num_queue_reqs > 10

# 错误率 > 1%
rate(sglang:request_errors[5m]) / rate(sglang:request_total[5m]) > 0.01

五、安全治理

# 生产环境完整配置
python -m sglang.launch_server \
    --model-path /models/Llama-3.1-8B-Instruct \
    --host 127.0.0.1 \                        # 仅 localhost
    --port 30000 \
    --api-key $(cat /etc/secrets/sglang-key)  # API Key 认证
    --tp-size 1 \
    --mem-fraction-static 0.85 \
    --max-total-tokens 65536 \
    --max-running-requests 128 \
    --context-length 8192 \
    --log-level info \
    --log-requests True \
    --enable-metrics True \
    --trust-remote-code False \               # 禁止远程代码执行
    --served-model-name my-model-v1           # 模型别名

六、部署清单

检查项	说明	状态
模型文件本地化	模型权重存储于 PVC 或 HostPath	已就绪
显存分配合理	mem-fraction-static ≤ 0.85	已验证
健康检查配置	Kubernetes liveness + readiness probe	已配置
反亲和调度	Pod 分散到不同 GPU 节点	已配置
自动扩缩容	HPA 基于 GPU 利用率或请求队列	可选
反向代理 + HTTPS	Nginx/Traefik 提供 TLS 终端	已配置
API Key 认证	api-key 参数配置	已配置
Prometheus 指标	metrics 端点暴露与采集	已配置
日志集中收集	stdout 日志采集至日志平台	已配置
告警规则	KV Cache 使用率 / TTFT / 错误率	已配置
蓝绿部署	多版本 Deployment 切换	可选
预热脚本	启动后自动预热 CUDA Graph	已配置