pymllm Runtime¶ pymllm Setup and Usage 总览 环境要求 安装依赖 CUTLASS 头文件 启动服务 常用参数 OpenAI-compatible 请求 开发与测试 已知限制 pymllm Runtime Design 总览 整体分层 进程拓扑 请求生命周期 控制面:Engine 与配置 调度器 ModelRunner KV cache 与 prefix cache IPC 与多模态数据传输 与 mllm C++ Backend 的关系 pymllm Models and Quantization 总览 模型注册 Qwen3 文本模型 Qwen3-VL 图文模型 量化配置解析 W4A16 / AWQ Marlin 路径 W8A8 INT8 路径 LinearMethod 生命周期 新增模型的建议流程 新增量化方法的建议流程 pymllm Kernels and Acceleration 总览 mllm-kernel TVM-FFI JIT 路径 FlashInfer Attention CUDA Graph W4A16 Marlin W8A8 Triton + CUTLASS GDN decode kernel 调试与观测 pymllm Developer Guide 总览 开发环境建议 新增模型 新增量化 scheme 新增 CUDA JIT kernel 服务级验证 性能验证 常见问题定位 贡献建议