发布于 : Oct 23, 2024
Oct 2024
试验
FastChat 是一个开放平台,用于训练、服务和评估大型语言模型。我们的团队利用其模型服务能力来托管多个模型 — Llama 3.1 (8B and 70B) 、Mistral 7B 和 Llama-SQL — 出于不同的目的,所有模型均以一致的 OpenAI API 格式运行。FastChat 采用控制器-工作者架构,允许多个工作者托管不同的模型。它支持不同类型的工作者,如 vLLM、LiteLLM 和 MLX。我们选择使用 vLLM 模型工作者,以利用其在高吞吐量的优势。根据使用案例的不同(比如延迟或吞吐量),可以创建和扩展不同类型的 FastChat 模型工作者。例如,用于开发者 IDE 中代码建议的模型需要低延迟,这就可以通过多个 FastChat 工作者进行扩展,以有效处理并发请求。相反,用于 Text-to-SQL 的模型由于需求较低或性能要求不同,则不需要多个工作者。我们的团队利用 FastChat 的扩展能力进行 A/B 测试。我们用相同的模型但不同的超参数(Hyperparameter)值配置 FastChat 工作者,并向每个工作者提出相同的问题,从而识别最佳的超参数(Hyperparameter)值。在在线服务中切换模型时,我们进行 A/B 测试以确保平滑迁移。 例如,我们最近将代码建议的模型从 CodeLlama 70B 迁移到 Llama 3.1 70B。通过同时运行这两个模型并比较输出,我们验证了新模型在性能上达到了或超过了之前的模型,同时没有打断开发者的使用体验。