Enable javascript in your browser for better experience. Need to know to enable it? Go here.
更新于 : Oct 23, 2024
Oct 2024
试验 ?

vLLM 是一个高吞吐量、内存高效的 LLM 推理引擎,既可以在云环境中运行,也可以在本地部署。它无缝支持多种 模型架构 和流行的开源模型。我们的团队在 NVIDIA DGX 和 Intel HPC 等 GPU 平台上部署了容器化的 vLLM 工作节点,托管模型如 Llama 3.1(8B and 70B)Mistral 7BLlama-SQL ,用于开发者编码辅助、知识搜索和自然语言数据库交互。vLLM 兼容 OpenAI SDK 标准,促进了一致的模型服务。Azure 的 AI 模型目录 使用自定义推理容器来提升模型服务性能,vLLM 由于其高吞吐量和高效的内存管理,成为默认的推理引擎。vLLM 框架正在成为大规模模型部署的默认选择。

Apr 2024
评估 ?

vLLM 是一个具有高吞吐量和高效内存的大语言模型(LLM)推理和服务引擎,其特别有效的原因在于它可以对传入请求进行连续批处理。它支持几种部署选项,包括使用Ray运行时进行分布式张量并行推理和服务部署,在云中使用SkyPilot、NVIDIA Triton、DockerLangChain进行部署。我们团队的经验是在本地虚拟机中运行基于 docker 的 vLLM worker,集成了与 OpenAI 兼容的 API 服务器,并在此基础上被一系列应用所利用(包括用于编码辅助以及聊天机器人的 IDE 插件)。团队对此反馈良好。我们的团队利用 vLLM 运行诸如CodeLlama 70BCodeLlama 7BMixtral等模型。引擎的另一个显著特点是其可扩展能力:只需进行一些配置更改,就可以从运行 7B 模型转换为 70B 模型。如果您希望将 LLMs 投入生产,那么 vLLM 值得进一步探索。

发布于 : Apr 03, 2024

下载 PDF

 

English | Español | Português | 中文

订阅技术雷达简报

 

立即订阅

查看存档并阅读往期内容