LLM as a judge

技术雷达

发布于 : Oct 23, 2024

不在本期内容中

这一条目不在当前版本的技术雷达中。如果它出现在最近几期中，那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中，那么它很有可能已经不再具有相关性，我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。了解更多

Oct 2024

试验

许多我们构建的系统具有两个关键特征：一是能够根据大量数据集中的问题提供答案，二是几乎不可能追踪到该答案的得出过程。尽管这些系统具有不透明性，我们仍然希望评估并提高其响应质量。通过 大语言模型(LLM)作为评判者 的模式，我们可以使用一个 LLM 来评估另一个系统的响应，这个系统可能本身也是基于 LLM 的。我们看到这种模式用于评估产品目录中搜索结果的相关性，以及判断基于 LLM 的聊天机器人是否在合理地引导用户。当然，评估系统必须经过仔细设置和校准。这种方法能够显著提高效率，从而降低成本。这是一个正在进行的研究领域，其现状可以在这篇文章中找到总结。

下载 PDF

English | Español | Português | 中文

订阅技术雷达简报

立即订阅

服务

行业

特色

数字出版物和工具

所有洞见

下载 PDF

订阅技术雷达简报

查看存档并阅读往期内容