更新于 : Oct 23, 2024
不在本期内容中
这一条目不在当前版本的技术雷达中。如果它出现在最近几期中,那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中,那么它很有可能已经不再具有相关性,我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。
了解更多
Oct 2024
试验
LLM(大型语言模型)像黑箱一样运作,非常难以确定它的行为。可观察性对于打开这个黑箱并理解 LLM 应用程序在生产环境中的运作至关重要。我们团队在使用 Langfuse 方面有过积极的体验,我们曾用它来观察、监控和评估基于 LLM 的应用程序。它的追踪、分析和评估能力使我们能够分析完成性能和准确性,管理成本和延迟,并理解生产使用模式,从而促进持续的数据驱动改进。仪器数据提供了请求-响应流和中间步骤的完整可追溯性,这可以作为测试数据,在部署新变更之前验证应用程序。我们已将 Langfuse 与 RAG(检索增强生成) 等 LLM 架构,以及 大语言模型驱动的自主代理 一起使用。 例如,在基于 RAG 的应用程序中,分析低评分的对话追踪有助于识别架构的哪个部分(如预检索、检索或生成)需要改进。当然,在这一领域,另一个值得考虑的选项是 Langsmith。
发布于 : Apr 03, 2024