Blog Tags Projects

Evals

Published on
September 14, 2024
【译】特定任务的LLM评估的有效和无效方法
translation applied-llm evals
本文主要讨论了如何评估大型语言模型（LLM）在特定任务（分类、提取、摘要、翻译、版权和毒性）上的表现，并提供了一系列的评估方法和工具。
Published on
September 13, 2024
【译】你的 AI 产品需要评估
translation applied-llm evals
本文通过一个关于不动产 AI 助手 “Lucy” 的案例研究，展示了如何通过系统的评估方法来突破产品发展的瓶颈。他提出了三个层次的评估体系：单元测试、人工和模型评估以及 A/B 测试。