You need to enable JavaScript to run this app.
文档中心
AgentKit

AgentKit

复制全文
下载 pdf
评估打标
评估打标概述
复制全文
下载 pdf
评估打标概述

Agent 运营分析提供 LLM 评估打标工具,支持针对线上真实数据发起运营评估任务,智能评估 Agent 的调用链路(Trace)、会话(Session),并提供分析报告,洞察 Agent 指标增长。本文主要介绍评估打标所包含的功能与效果。

功能概览

评估任务

在该功能中,您可以为 Agent 发起运营评估任务。任务会根据设定的标签规则、评估时间范围、评估用户范围以及抽样方式,对接入的 Agent 数据进行评估打标,并输出评估报告,报告内容包含智能洞察结果、核心数据指标、会话意图分析、问题和优化建议等详细数据。具体操作请参见管理运营评估任务
Image

评估器

Agent 运营分析提供基于规则、 LLM 的评估打标工具。在开始运营评估任务前,您需要结合业务所需自定义构建评估器,在后续评估过程中为整个用户旅程或每轮对话进行评估打标,基于打标结果可针对 Agent 的业务使用情况、线上效果情况提供分析报告和看板,洞察更多 Agent 指标增长。具体操作请参见管理评估器
Image

关联会话分析

当您配置会话分析的满意度分析情绪诊断时,可关联评估器、评估任务获取指定范围内的分析诊断报告。详情请参见:

典型场景

示例场景

场景说明

场景一:打标意图需求

  • 业务背景:智能助手需要识别用户咨询是否与系统平台相关,以便精准路由到对应的知识库或服务。
  • 打标需求:对用户 query 进行二分类打标,判断是否属于系统平台相关意图。
  • 示意图:

Image

场景二:评测回答质量

  • 业务背景:某电商平台的智能客服 Agent 每天承接数万次用户咨询,需要定期评测回答质量,发现回答偏差、幻觉、态度问题等。
  • 评测需求:需通过“准确性、完整性、安全性、态度、幻觉”五个维度评判回答是否可靠;则需要依次创建5个评估器,每个评估器分别放每个维度的评估提示词。
  • 示意图:

Image

最近更新时间:2026.06.22 17:51:55
这个页面对您有帮助吗?
有用
有用
无用
无用