评估打标概述--AgentKit-火山引擎

文档中心

AgentKit

请输入

评估打标

评估打标概述

Agent 运营分析提供 LLM 评估打标工具，支持针对线上真实数据发起运营评估任务，智能评估 Agent 的调用链路（Trace）、会话（Session），并提供分析报告，洞察 Agent 指标增长。本文主要介绍评估打标所包含的功能与效果。

功能概览

评估任务

在该功能中，您可以为 Agent 发起运营评估任务。任务会根据设定的标签规则、评估时间范围、评估用户范围以及抽样方式，对接入的 Agent 数据进行评估打标，并输出评估报告，报告内容包含智能洞察结果、核心数据指标、会话意图分析、问题和优化建议等详细数据。具体操作请参见管理运营评估任务。

评估器

Agent 运营分析提供基于规则、 LLM 的评估打标工具。在开始运营评估任务前，您需要结合业务所需自定义构建评估器，在后续评估过程中为整个用户旅程或每轮对话进行评估打标，基于打标结果可针对 Agent 的业务使用情况、线上效果情况提供分析报告和看板，洞察更多 Agent 指标增长。具体操作请参见管理评估器。

关联会话分析

当您配置会话分析的满意度分析、情绪诊断时，可关联评估器、评估任务获取指定范围内的分析诊断报告。详情请参见：

典型场景

示例场景	场景说明
场景一：打标意图需求	业务背景：智能助手需要识别用户咨询是否与系统平台相关，以便精准路由到对应的知识库或服务。打标需求：对用户 query 进行二分类打标，判断是否属于系统平台相关意图。示意图：
场景二：评测回答质量	业务背景：某电商平台的智能客服 Agent 每天承接数万次用户咨询，需要定期评测回答质量，发现回答偏差、幻觉、态度问题等。评测需求：需通过“准确性、完整性、安全性、态度、幻觉”五个维度评判回答是否可靠；则需要依次创建5个评估器，每个评估器分别放每个维度的评估提示词。示意图：

示例场景

场景说明

场景一：打标意图需求

业务背景：智能助手需要识别用户咨询是否与系统平台相关，以便精准路由到对应的知识库或服务。
打标需求：对用户 query 进行二分类打标，判断是否属于系统平台相关意图。
示意图：

场景二：评测回答质量

业务背景：某电商平台的智能客服 Agent 每天承接数万次用户咨询，需要定期评测回答质量，发现回答偏差、幻觉、态度问题等。
评测需求：需通过“准确性、完整性、安全性、态度、幻觉”五个维度评判回答是否可靠；则需要依次创建5个评估器，每个评估器分别放每个维度的评估提示词。
示意图：

最近更新时间：2026.06.22 17:51:55

这个页面对您有帮助吗？

有用

无用

AgentKit

评估任务 #

评估器 #

关联会话分析 #

评估任务

评估器

关联会话分析