流式计算 Flink 版已经对接云监控服务,提供 Flink 任务的监控和告警能力。在 Flink 任务详情中的数据曲线页签下,展示当前任务的监控指标数据曲线,您可以从 Overview、Network&IO、JVM、Schedule Info、Checkpoint View、Checkpoint Timer、Checkpoint Operator Performance、Resource、Watermark 不同维度查看任务指标情况,通过分析监控指标,能快速发现任务运行是否异常。
目前支持 Flink 1.11-volcano 和 Flink 1.16-volcano 版本,不同引擎版本支持的监控指标有少许不同。您查看 Flink 任务监控指标时,请注意引擎版本的区分。
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_uptime | 任务运行时间,即任务最后一个 job-pod的持续时间。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_fullRestarts | 任务从开始到目前总的重启次数,包含 fullRestart 和细粒度的重启。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_taskSlotsTotal | 任务总共的 Slot 数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_taskSlotsAvailable | 当前可用的空闲 Slot 数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_downtime | 任务failed或recover的时间大于 0。
| ✅ | ✅ |
flink_jobmanager_job_noResourceAvailableException | 资源耗尽异常次数。 | ✅ | ❌ |
flink_jobmanager_job_fullRestarts | 重启次数 fullRestart。 | ✅ | ✅ |
flink_jobmanager_job_executionStatus | 任务执行状态。 | ✅ | ❌ |
flink_jobmanager_job_restartingTime | 任务重启耗时。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_operator_latency_99 | 操作延迟 99 分位。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_buffers_inPoolUsage | 输入缓冲区使用量,即输入队列的buffer使用率。 | ✅ | ✅ |
flink_taskmanager_job_task_buffers_outPoolUsage | 输出缓冲区使用量,即输出队列的buffer使用率。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_operator_numRecordsIn | 接收的 Record 条数。 | ✅ | ✅ |
flink_taskmanager_job_task_operator_numRecordsOut | 发送的 Record 条数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_operator_numRecordsInPerSecond | 每秒接收的 Record 条数。 | ✅ | ✅ |
flink_taskmanager_job_task_operator_numRecordsOutPerSecond | 每秒发送的 Record 条数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_Status_Network_TotalMemorySegments | TM 已分配的内存段。取值范围大于等于0。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_Status_Network_AvailableMemorySegments | TM未使用的内存段。取值范围大于等于0。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_Status_JVM_Memory_Heap_Max | JM 的最大堆内存。 | ✅ | ✅ |
flink_jobmanager_Status_JVM_Memory_Heap_Used | JM 的堆内存用量。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_Status_JVM_Memory_Heap_Max | TM的最大堆内存。 | ✅ | ✅ |
flink_taskmanager_Status_JVM_Memory_Heap_Used | TM的堆内存用量。 | ✅ | ✅ |
JM 新生代和老年代 JVM GC 次数。支持不同的垃圾回收算法。 GC 次数过多会导致占用过大内存空间,从而影响任务性能。
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_Status_JVM_GarbageCollector_PS_Scavenge_Count | JM PS Scavenger GC 次数 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Count | JM PS MarkSweep GC 次数 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count | JM G1 GC Young 次数 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count | JM G1 GC Old 次数 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count | JM GC ParNew次数 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count | JM GarbageCollector ConcurrentMarkSweep 次数 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_Copy_Count | JM GarbageCollector Copy 次数 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Count | JM GarbageCollector MarkSweepCompact 次数 | ✅ | ✅ |
TM 新生代和老年代 JVM GC 时间。支持不同的垃圾回收算法。长时间 GC 会导致占用过大内存空间,从而影响任务性能。
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Count | TM MarkSweep GC 次数 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_PS_Scavenge_Count | TM PS Scavenge GC 次数 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count | TM G1 Young Generation 次数 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count | TM G1 Old Generation 次数 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count | TM ParNew 次数 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count | TM ConcurrentMarkSweep 次数 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_Copy_Count | TM Copy 次数 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Count | TM MarkSweepCompact 次数 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_Status_JVM_Threads_Count | JM的线程数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_Status_JVM_Threads_Count | TM的线程数(平均值)。 | ✅ | ✅ |
JM 新生代和老年代 JVM GC 时间,支持不同的垃圾回收算法。长时间 GC 会导致占用过大内存空间,从而影响任务性能。
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_Status_JVM_GarbageCollector_PS_Scavenge_Time | JM PS Scavenger GC 时间 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Time | JM PS MarkSweep GC 时间 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time | JM G1 Young Generation GC 时间 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time | JM G1 Old Generation GC 时间 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time | JM ParNew 时间 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_Copy_Time | JM GC COPY 时间 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Time | JM GC MarkSweepCompact 时间 | ✅ | ✅ |
flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time | JM GC ConcurrentMarkSweep 时间 | ✅ | ✅ |
TM 新生代和老年代 JVM GC 时间,支持不同的垃圾回收算法。长时间 GC 会导致占用过大内存空间,从而影响任务性能。
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_Status_JVM_GarbageCollector_PS_Scavenge_Time | TM PS Scavenge GC 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Time | TM MarkSweep GC 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time | TM G1 Young Generation 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time | TM G1 Old Generation 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time | TM G1 Old Generation 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time | TM ParNew 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time | TM GC ConcurrentMarkSweep 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_Copy_Time | TM GC Copy 时间 | ✅ | ✅ |
flink_taskmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Time | TM GC MarkSweepCompact 时间 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_numRegisteredTaskManagers | 已注册的TM数量,即申请的TaskManager的个数。 | ✅ | ✅ |
flink_jobmanager_numPendingSlotRequests | 待处理的 slot 请求数。 | ✅ | ✅ |
flink_jobmanager_numPendingTaskManagerSlots | 待处理的 TM Slot 请求数。 | ✅ | ✅ |
flink_jobmanager_taskSlotsTotal | Task 的 Slot 总个数。 | ✅ | ✅ |
flink_jobmanager_taskSlotsAvailable | Task 当前可用的 Slot 个数,也就是浪费的Slot个数。
如果这个数值较大,请调整Slot总个数,使得tm_slot * tm_num >= max{parallelism}。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_checkpointWriteFileLatency | Checkpoint 写文件延迟。反映 HDFS 客户端接口的请求时延。 | ✅ | ❌ |
flink_taskmanager_job_task_checkpointCloseFileLatency | Checkpoint 关闭文件延迟。反映 HDFS 客户端接口的请求时延。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_numberOfCompletedCheckpoints | 完成的 checkpoint 数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_totalNumberOfCheckpoints | Checkpoint 总数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_numberOfFailedCheckpoints | 失败的 Checkpoint 总数。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_numberOfInProgressCheckpoints | 进行中的 Checkpoint 。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_lastCheckpointFullSize | Last Checkpoint FullSize | ❌ | lastCheckpointFullSize |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_numberOfContinuousCheckpointFailure | checkPoint 失败次数。关注连续失败次数。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_lastCheckpointDuration | 最近一个 Checkpoint 持续时间。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_lastCheckpointTotalSize | 最近一次 Checkpoint 的总大小。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_jobmanager_job_lastCheckpointSize | 最近一次 Checkpoint 的大小。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_processingTimerLatencyMin | processing Timer 的最小延迟。反映各个算子中 timer 触发和当前时间的时延。 | ✅ | ❌ |
flink_taskmanager_job_task_processingTimerLatencyMax | processing Timer 的最大延迟。反映各个算子中 timer 触发和当前时间的时延。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_contentionLockDuration | 锁竞争耗时。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_barrierAlignDuration | Barrier 对齐耗时。反映算子制作 Checkpoint 时 Barrier 对齐的耗时。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_operator_syncDuration | Checkpoint 创建本地快照耗时。反映算子制作 Checkpoint 时创建本地快照的耗时。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_operator_uploadDuration | Checkpoint 上传本地快照耗时。反映算子制作 Checkpoint 时上传本地快照的耗时。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
resource_request_cpu | 任务申请的 CPU。 | ✅ | ✅ |
resource_usage_cpu | 任务使用的 CPU。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
resource_request_memory | 任务申请的 memory。 | ✅ | ✅ |
resource_usage_memory | 任务使用的 memory。 | ✅ | ✅ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_operator_numLateRecordsDropped | 算子丢弃的迟到数据统计。 | ✅ | ❌ |
watermarkLatency | Watermark延迟。 | ✅ | ❌ |
MetricName | 指标含义 | Flink 1.11-volcano | Flink 1.16-volcano |
|---|---|---|---|
flink_taskmanager_job_task_operator_watermarkLatency | 算子水位延迟。 | ✅ | ❌ |