You need to enable JavaScript to run this app.
文档中心
流式计算 Flink版

流式计算 Flink版

复制全文
下载 pdf
监控管理
查看任务监控指标
复制全文
下载 pdf
查看任务监控指标

流式计算 Flink 版已经对接云监控服务,提供 Flink 任务的监控和告警能力。在 Flink 任务详情中的数据曲线页签下,展示当前任务的监控指标数据曲线,您可以从 Overview、Network&IO、JVM、Schedule Info、Checkpoint View、Checkpoint Timer、Checkpoint Operator Performance、Resource、Watermark 不同维度查看任务指标情况,通过分析监控指标,能快速发现任务运行是否异常。
目前支持 Flink 1.11-volcanoFlink 1.16-volcano 版本,不同引擎版本支持的监控指标有少许不同。您查看 Flink 任务监控指标时,请注意引擎版本的区分。

Overview

作业运行时间

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_uptime

任务运行时间,即任务最后一个 job-pod的持续时间。

重启次数

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_fullRestarts

任务从开始到目前总的重启次数,包含 fullRestart 和细粒度的重启。

总共的 slot

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_taskSlotsTotal

任务总共的 Slot 数。

可用空闲的slot

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_taskSlotsAvailable

当前可用的空闲 Slot 数。

job 信息

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_downtime

任务failed或recover的时间大于 0。

  • 0 表示 running
  • -1 表示complet
  • 大于 0 表示不在运行状态

flink_jobmanager_job_noResourceAvailableException

资源耗尽异常次数。

flink_jobmanager_job_fullRestarts

重启次数 fullRestart。

flink_jobmanager_job_executionStatus

任务执行状态。

flink_jobmanager_job_restartingTime

任务重启耗时。

操作延迟 99 分位

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_operator_latency_99

操作延迟 99 分位。
操作延迟从低到高排序,取第 99 个延迟大小。取值范围大于等于0。

输入输出缓冲区使用量

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_buffers_inPoolUsage

输入缓冲区使用量,即输入队列的buffer使用率。
inPoolUsage,这个值较大说明本task或下游处理不过来。
如果我们看到有task 的poll_Usage 高,有可能是该task处理不过来,也有可能是其下游task处理不过来,然后触发反压机制。所以,优先查看下游的问题,这个更有可能是根本问题。
inputPoolUsage > 0 的最下游的task。加上tag: host=*,看是否某一台机器的高,如果是,重点检查这台机器和这上面的taskmanager。比如,检查这台机器的负载(机器负载查询)。

flink_taskmanager_job_task_buffers_outPoolUsage

输出缓冲区使用量,即输出队列的buffer使用率。
outPoolUsage,这个值大说明本task的下游处理不过来

接收/发送 Record 条数

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_operator_numRecordsIn

接收的 Record 条数。

flink_taskmanager_job_task_operator_numRecordsOut

发送的 Record 条数。

每秒接收/发送 Record 条数

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_operator_numRecordsInPerSecond

每秒接收的 Record 条数。

flink_taskmanager_job_task_operator_numRecordsOutPerSecond

每秒发送的 Record 条数。

Network & I/O

分配的内存段

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_Status_Network_TotalMemorySegments

TM 已分配的内存段。取值范围大于等于0。
默认每个segment 32KB,代表一个任务的segment个数。

未使用的内存段

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_Status_Network_AvailableMemorySegments

TM未使用的内存段。取值范围大于等于0。

JVM

JM 堆内存(max&Used)

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_Status_JVM_Memory_Heap_Max

JM 的最大堆内存。

flink_jobmanager_Status_JVM_Memory_Heap_Used

JM 的堆内存用量。

TM 堆内存(max&Used)

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_Status_JVM_Memory_Heap_Max

TM的最大堆内存。

flink_taskmanager_Status_JVM_Memory_Heap_Used

TM的堆内存用量。

JMGC-count

JM 新生代和老年代 JVM GC 次数。支持不同的垃圾回收算法。 GC 次数过多会导致占用过大内存空间,从而影响任务性能。

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_Status_JVM_GarbageCollector_PS_Scavenge_Count

JM PS Scavenger GC 次数

flink_jobmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Count

JM PS MarkSweep GC 次数

flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count

JM G1 GC Young 次数

flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count

JM G1 GC Old 次数

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count

JM GC ParNew次数

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

JM GarbageCollector ConcurrentMarkSweep 次数

flink_jobmanager_Status_JVM_GarbageCollector_Copy_Count

JM GarbageCollector Copy 次数

flink_jobmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Count

JM GarbageCollector MarkSweepCompact 次数

TMGC-count

TM 新生代和老年代 JVM GC 时间。支持不同的垃圾回收算法。长时间 GC 会导致占用过大内存空间,从而影响任务性能。

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Count

TM MarkSweep GC 次数

flink_taskmanager_Status_JVM_GarbageCollector_PS_Scavenge_Count

TM PS Scavenge GC 次数

flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count

TM G1 Young Generation 次数

flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count

TM G1 Old Generation 次数

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count

TM ParNew 次数

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

TM ConcurrentMarkSweep 次数

flink_taskmanager_Status_JVM_GarbageCollector_Copy_Count

TM Copy 次数

flink_taskmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Count

TM MarkSweepCompact 次数

JM平均线程

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_Status_JVM_Threads_Count

JM的线程数。
JM线程数过多会导致占用过大的内存空间,从而降低任务稳定性。

TM平均线程

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_Status_JVM_Threads_Count

TM的线程数(平均值)。
TM线程数过多会导致占用过多内存,从而降低任务稳定性。

JMGC-time

JM 新生代和老年代 JVM GC 时间,支持不同的垃圾回收算法。长时间 GC 会导致占用过大内存空间,从而影响任务性能。

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_Status_JVM_GarbageCollector_PS_Scavenge_Time

JM PS Scavenger GC 时间

flink_jobmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Time

JM PS MarkSweep GC 时间

flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time

JM G1 Young Generation GC 时间

flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time

JM G1 Old Generation GC 时间

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time

JM ParNew 时间

flink_jobmanager_Status_JVM_GarbageCollector_Copy_Time

JM GC COPY 时间

flink_jobmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Time

JM GC MarkSweepCompact 时间

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

JM GC ConcurrentMarkSweep 时间

TMGC-time

TM 新生代和老年代 JVM GC 时间,支持不同的垃圾回收算法。长时间 GC 会导致占用过大内存空间,从而影响任务性能。

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_Status_JVM_GarbageCollector_PS_Scavenge_Time

TM PS Scavenge GC 时间

flink_taskmanager_Status_JVM_GarbageCollector_PS_MarkSweep_Time

TM MarkSweep GC 时间

flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time

TM G1 Young Generation 时间

flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time

TM G1 Old Generation 时间

flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time

TM G1 Old Generation 时间

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time

TM ParNew 时间

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

TM GC ConcurrentMarkSweep 时间

flink_taskmanager_Status_JVM_GarbageCollector_Copy_Time

TM GC Copy 时间

flink_taskmanager_Status_JVM_GarbageCollector_MarkSweepCompact_Time

TM GC MarkSweepCompact 时间

Schedule Info

SlotManager信息

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_numRegisteredTaskManagers

已注册的TM数量,即申请的TaskManager的个数。

flink_jobmanager_numPendingSlotRequests

待处理的 slot 请求数。

flink_jobmanager_numPendingTaskManagerSlots

待处理的 TM Slot 请求数。

flink_jobmanager_taskSlotsTotal

Task 的 Slot 总个数。

flink_jobmanager_taskSlotsAvailable

Task 当前可用的 Slot 个数,也就是浪费的Slot个数。

  • taskSlotsAvailable=总slots -max{parallelism}
  • 总slots = tm_slot * tm_num

如果这个数值较大,请调整Slot总个数,使得tm_slot * tm_num >= max{parallelism}。
可以选择加大并发度,或者减小tm_num 或 tm_slot。

Checkpoint View

checkpoint文件延迟

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_checkpointWriteFileLatency

Checkpoint 写文件延迟。反映 HDFS 客户端接口的请求时延。

flink_taskmanager_job_task_checkpointCloseFileLatency

Checkpoint 关闭文件延迟。反映 HDFS 客户端接口的请求时延。

完成的 checkpoint 数

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_numberOfCompletedCheckpoints

完成的 checkpoint 数。

Checkpoint 总数

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_totalNumberOfCheckpoints

Checkpoint 总数。

失败的 checkpoint 数

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_numberOfFailedCheckpoints

失败的 Checkpoint 总数。

进行中的 checkpoint

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_numberOfInProgressCheckpoints

进行中的 Checkpoint 。

Last Checkpoint FullSize

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_lastCheckpointFullSize

Last Checkpoint FullSize

lastCheckpointFullSize

Checkpoint Failures(关注连续失败次数)

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_numberOfContinuousCheckpointFailure

checkPoint 失败次数。关注连续失败次数。

Checkpoint Duration(关注Checkpoint耗时,正常在10分钟内)

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_lastCheckpointDuration

最近一个 Checkpoint 持续时间。
关注 Checkpoint 耗时,正常在 10 分钟内。
如果 Checkpoint 耗时过长或者超时,可能由于状态过大、临时网络原因、Barrier 未对齐或者数据存在反压等原因造成。

Checkpoint State Total Size(关注状态大小和变化趋势)

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_lastCheckpointTotalSize

最近一次 Checkpoint 的总大小。
关注状态大小和变化趋势,可以在 Checkpoint 有瓶颈时协助分析 Checkpoint 性能。

Checkpoint State Size(关注状态大小和变化趋势)

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_jobmanager_job_lastCheckpointSize

最近一次 Checkpoint 的大小。
关注状态大小和变化趋势,可以在 Checkpoint 有瓶颈时协助分析 Checkpoint 性能。

Checkpoint Timer

processing time延迟

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_processingTimerLatencyMin

processing Timer 的最小延迟。反映各个算子中 timer 触发和当前时间的时延。
关注反压,正常在秒级以下。

flink_taskmanager_job_task_processingTimerLatencyMax

processing Timer 的最大延迟。反映各个算子中 timer 触发和当前时间的时延。
关注反压,正常在秒级以下。

Checkpoint Operator Performance

锁竞争耗时

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_contentionLockDuration

锁竞争耗时。
反映 Task 制作 Checkpoint 时抢占 Lock 的耗时。根据抢锁耗时,判断是否是 CPU 不足导致 Checkpoint 制作耗时长。
关注 CPU 和反压,正常在秒级以下。

分界线对齐耗时

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_barrierAlignDuration

Barrier 对齐耗时。反映算子制作 Checkpoint 时 Barrier 对齐的耗时。
关注反压,正常在秒级。

算子同步耗时

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_operator_syncDuration

Checkpoint 创建本地快照耗时。反映算子制作 Checkpoint 时创建本地快照的耗时。
关注自定义的 snapshot,正常分钟级以下。

算子上传耗时

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_operator_uploadDuration

Checkpoint 上传本地快照耗时。反映算子制作 Checkpoint 时上传本地快照的耗时。
关注 HDFS 慢节点,正常为分钟级。

Resource

job申请和使用的cpu

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

resource_request_cpu

任务申请的 CPU。

resource_usage_cpu

任务使用的 CPU。

job申请和使用的内存

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

resource_request_memory

任务申请的 memory。

resource_usage_memory

任务使用的 memory。

Watermark

丢弃的迟到数据统计

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_operator_numLateRecordsDropped

算子丢弃的迟到数据统计。

watermarkLatency

Watermark延迟。
用来判断Subtask级别的任务延迟情况。

watermark延迟

MetricName

指标含义

Flink 1.11-volcano

Flink 1.16-volcano

flink_taskmanager_job_task_operator_watermarkLatency

算子水位延迟。
用来判断 Subtask 级别的任务延迟情况。

最近更新时间:2024.12.05 13:36:57
这个页面对您有帮助吗?
有用
有用
无用
无用