4 篇博文含有标签「监控」

SSE 实现实时数据推送

2025年1月10日 · 阅读需 9 分钟

永远年轻，永远热爱

在现代Web应用中，实时通信成为了用户体验的重要组成部分。无论是社交媒体的即时通知，还是股票价格的实时更新，SSE（Server-Sent Events）作为一种轻量级的实时通信协议，能够帮助开发者实现高效的单向数据流推送。本篇博客将介绍如何使用Go语言实现一个基于SSE的实时消息推送系统。

什么是SSE？

Server-Sent Events (SSE) 是一种由服务器向浏览器单向推送实时更新的技术。与WebSocket不同，SSE建立在HTTP协议之上，适用于浏览器与服务器之间的单向数据传输。在许多场景中，SSE比WebSocket更加轻量，并且更易于实现，尤其是当你只需要从服务器向客户端推送数据时。

SSE的工作原理是：服务器通过HTTP连接将数据推送给客户端，客户端使用EventSource接口来接收数据流。每当服务器有新的数据时，客户端就会收到相应的更新。

为什么选择SSE？

简便易用：SSE的实现非常简单，客户端只需要一个EventSource对象，服务器只需按规范返回数据流。
HTTP协议支持：SSE基于HTTP协议，因此不需要建立复杂的连接，它与现有的Web架构兼容。
自动重连：如果连接丢失，SSE会自动尝试重新连接，保证消息的持续性。

需求背景

在本篇博客中，我们将使用Go语言构建一个基于SSE的消息推送系统，前端将使用HTML和JavaScript与Go后端进行实时通信。

项目概述

在本项目中，我们将实现以下功能：

客户端：前端页面可以输入Token进行身份验证，连接到SSE服务器并接收实时消息。
服务器端：后端使用Go语言处理SSE连接，通过EventSource将数据推送到客户端。我们将使用JWT进行身份验证。
消息推送：后端将消息推送到与客户端建立的SSE连接。

技术栈

Go 语言：后端使用Go实现，处理HTTP请求和SSE通信。
HTML/JavaScript：前端实现，负责显示消息并与后端进行交互。

后端实现

在后端实现中，我们将分为几个主要部分：

Client和ClientManager：管理客户端连接。
SSE连接处理：处理客户端的SSE连接请求。
消息发送：通过SendMessage方法将消息推送到客户端。

1. Client与ClientManager的实现

首先，我们需要定义Client和ClientManager结构体，分别用于表示每一个客户端和管理所有连接的客户端。

type Client struct {
	ID   uint32
	Send chan []byte
}

type ClientManager struct {
	clients *safety.Map[uint32, *Client]
}

Client：每个客户端都有一个唯一的ID和一个用于发送消息的通道Send。
ClientManager：管理所有连接的客户端，提供方法来添加、删除和获取客户端。

// NewClientManager 创建新的ClientManager
func NewClientManager() *ClientManager {
	return &ClientManager{
		clients: safety.NewMap[uint32, *Client](),
	}
}

2. 处理SSE连接：NewSSEHandler

NewSSEHandler函数处理客户端的SSE连接。当客户端请求连接时，我们会验证JWT Token并将客户端添加到ClientManager中。

func NewSSEHandler(clientManager *ClientManager) http.HandlerFunc {
	return func(w http.ResponseWriter, r *http.Request) {
		token := r.URL.Query().Get("token")
		if token == "" {
			http.Error(w, "token is required", http.StatusBadRequest)
			return
		}

		// 设置HTTP头部，指定这是一个SSE连接
		w.Header().Set("Content-Type", "text/event-stream")
		w.Header().Set("Cache-Control", "no-cache")
		w.Header().Set("Connection", "keep-alive")

		claims, ok := middleware.ParseJwtClaimsFromToken(strings.TrimPrefix(token, "Bearer "))
		if !ok {
			http.Error(w, "token is invalid", http.StatusUnauthorized)
			return
		}

		client := NewClient(claims.GetUser())
		clientManager.AddClient(client)
		defer func() {
			clientManager.RemoveClient(client.ID)
		}()

		go client.WriteSSE(w)
		<-r.Context().Done()
		log.Infof("client %d disconnected", client.ID)
	}
}

在这段代码中，我们：

验证Token并解析JWT。
如果Token有效，创建一个Client对象并将其加入ClientManager。
为每个客户端开启一个goroutine来执行WriteSSE，持续推送数据流。

3. 消息推送：WriteSSE和SendMessage

WriteSSE方法负责向客户端推送消息流，使用HTTP流式响应将数据发送给客户端。

func (c *Client) WriteSSE(w http.ResponseWriter) {
	defer after.RecoverX()
	flusher, ok := w.(http.Flusher)
	if !ok {
		log.Errorw("err", "Streaming unsupported!")
		http.Error(w, "Streaming unsupported!", http.StatusInternalServerError)
		return
	}
	log.Debugw("msg", "listen sse client")
	for data := range c.Send {
		log.Debugw("WriteSSE", string(data))
		_, _ = fmt.Fprintf(w, "data: %s\n\n", string(data))
		flusher.Flush()
	}
	log.Debugw("WriteSSE", "data: [DONE]")
}

func (c *Client) SendMessage(message string) (err error) {
	defer func() {
		if r := recover(); r != nil {
			err = fmt.Errorf("send message error: %v", r)
		}
	}()
	c.Send <- []byte(message)
	return
}

WriteSSE：接收客户端请求后，持续推送消息流，直到连接断开。
SendMessage：向客户端发送消息，通过Send通道将消息发送给客户端。

前端实现

前端部分非常简洁，使用EventSource对象建立与后端的SSE连接。

1. 连接到SSE服务器

function connectToSSE() {
    const token = document.getElementById('token').value;
    if (!token) {
        alert("Please enter a Token.");
        return;
    }

    // 创建一个EventSource对象，连接到服务器的SSE端点
    const url = new URL(`http://localhost:9999/events`);
    url.searchParams.set("token", token);

    eventSource = new EventSource(url.toString());
    eventSource.onmessage = function(event) {
        const messagesDiv = document.getElementById('messages');
        const newMessage = document.createElement('div');
        newMessage.textContent = `New message: ${event.data}`;
        messagesDiv.appendChild(newMessage);
        messagesDiv.scrollTop = messagesDiv.scrollHeight; // 自动滚动到最新消息
    };

    eventSource.onerror = function() {
        alert("Error connecting to server.");
        eventSource.close();
    };

    eventSource.onopen = function() {
        console.log("SSE connection established.");
    };
}

在此代码中，前端通过输入Token与后端建立连接，并使用EventSource接收实时消息。当消息到达时，自动将其显示在页面上。

2. 发送消息

function sendMessage() {
    const message = document.getElementById('message').value;
    if (!message) {
        alert("Please enter a message.");
        return;
    }
    fetch(`/msg?msg=${message}`, {
        method: 'GET',
        headers: {
            'Authorization': 'Bearer ' + document.getElementById('token').value,
        }
    });
}

用户输入消息后，通过GET请求将消息发送到后端，后端根据Token验证身份并将消息推送到对应的客户端。

总结与优化建议

1. 优点

简单易用：SSE相较于WebSocket实现更加简单，不需要处理双向通信。
高效：对于只需要单向推送数据的场景，SSE非常高效，并且可以轻松处理数千个并发连接。
自动重连：SSE内建自动重连机制，保证了连接的稳定性。

2. 优化建议

连接管理：使用Redis或其他分布式缓存来管理多个实例之间的客户端连接，支持横向扩展。
Token验证：目前通过URL传递Token，可以进一步加强安全性，通过HTTP头部传递Token。

通过SSE，开发者可以轻松实现实时推送功能，而Go语言则提供了高效的并发处理能力，非常适合用于构建这种类型的服务。

PromQL 常用查询语句示例

2024年11月18日 · 阅读需 9 分钟

梧桐

永远年轻，永远热爱

本文收集整理了在 Prometheus 监控中最常用的 PromQL 查询语句，方便日常查询和告警规则编写时参考。

系统监控

CPU 相关查询

# CPU 使用率
100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

# CPU 各个状态占比
rate(node_cpu_seconds_total[5m]) * 100

# 按核心统计 CPU 使用率
avg by (cpu) (rate(node_cpu_seconds_total{mode!="idle"}[5m]) * 100)

# CPU 负载
node_load1  # 1分钟负载
node_load5  # 5分钟负载
node_load15 # 15分钟负载

内存相关查询

# 内存使用率
(1 - node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) * 100

# 可用内存
node_memory_MemAvailable_bytes / 1024 / 1024 / 1024

# 内存使用量前五的进程
topk(5, sum by (name) (container_memory_usage_bytes{container!=""}))

# Swap 使用率
(1 - node_memory_SwapFree_bytes/node_memory_SwapTotal_bytes) * 100

磁盘相关查询

# 磁盘使用率
100 - ((node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes)

# 磁盘读写速率
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])

# 磁盘 IO 使用率
rate(node_disk_io_time_seconds_total[5m]) * 100

# 预测磁盘满的时间（小时）
predict_linear(node_filesystem_free_bytes[1h], 4 * 3600) < 0

网络相关查询

# 网络接口流量
rate(node_network_receive_bytes_total[5m])
rate(node_network_transmit_bytes_total[5m])

# 网络接口错误率
rate(node_network_receive_errs_total[5m])
rate(node_network_transmit_errs_total[5m])

# TCP 连接状态
node_netstat_Tcp_CurrEstab

容器监控

容器资源使用

# 容器 CPU 使用率
sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (container) * 100

# 容器内存使用量（GB）
sum(container_memory_usage_bytes{container!=""}) by (container) / 1024^3

# 容器网络 IO
sum(rate(container_network_receive_bytes_total[5m])) by (container)
sum(rate(container_network_transmit_bytes_total[5m])) by (container)

应用监控

HTTP 服务监控

# 请求速率（QPS）
sum(rate(http_requests_total[5m])) by (handler)

# 错误率
sum(rate(http_requests_total{status=~"5.."}[5m])) 
  / 
sum(rate(http_requests_total[5m])) * 100

# 平均响应时间
rate(http_request_duration_seconds_sum[5m]) 
  / 
rate(http_request_duration_seconds_count[5m])

# P90/P95/P99 延迟
histogram_quantile(0.90, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))
histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))
histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))

JVM 监控

# 堆内存使用率
jvm_memory_bytes_used{area="heap"} 
  / 
jvm_memory_bytes_max{area="heap"} * 100

# GC 次数
rate(jvm_gc_collection_seconds_count[5m])

# GC 耗时
rate(jvm_gc_collection_seconds_sum[5m])

# 线程数
jvm_threads_current

告警规则示例

系统告警

# CPU 使用率过高
100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80

# 内存使用率过高
(1 - node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) * 100 > 90

# 磁盘使用率过高
100 - ((node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes) > 85

# 磁盘将在 4 小时内满
predict_linear(node_filesystem_free_bytes[1h], 4 * 3600) < 0

应用告警

# 服务实例不可用
up{job="my-service"} == 0

# 错误率过高
sum(rate(http_requests_total{status=~"5.."}[5m])) 
  / 
sum(rate(http_requests_total[5m])) * 100 > 5

# 响应延迟过高
histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le)) > 1

性能优化查询

# 查找高基数的指标
topk(10, count by (__name__) ({__name__=~".+"}))

# 查找最活跃的 targets
topk(10, count by (job) (up))

# 查找采集速率最高的指标
topk(10, rate(prometheus_tsdb_head_samples_appended_total[5m]))

高级监控场景

Kubernetes 集群监控

# 节点 Ready 状态
kube_node_status_condition{condition="Ready",status="true"}

# Pod 运行状态统计
sum by (namespace) (kube_pod_status_phase{phase="Running"})

# 容器重启次数
sum by (namespace, pod) (kube_pod_container_status_restarts_total)

# 节点资源压力
sum by (node) (
  kube_pod_container_resource_requests{resource="cpu"} 
) / sum by (node) (
  kube_node_status_allocatable{resource="cpu"}
) * 100

# 命名空间资源配额使用率
sum by (namespace) (
  kube_resourcequota{type="used"}
) / sum by (namespace) (
  kube_resourcequota{type="hard"}
) * 100

数据库监控

MySQL 监控

# 连接数使用率
mysql_global_status_threads_connected 
  / 
mysql_global_variables_max_connections * 100

# 慢查询统计
rate(mysql_global_status_slow_queries[5m])

# InnoDB 缓冲池使用率
mysql_global_status_innodb_buffer_pool_pages_total 
  - 
mysql_global_status_innodb_buffer_pool_pages_free

# 事务统计
rate(mysql_global_status_commands_total{command="commit"}[5m])

Redis 监控

# 内存使用率
redis_memory_used_bytes / redis_memory_max_bytes * 100

# 命令执行率
rate(redis_commands_total[5m])

# 键过期率
rate(redis_expired_keys_total[5m])

# 连接数
redis_connected_clients

消息队列监控

RabbitMQ 监控

# 队列消息堆积
rabbitmq_queue_messages_ready

# 消费者数量
rabbitmq_queue_consumers

# 消息处理率
rate(rabbitmq_queue_messages_delivered_total[5m])

# 未确认消息数
rabbitmq_queue_messages_unacknowledged

Kafka 监控

# 主题消息率
rate(kafka_topic_partition_current_offset[5m])

# 消费组延迟
sum by (topic) (
  kafka_consumergroup_lag
)

# Broker 活跃连接数
kafka_server_socket_server_metrics_connection_count

# 副本同步延迟
kafka_replica_lag

网关和代理监控

Nginx 监控

# 请求处理率
rate(nginx_http_requests_total[5m])

# 活跃连接数
nginx_connections_active

# 错误率
sum(rate(nginx_http_requests_total{status=~"5.."}[5m])) 
  / 
sum(rate(nginx_http_requests_total[5m])) * 100

# 上游响应时间
histogram_quantile(0.95, 
  rate(nginx_upstream_response_time_seconds_bucket[5m])
)

应用性能监控

服务依赖监控

# 服务调用错误率
sum by (service) (
  rate(service_calls_total{result="error"}[5m])
) / sum by (service) (
  rate(service_calls_total[5m])
) * 100

# 服务依赖可用性
sum by (dependency) (
  rate(dependency_up[5m])
)

# 外部服务调用延迟
histogram_quantile(0.95,
  rate(external_service_response_time_bucket[5m])
)

缓存性能监控

# 缓存命中率
sum(rate(cache_hits_total[5m])) 
  / 
sum(rate(cache_requests_total[5m])) * 100

# 缓存过期率
rate(cache_evictions_total[5m])

# 缓存延迟分布
histogram_quantile(0.99,
  rate(cache_operation_duration_seconds_bucket[5m])
)

日志相关监控

# 错误日志率
rate(log_messages_total{level="error"}[5m])

# 按照服务统计错误数
sum by (service) (
  increase(log_errors_total[1h])
)

# 日志写入延迟
histogram_quantile(0.95,
  rate(log_write_duration_seconds_bucket[5m])
)

安全监控

# 认证失败次数
rate(auth_failures_total[5m])

# IP 封禁次数
increase(ip_blacklist_total[1h])

# HTTPS 证书过期时间（天）
(
  ssl_certificate_expiry_timestamp_seconds 
  - 
  time()
) / 86400

# 异常登录尝试
sum by (user) (
  rate(failed_login_attempts_total[5m])
)

高级告警规则

趋势预测告警

# 预测 4 小时后的值是否超过阈值
predict_linear(
  http_requests_total[1h], 
  4 * 3600
) > 1000

# 异常值检测
abs(
  rate(http_requests_total[5m])
  - 
  avg_over_time(rate(http_requests_total[5m])[1h:5m])
) > 2

复合告警条件

# CPU 和内存同时高负载
(
  instance:cpu_usage:rate5m > 80
  and
  instance:memory_usage:ratio > 80
)

# 服务多项指标异常
(
  service:error_rate:5m > 1
  and
  service:latency:p95_5m > 0.5
  and
  service:success_rate:5m < 99
)

最佳实践补充

查询优化进阶

使用子查询优化复杂计算

# 优化前
sum(rate(http_requests_total[5m])) / sum(rate(http_requests_total[5m]))

# 优化后
sum(rate(http_requests_total[5m])) 
  / 
group(sum(rate(http_requests_total[5m])))

使用 recording rules 优化常用查询

# 记录规则示例
rules:
  - record: job:http_errors:rate5m
    expr: sum by (job) (rate(http_requests_total{status=~"5.."}[5m]))

微服务监控

服务网格监控

# 服务间调用延迟
histogram_quantile(0.95,
  sum(rate(istio_request_duration_milliseconds_bucket[5m])) by (source_app, destination_app, le)
)

# 服务错误率
sum(rate(istio_requests_total{response_code=~"5.*"}[5m])) by (destination_service) 
  / 
sum(rate(istio_requests_total[5m])) by (destination_service) * 100

# 服务重试率
sum(rate(istio_requests_total{response_flags="RR"}[5m])) by (destination_service)
  /
sum(rate(istio_requests_total[5m])) by (destination_service) * 100

# 断路器开启次数
increase(istio_circuit_breaker_open_total[5m])

链路追踪相关

# 追踪采样率
sum(rate(spans_sampled_total[5m])) 
  / 
sum(rate(spans_total[5m])) * 100

# 追踪延迟分布
histogram_quantile(0.95, sum(rate(trace_duration_seconds_bucket[5m])) by (service, le))

# 追踪错误率
sum(rate(spans_errors_total[5m])) by (service)
  /
sum(rate(spans_total[5m])) by (service) * 100

云原生组件监控

Etcd 监控

# Leader 选举状态
etcd_server_is_leader

# 写入延迟
histogram_quantile(0.99, rate(etcd_disk_wal_fsync_duration_seconds_bucket[5m]))

# 数据库大小
etcd_debugging_mvcc_db_total_size_in_bytes

# Raft 提案失败率
rate(etcd_server_proposals_failed_total[5m])
  /
rate(etcd_server_proposals_committed_total[5m]) * 100

CoreDNS 监控

# DNS 查询率
sum(rate(coredns_dns_requests_total[5m])) by (zone)

# 查询延迟
histogram_quantile(0.95, sum(rate(coredns_dns_request_duration_seconds_bucket[5m])) by (zone, le))

# 错误率
sum(rate(coredns_dns_responses_total{rcode!="NOERROR"}[5m])) 
  / 
sum(rate(coredns_dns_responses_total[5m])) * 100

存储系统监控

Elasticsearch 监控

# 集群状态
elasticsearch_cluster_health_status{color="green"}

# 索引写入延迟
rate(elasticsearch_index_stats_indexing_index_time_seconds_total[5m])
  /
rate(elasticsearch_index_stats_indexing_index_total[5m])

# JVM 堆使用率
elasticsearch_jvm_memory_used_bytes{area="heap"}
  /
elasticsearch_jvm_memory_max_bytes{area="heap"} * 100

# 搜索延迟
rate(elasticsearch_indices_search_fetch_time_seconds[5m])
  /
rate(elasticsearch_indices_search_fetch_total[5m])

MongoDB 监控

# 连接数
mongodb_connections{state="current"}

# 操作延迟
rate(mongodb_op_latencies_latency_total[5m])
  /
rate(mongodb_op_latencies_ops_total[5m])

# 复制延迟
mongodb_replset_member_optime_date{state="SECONDARY"}
  -
mongodb_replset_member_optime_date{state="PRIMARY"}

# 慢查询数
rate(mongodb_mongod_metrics_query_executor_total{state="scanned_objects"}[5m])

网络监控进阶

网络质量监控

# 网络延迟
avg_over_time(ping_average_response_ms[5m])

# 丢包率
rate(ping_loss_count[5m])
  /
rate(ping_count[5m]) * 100

# 网络抖动
stddev_over_time(ping_average_response_ms[5m])

协议监控

# TCP 重传率
rate(node_netstat_Tcp_RetransSegs[5m])
  /
rate(node_netstat_Tcp_OutSegs[5m]) * 100

# TCP 连接状态分布
node_netstat_Tcp_CurrEstab

# UDP 缓冲区溢出
rate(node_netstat_Udp_RcvbufErrors[5m])

自定义业务监控

业务指标监控

# 订单处理速率
rate(business_orders_processed_total[5m])

# 支付成功率
sum(rate(payment_transactions_total{status="success"}[5m]))
  /
sum(rate(payment_transactions_total[5m])) * 100

# 用户会话数
sum(rate(user_sessions_total{status="active"}[5m]))

# 业务错误分布
topk(10, sum by (error_type) (rate(business_errors_total[1h])))

用户体验监控

# 页面加载时间
histogram_quantile(0.95, sum(rate(page_load_time_seconds_bucket[5m])) by (page, le))

# JS 错误率
sum(rate(frontend_errors_total[5m])) by (error_type)

# API 响应时间
histogram_quantile(0.99, sum(rate(api_response_time_seconds_bucket[5m])) by (api, le))

高级告警场景

智能告警

# 动态阈值告警
abs(
  rate(http_requests_total[5m])
  - 
  avg_over_time(rate(http_requests_total[5m])[1d:5m])
) > stddev_over_time(rate(http_requests_total[5m])[1d:5m]) * 3

# 季节性感知告警
(
  rate(http_requests_total[5m])
  / 
  avg_over_time(rate(http_requests_total[5m] offset 7d)[1h:5m])
) > 2

多维度告警

# 服务质量综合告警
(
  service:error_rate:5m > 1
  and
  service:latency:p95_5m > 0.5
  and
  service:success_rate:5m < 99
  and
  service:traffic:rate5m > 10
)

# 资源饱和度告警
(
  instance:cpu_usage:rate5m > 80
  or
  instance:memory_usage:ratio > 80
  or
  instance:disk_usage:ratio > 85
)
  and
  instance:load1 > count(instance:cpu_cores) by (instance)

Prometheus 指标类型详解

2024年11月17日 · 阅读需 5 分钟

梧桐

永远年轻，永远热爱

在 Prometheus 生态系统中，指标（Metrics）是最基础的数据类型。理解不同类型的指标及其适用场景，对于构建有效的监控系统至关重要。本文将详细介绍 Prometheus 的四种核心指标类型。

Counter（计数器）

定义

Counter 是一个只增不减的累计指标。它的值只能增加或在重启时重置为零。

特点

单调递增
只能增加或重置为零
常用于计数场景

使用场景

# 常见的 Counter 指标
http_requests_total         # HTTP 请求总数
node_network_receive_bytes  # 网络接收字节数
errors_total               # 错误总数

最佳实践

# 计算速率（每秒请求数）
rate(http_requests_total[5m])

# 计算一段时间内的增量
increase(http_requests_total[1h])

Gauge（仪表盘）

定义

Gauge 是可以任意上下波动的指标，可增可减。

特点

可增可减
反映瞬时状态
适合记录当前状态

使用场景

# 常见的 Gauge 指标
node_memory_MemAvailable_bytes  # 可用内存
node_cpu_usage_percent         # CPU 使用率
temperature_celsius            # 温度

最佳实践

# 直接使用当前值
node_memory_MemAvailable_bytes

# 计算变化率
delta(temperature_celsius[1h])

Histogram（直方图）

定义

Histogram 对观察值进行采样，并将其计入可配置的桶（bucket）中，同时提供所有观察值的总和。

特点

包含多个桶计数
自动计算总和和样本数
支持分位数计算

组成部分

# 一个 Histogram 指标会自动生成以下数据：
<basename>_bucket{le="<upper inclusive bound>"}  # 桶计数
<basename>_sum                                   # 所有观察值的总和
<basename>_count                                 # 观察值的总数

使用场景

# HTTP 请求延迟分布
http_request_duration_seconds_bucket{le="0.1"}  # 100ms 内的请求数
http_request_duration_seconds_sum               # 总延迟时间
http_request_duration_seconds_count             # 总请求数

# 计算 P90 延迟
histogram_quantile(0.9, 
  rate(http_request_duration_seconds_bucket[5m])
)

Summary（摘要）

定义

Summary 类似于 Histogram，但它直接在客户端计算分位数。

特点

客户端计算分位数
提供总和和计数
配置固定的分位数

组成部分

# 一个 Summary 指标会自动生成：
<basename>{quantile="<φ>"}  # φ-分位数值
<basename>_sum              # 所有观察值的总和
<basename>_count            # 观察值的总数

使用场景

# 应用响应时间
http_request_duration_seconds{quantile="0.95"}  # P95 延迟
http_request_duration_seconds_sum               # 总延迟
http_request_duration_seconds_count             # 总请求数

指标类型选择建议

Counter 适用于：
- 请求计数
- 错误计数
- 任务完成数
Gauge 适用于：
- 内存使用量
- 温度
- 当前并发连接数
Histogram 适用于：
- 请求延迟
- 响应大小
- 需要计算分位数的场景
Summary 适用于：
- 需要精确分位数的场景
- 客户端计算分位数的场景

最佳实践

1. 命名规范

# 好的命名示例
http_requests_total
http_request_duration_seconds
node_memory_usage_bytes

2. 标签使用

# 合理使用标签
http_requests_total{method="GET", status="200", path="/api/v1/users"}

3. 单位规范

使用基本单位（秒、字节等）
在指标名称中包含单位信息

总结

选择合适的指标类型对于构建有效的监控系统至关重要：

Counter 适合累计型数据
Gauge 适合状态型数据
Histogram 适合需要分析分布的数据
Summary 适合需要客户端计算分位数的场景

理解这些指标类型的特点和使用场景，可以帮助我们更好地设计监控系统。

参考资料

PromQL 实用指南

2024年11月16日 · 阅读需 5 分钟

梧桐

永远年轻，永远热爱

在云原生时代，Prometheus 已经成为了监控领域的事实标准。而掌握其查询语言 PromQL 的使用，对于日常运维和问题排查至关重要。本文将介绍 PromQL 的常见用法和实战技巧。

基础查询语法

1. 简单查询

最基本的查询就是直接使用指标名称：

# 查询所有 HTTP 请求总数
http_requests_total

# 带标签的精确匹配查询
http_requests_total{status="200", method="GET"}

2. 标签匹配操作符

PromQL 提供了四种标签匹配操作符：

=：完全相等
!=：不等于
=~：正则匹配
!~：正则不匹配

示例：

# 匹配所有 2xx 状态码的请求
http_requests_total{status=~"2.."}

# 匹配除了 POST 以外的所有请求方法
http_requests_total{method!="POST"}

3. 时间范围查询

在 Prometheus 中，我们经常需要查询一段时间内的数据：

# 查询最近 5 分钟的数据
http_requests_total{status="200"}[5m]

# 查询 1 小时前的 5 分钟数据
http_requests_total{status="200"}[5m] offset 1h

常用函数和运算符

1. rate() 和 irate()

这两个函数用于计算计数器（counter）类型指标的变化率：

# 计算请求速率（每秒）
rate(http_requests_total[5m])

# 计算瞬时速率
irate(http_requests_total[5m])

2. 聚合运算符

# 计算所有实例的请求总和
sum(http_requests_total)

# 按照应用名称分组计算平均值
avg by(app) (http_requests_total)

# 查找最大值前 3 名
topk(3, http_requests_total)

实用监控场景

1. 服务可用性监控

# 服务可用性百分比
(1 - (
  sum(increase(http_requests_total{status=~"5.."}[5m])) /
  sum(increase(http_requests_total[5m]))
)) * 100

# 服务响应时间 P99
histogram_quantile(0.99, 
  sum(rate(http_request_duration_seconds_bucket[5m])) by (le)
)

2. 资源使用监控

# CPU 使用率
100 - (
  avg by(instance) (
    rate(node_cpu_seconds_total{mode="idle"}[5m])
  ) * 100
)

# 内存使用率
(
  node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes
) / node_memory_MemTotal_bytes * 100

# 磁盘使用率
(
  node_filesystem_size_bytes - node_filesystem_free_bytes
) / node_filesystem_size_bytes * 100

3. 容器监控

# 容器 CPU 使用率
sum(
  rate(container_cpu_usage_seconds_total{container!=""}[5m])
) by (container) * 100

# 容器内存使用量（GB）
sum(
  container_memory_usage_bytes{container!=""}
) by (container) / 1024^3

性能优化技巧

查询优化
- 使用精确的标签匹配而不是正则表达式
- 避免使用过长的时间范围
- 合理使用聚合操作

数据采集优化

# 使用记录规则预计算常用查询
record: job:http_requests:rate5m
expr: rate(http_requests_total[5m])

常见问题排查

1. 数据缺失检查

# 检查时间序列是否存在
absent(up{job="my-service"})

# 检查采集目标状态
up{job="my-service"} == 0

2. 数据异常分析

# 检查速率异常
rate(http_requests_total[5m]) > 100

# 检查延迟异常
histogram_quantile(0.95, http_request_duration_seconds_bucket) > 1

最佳实践

命名规范
- 使用有意义的指标名称
- 保持标签命名的一致性
- 避免过多的标签维度
查询设计
- 优先使用 rate() 而不是 irate()
- 合理使用记录规则
- 避免复杂的嵌套查询
告警设计
- 设置合理的告警阈值
- 使用告警聚合减少噪音
- 提供清晰的告警描述

总结

PromQL 是一个强大的查询语言，掌握它需要：

深入理解基本概念
熟练运用常用函数
注意查询性能优化
遵循最佳实践

通过本文的介绍和示例，希望能帮助你更好地使用 PromQL 进行系统监控和问题诊断。

什么是SSE？​

为什么选择SSE？​

需求背景​

项目概述​

技术栈​

后端实现​

1. Client与ClientManager的实现​

2. 处理SSE连接：NewSSEHandler​

3. 消息推送：WriteSSE和SendMessage​

前端实现​

1. 连接到SSE服务器​

2. 发送消息​

总结与优化建议​

1. 优点​

2. 优化建议​

系统监控​

CPU 相关查询​

内存相关查询​

磁盘相关查询​

网络相关查询​

容器监控​

容器资源使用​

应用监控​

HTTP 服务监控​

JVM 监控​

告警规则示例​

系统告警​

应用告警​

性能优化查询​

高级监控场景​

Kubernetes 集群监控​

数据库监控​

MySQL 监控​

Redis 监控​

消息队列监控​

RabbitMQ 监控​

Kafka 监控​

网关和代理监控​

Nginx 监控​

应用性能监控​

服务依赖监控​

缓存性能监控​

日志相关监控​

安全监控​

高级告警规则​

趋势预测告警​

复合告警条件​

最佳实践补充​

查询优化进阶​

微服务监控​

服务网格监控​

链路追踪相关​

云原生组件监控​

Etcd 监控​

CoreDNS 监控​

存储系统监控​

Elasticsearch 监控​

MongoDB 监控​

网络监控进阶​

网络质量监控​

协议监控​

自定义业务监控​

业务指标监控​

用户体验监控​

高级告警场景​

智能告警​

多维度告警​

Counter（计数器）​

定义​

特点​

使用场景​

最佳实践​

Gauge（仪表盘）​

定义​

特点​

使用场景​

最佳实践​

Histogram（直方图）​

定义​

特点​

什么是SSE？

为什么选择SSE？

需求背景

项目概述

技术栈

后端实现

1. Client与ClientManager的实现

2. 处理SSE连接：NewSSEHandler

3. 消息推送：WriteSSE和SendMessage

前端实现

1. 连接到SSE服务器

2. 发送消息

总结与优化建议

1. 优点

2. 优化建议

系统监控

CPU 相关查询

内存相关查询

磁盘相关查询

网络相关查询

容器监控

容器资源使用

应用监控

HTTP 服务监控

JVM 监控

告警规则示例

系统告警

应用告警

性能优化查询

高级监控场景

Kubernetes 集群监控

数据库监控

MySQL 监控

Redis 监控

消息队列监控

RabbitMQ 监控

Kafka 监控

网关和代理监控

Nginx 监控

应用性能监控

服务依赖监控

缓存性能监控

日志相关监控

安全监控

高级告警规则

趋势预测告警

复合告警条件

最佳实践补充

查询优化进阶

微服务监控

服务网格监控

链路追踪相关

云原生组件监控

Etcd 监控

CoreDNS 监控

存储系统监控

Elasticsearch 监控

MongoDB 监控

网络监控进阶

网络质量监控

协议监控

自定义业务监控

业务指标监控

用户体验监控

高级告警场景

智能告警

多维度告警

Counter（计数器）

定义

特点

使用场景

最佳实践

Gauge（仪表盘）

定义

特点

使用场景

最佳实践

Histogram（直方图）

定义

特点