Shell脚本编程:系统性能监控实战示例

nanshan 2025-04-26 19:51 21 浏览 0 评论

Shell脚本编程：系统性能监控实战示例

一、开篇：轻量级监控的艺术

在服务器运维中，系统监控如同脉搏检测，而Shell脚本则是我们的"听诊器"。无需复杂的监控系统，一个精心编写的脚本就能实时掌握系统健康状态。

bash

#!/bin/bash
# 简易系统健康检查
echo "====== $(date) 系统健康报告 ======"
echo "CPU使用率: $(top -bn1 | grep "Cpu(s)" | awk '{print 100 - $8"%"}')"
echo "内存使用: $(free -m | awk '/Mem/{print $3"/"$2"MB"}')"
echo "磁盘空间: $(df -h / | awk 'NR==2{print $5}')"

二、核心监控指标与工具选择

监控指标对比表

监控维度	关键指标	推荐工具	监控频率	危险阈值
CPU	使用率/负载	top/vmstat/mpstat	5-10秒	>85%持续5分钟
内存	使用量/缓存	free/vmstat	30秒	>90%
磁盘	空间/IOPS	df/iostat	5分钟	空间>90%
网络	带宽/连接数	iftop/netstat	1分钟	带宽>80%
进程	异常进程	ps/top	5分钟	未知进程占用高

工具性能对比

工具	资源占用	输出详细度	安装复杂度	最佳场景
top	低	中	内置	实时监控
vmstat	极低	高	内置	性能分析
iostat	低	高	sysstat包	磁盘监控
iftop	中	高	需安装	网络监控
dstat	中	极高	需安装	综合监控

三、实战脚本：智能监控与告警

1. 可配置化监控脚本

bash

#!/bin/bash
# 系统监控大师 v1.3

# 配置区（可通过参数覆盖）
CONFIG_FILE="/etc/monitor.conf"
ALERT_EMAIL="admin@example.com"
THRESHOLDS=("CPU=85" "MEM=90" "DISK=90")
INTERVAL=60
LOG_FILE="/var/log/system_monitor.log"

# 加载配置文件
[ -f "$CONFIG_FILE" ] && source "$CONFIG_FILE"

# 参数处理
while getopts "c:e:t:i:l:h" opt; do
  case $opt in
    c) CONFIG_FILE="$OPTARG";;
    e) ALERT_EMAIL="$OPTARG";;
    t) THRESHOLDS=("$OPTARG");;
    i) INTERVAL="$OPTARG";;
    l) LOG_FILE="$OPTARG";;
    h) usage; exit 0;;
    *) echo "非法参数"; exit 1;;
  esac
done

# 初始化阈值
declare -A threshold_map
for item in "${THRESHOLDS[@]}"; do
  key=${item%=*}
  value=${item#*=}
  threshold_map[$key]=$value
done

# 监控函数
check_cpu() {
  local usage=$(top -bn1 | grep "Cpu(s)" | sed "s/.*, *\([0-9.]*\)%* id.*/\1/" | awk '{print 100 - $1}')
  compare_threshold "CPU" "$usage" "CPU使用率"
}

check_memory() {
  local total=$(free -m | awk '/Mem/{print $2}')
  local used=$(free -m | awk '/Mem/{print $3}')
  local usage=$((used * 100 / total))
  compare_threshold "MEM" "$usage" "内存使用率"
}

check_disk() {
  local usage=$(df -h / | awk 'NR==2{print $5}' | tr -d '%')
  compare_threshold "DISK" "$usage" "根分区使用率"
}

compare_threshold() {
  local metric=$1
  local value=$2
  local name=$3
  local threshold=${threshold_map[$metric]}
  
  if [ "$value" -ge "$threshold" ]; then
    local msg="【警告】${name}已达${value}%，超过阈值${threshold}%"
    echo "$(date) $msg" >> "$LOG_FILE"
    send_alert "$msg"
  fi
}

send_alert() {
  local subject="【$(hostname)】系统监控告警"
  echo "$1" | mail -s "$subject" "$ALERT_EMAIL"
  # 可选：添加企业微信/钉钉通知
  # curl -s "https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=XXX" -d '{"msgtype":"text","text":{"content":"'"$subject $1"'"}}'
}

# 主循环
while true; do
  check_cpu
  check_memory
  check_disk
  sleep "$INTERVAL"
done

2. 参数使用说明

参数	长参数示例	作用	默认值
-c	--config	指定配置文件	/etc/monitor.conf
-e	--email	告警接收邮箱	admin@example.com
-t	--threshold	设置阈值格式	CPU=85 MEM=90 DISK=90
-i	--interval	监控间隔(秒)	60
-l	--log	日志文件路径	/var/log/system_monitor.log
-h	--help	显示帮助信息	无

四、进阶功能：性能数据可视化

1. 生成ASCII趋势图

bash

#!/bin/bash
# CPU使用率趋势图生成

HISTORY_FILE="/tmp/cpu_history.log"
MAX_POINTS=20  # 显示的数据点数
WIDTH=50       # 图表宽度

# 记录CPU历史数据
cpu_usage=$(top -bn1 | grep "Cpu(s)" | awk '{print 100 - $8}')
echo "$(date +%H:%M:%S) $cpu_usage" >> "$HISTORY_FILE"
tail -n "$MAX_POINTS" "$HISTORY_FILE" > "${HISTORY_FILE}.tmp" && mv "${HISTORY_FILE}.tmp" "$HISTORY_FILE"

# 生成趋势图
echo "CPU使用率历史趋势："
awk '{
    printf("%s ", $1);
    for(i=0; i<$2*'"$WIDTH"'/100; i++) printf("▅");
    printf(" %.1f%%\n", $2);
}' "$HISTORY_FILE"

2. 监控数据存储方案对比

存储方式	实现难度	查询能力	持久化	适用场景
文本日志	简单	差	是	小型系统
SQLite	中等	好	是	单机应用
MySQL	复杂	优秀	是	分布式系统
内存缓存	简单	中	否	实时展示

五、异常进程检测实战

1. 智能进程监控脚本

bash

#!/bin/bash
# 异常进程检测器 v1.1

WHITELIST=("/usr/sbin/sshd" "/usr/bin/bash" "/usr/lib/systemd/systemd")
ALERT_THRESHOLD=30  # CPU%阈值
SCAN_INTERVAL=300   # 扫描间隔(秒)

check_processes() {
  local suspicious=()
  
  while read -r line; do
    pid=$(echo "$line" | awk '{print $1}')
    cpu=$(echo "$line" | awk '{print $2}')
    cmd=$(echo "$line" | awk '{print $3}')
    
    # 检查白名单
    local in_whitelist=false
    for allowed in "${WHITELIST[@]}"; do
      [[ "$cmd" == "$allowed" ]] && in_whitelist=true
    done
    
    # 异常判定
    if ! $in_whitelist && (( $(echo "$cpu > $ALERT_THRESHOLD" | bc -l) )); then
      suspicious+=("PID:$pid CPU:${cpu}% CMD:$cmd")
    fi
  done < <(ps -eo pid,pcpu,comm --sort=-pcpu | awk '$2>0')
  
  # 发送告警
  if [ ${#suspicious[@]} -gt 0 ]; then
    local msg="发现可疑进程：\n${suspicious[*]// /\\n}"
    echo -e "$(date)\n$msg" >> /var/log/process_monitor.log
    send_alert "$msg"
  fi
}

send_alert() {
  echo -e "$1" | mail -s "【$(hostname)】异常进程告警" "$ALERT_EMAIL"
}

# 主循环
while true; do
  check_processes
  sleep "$SCAN_INTERVAL"
done

2. 进程监控策略对比

检测方法	实现复杂度	准确性	资源消耗	适用场景
固定阈值	简单	低	低	基础监控
动态基线	复杂	高	中	生产环境
行为分析	极复杂	极高	高	安全防护
白名单	中等	中	低	关键服务器

六、日志轮转与维护

1. 自动化日志管理

bash

#!/bin/bash
# 日志维护工具

LOG_DIR="/var/log/monitoring"
MAX_SIZE="100M"  # 单个日志最大大小
RETENTION_DAYS=30
COMPRESS_AFTER=7 # 压缩7天前的日志

# 按大小轮转
find "$LOG_DIR" -type f -size "+$MAX_SIZE" -exec truncate -s 0 {} \;

# 按时间清理
find "$LOG_DIR" -type f -name "*.log" -mtime "+$RETENTION_DAYS" -delete

# 压缩旧日志
find "$LOG_DIR" -type f -name "*.log" -mtime "+$COMPRESS_AFTER" -exec gzip {} \;

2. 日志方案对比

方案	存储效率	查询效率	实现难度	适用场景
纯文本	低	高	简单	开发环境
按日分割	中	高	简单	测试环境
压缩归档	高	低	中等	生产环境
日志服务	极高	极高	复杂	云环境

七、部署与执行方案

1. 启动方式对比

方式	命令示例	优点	缺点	适用场景
直接运行	./monitor.sh	简单	终端关闭即停止	临时测试
nohup	nohup ./monitor.sh &	持久化	无自动重启	临时任务
systemd服务	systemctl start monitor	全功能	配置复杂	生产环境
crontab	* * * * * /path/monitor.sh	定时触发	间隔不精确	低频检查

2. systemd服务配置示例

ini

# /etc/systemd/system/monitor.service
[Unit]
Description=System Monitor Service
After=network.target

[Service]
User=root
ExecStart=/usr/local/bin/monitor.sh -e admin@example.com -t "CPU=90 MEM=95"
Restart=always
RestartSec=30

[Install]
WantedBy=multi-user.target

启用服务：

bash

systemctl daemon-reload
systemctl enable --now monitor.service

通过本文的实战示例，您快速构建一个灵活高效的系统监控方案。

记住：好的监控系统不在于功能多复杂，而在于能否在关键时刻发出正确的警报。根据实际需求选择合适的监控粒度和告警策略，避免"狼来了"效应。

checkdisk命令

上一篇：电脑如何检测硬盘是否故障?
下一篇：如何安全扩展磁盘分区?一个自动化脚本帮你搞定!

Shell脚本编程:系统性能监控实战示例

Shell脚本编程：系统性能监控实战示例

一、开篇：轻量级监控的艺术

二、核心监控指标与工具选择

监控指标对比表

工具性能对比

三、实战脚本：智能监控与告警

1. 可配置化监控脚本

2. 参数使用说明

四、进阶功能：性能数据可视化

1. 生成ASCII趋势图

2. 监控数据存储方案对比

五、异常进程检测实战

1. 智能进程监控脚本

2. 进程监控策略对比

六、日志轮转与维护

1. 自动化日志管理

2. 日志方案对比

七、部署与执行方案

1. 启动方式对比

2. systemd服务配置示例

相关推荐

取消回复欢迎你发表评论:

UOS服务器操作系统防火墙设置（uos20关闭防火墙）

极空间如何无损移机，新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验

手机如何设置与显示准确时间的详细指南

NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程

如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号

如何修复用户配置文件服务在 WINDOWS 上登录失败的问题

一加手机与电脑互传文件的便捷方法FileDash

日本海上自卫队的军衔制度（日本海上自卫队的军衔制度是什么）

10个免费文件中转服务站，分享文件简单方便，你知道几个?

爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复

Shell脚本编程:系统性能监控实战示例

Shell脚本编程：系统性能监控实战示例

一、开篇：轻量级监控的艺术

二、核心监控指标与工具选择

监控指标对比表

工具性能对比

三、实战脚本：智能监控与告警

1. 可配置化监控脚本

2. 参数使用说明

四、进阶功能：性能数据可视化

1. 生成ASCII趋势图

2. 监控数据存储方案对比

五、异常进程检测实战

1. 智能进程监控脚本

2. 进程监控策略对比

六、日志轮转与维护

1. 自动化日志管理

2. 日志方案对比

七、部署与执行方案

1. 启动方式对比

2. systemd服务配置示例

相关推荐

取消回复欢迎 你 发表评论:

UOS服务器操作系统防火墙设置（uos20关闭防火墙）

极空间如何无损移机，新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验

手机如何设置与显示准确时间的详细指南

NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程

如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号

如何修复用户配置文件服务在 WINDOWS 上登录失败的问题

一加手机与电脑互传文件的便捷方法FileDash

日本海上自卫队的军衔制度（日本海上自卫队的军衔制度是什么）

10个免费文件中转服务站，分享文件简单方便，你知道几个?

爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复

取消回复欢迎你发表评论: