百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

某铁路信息中心运营监测项目_某铁路营运部门为缓解

nanshan 2025-02-21 14:34 15 浏览 0 评论

某铁路信息中心承担大量实时监测、例行巡检和排障维护等工作,为巩固信息化建设成果,提高整体运维效果,保障铁路信息系统稳定运行,需对现有网络监测系统进行升级改造。

设备类型:服务器、交换机、数据库、中间件、虚拟机、磁盘阵列、应用软件、操作系统、云平台等。

设备品牌:华为、H3C、深信服、MySQL、Oracle、Tomcat、JBoss、RabbitMQ、Nginx、中铁信安、联想、IBM、CentOS、Red Hat、Windows Server等。

功能需求

  • 实现数据中心与异地机房内不同品牌、型号的网络设备、服务器、存储设备等统一纳管;
  • 提供详细的设备监控指标库,支持对不同设备的CPU、内存、磁盘、网口、温度等指标进行实时监控;
  • 提供实时的设备掉线、链路断开告警;
  • 自动定位故障位置和故障影响范围,提升排障效率;
  • 具备告警分析管理能力,能够解决误报错报问题,提高告警准确度,可以通过多种途径触达告警信息;
  • 提升例行巡检效率,自动化生成巡检月报、半年报、年报等报告;
  • 解决现有工具下无法对业务系统、数据库、中间件的监控运维难题;
  • 可以对日志数据进行梳理、解析,实现日志数据结构化存储展示并将异常转化为告警,解决日志信息复杂、难管理的问题;
  • 解决人工进行设备配置管理工作量大且操作复杂的问题,能够快捷地对设备配置进行管理;
  • 实现运维知识的积累,构建运维知识库。


智和信通方案

智和信通在深入理解某铁路信息中心的运维需求后,提出了一系列针对性的解决方案,旨在提升其监控运维平台的运行效率、稳定性和智能化水平,并通过此解决方案的实施助力信息中心运维工作更加高效、稳定地进行。


异地设备统一纳管

在网络可达范围内,仅需输入IP范围即可自动发现信息中心和异地机房中的各类设备,对设备进行统一纳管。

识别其厂商、型号,生成资源逻辑拓扑或真实面板图,匹配故障与性能监视器,并自动发现设备间连接关系,生成可视化链路,通过可视拓扑动态展示设备、链路的运行状态。


丰富且可扩展的监控指标库

针对某铁路信息中心的设备品牌和型号,在匹配我们标准模型库的基础上,通过SNMP、IPMI、SSH、Telnet等协议对设备及监控指标进行扩展。

  • 对服务器的监控指标:服务器品牌、型号、序列号、开机时长、CPU使用率、内存使用率、硬盘容量、磁盘使用率、磁盘容量预测、磁盘I/O、电源状态、温度信息、风扇状态、网络接口流量带宽等;
  • 对交换机的监控指标:交换机品牌、型号、CPU使用率、内存使用率、电源状态、风扇状态、端口流量、网口状态、网口输入输出流量、网口输入输出带宽等;
  • 对数据库的监控:表空间、锁数量、死锁、并发数、连接数、缓存命中率、读写次数、读写速度、读命中率、已用空间、最大空间等。
  • 对中间件的监控:线程数、内存占用量、会话数、繁忙线程数量、请求服务数、请求服务错误数、连接数等。
  • 对虚拟机的监控:虚拟机类型、CPU使用率、内存使用率、磁盘使用率、磁盘容量、网口状态、网口输入输出流量、网口输入输出带宽等。
  • 对磁盘阵列的监控:CPU使用率、内存使用率、磁盘空间使用率、磁盘I/O、网口状态、接口流量等。
  • 对操作系统的监控:Ping、CPU使用率、内存大小、内存使用率磁盘空间、磁盘使用率、网口状态、发送/接收流量、发送/接收带宽、发送/接收丢包率、发送/接收错误包率、广播包故障率、进程状态、端口状态等。
  • 对云平台的监控:磁盘可用资源、内存使用率、CPU使用率、吞吐量等。


全面的告警管理,支持多种通知方式

支持多种告警机制,自定义配置告警阈值,具备主动的故障监控告警功能,第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位告警设备,提升告警处理效率,极大降低因网络故障带来的损失。

采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,对各类告警进行自动压缩收敛,有效避免误报和漏报。告警发生后,检索异常问题关联涉及的各项维度与影响范围,一步定位到发生故障的源头设备,快速定位故障根因。提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道,告警通知无延迟。


多维度性能管理,感知网络状态

实时监测并感知网络性能状态,全面覆盖用户IT环境。采集纳入监控的服务器、交换机、数据库、中间件、虚拟机、磁盘阵列、应用软件、操作系统、云平台等设备的性能指标。支持对实时、历史性能数据进行统计分析,通过曲线图、柱状图或表格等形象化地展示,按天、星期、月查看性能指标变化。

设备事件、日志集中管理

全面设备主动发送的Trap、Syslog、Filter Alarm等事件与日志消息,进行集中存储和解析并提取有效信息,将日志存储为可统计分析的结构化数据。根据对日志数据的挖掘与分析,通过配置告警规则和场景,将异常日志自动转化为告警,定位其影响范围。


端到端业务拨测,构建业务依赖关系图片

针对用户货运系统、调度系统、车流服务等业务应用性能与用户体验进行检测分析,以拓扑形式展示每个业务流程中的每台相关设备。按照硬件层-虚拟化层-应用服务层-接口层-数据层-界面层-用户层等建立业务依赖关系图谱,并以可视化的方式直观表达各层级对下层的依赖关系,以及同级之间的依赖关系。

对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、服务器、中间件、数据库、操作系统等进行实时监控分析,呈现业务各节点的实时运行状态,包括用户体验、节点可用性、节点负载等状态信息,快速定位业务瓶颈根因,并可根据用户自愈策略,触发自动运维实现故障自愈。


全量自动巡检,解放人力

支持自定义巡检策略,对设备的运行情况进行统计和报表生成,并可预设时间巡检策略执行时间,进行自动化巡检,如自动每周、每月、每年的固定时间对设备当前状态进行巡检,可向指定邮箱发送巡检结果报告,实现对网络设备的定期检查,把握网络运行中的易出现问题的环节,做到预防为先。

设备远程控制,配置文件备份对比

将周期性、重复性、规律性的大量日常服务器配置工作,如批量分发配置文件、一键开关机、进程管理、应用管理、端口限速、ACL配置等,转化为依托于平台的自动执行工作流,实现对服务器的批量、定时等自动化控制。

也支持配置文件批量备份、下载、周期性备份、查看等,对设备的多个备份文件进行对比。定期自动对设备策略进行巡检备份,并可进行对比分析。


构建运维知识库,促进知识共享协作

将各类运维操作、故障判断等经验,转化为存在于平台内的知识,形成团队知识库。涵盖知识的存储、检索、更新、维护、审核,将运维工作中所需的运维文档、操作指南、排障实践、处置流程和配置信息等进行分类管理,所有成员均可进行知识分享,从而加速问题解决过程,促进团队间的知识共享和协作,提升整体运维效率。

应用价值

过去某铁路信息中心网络监测工作主要依赖于传统的巡检和人工排查方式,在引入智和信通运维监测平台对网络监测系统升级改造后,不仅实现了对某铁路信息中心网络的运行状态进行实时监控,更实现了全自动巡检和设备远程配置管理,不但有效预测并防止潜在故障的发生,也标志着其运维方式从传统的巡检和人工排查方式向智能化、自动化运维管理的转变。

通过智和信通运维监测平台实时了解网络设备的运行状况、网络流量的变化情况及网络拓扑结构的变化等信息,无需再到现场进行巡检,不仅提高了工作效率,也降低了工作成本。同时,对信息中心网络的运行数据进行深入挖掘和分析,提供更加准确、全面的故障预测和预警,及时发现网络中的潜在故障点,通过多种报警方式,如短信、邮件钉钉、微信等,确保用户能够及时接收到故障信息并采取相应的处理措施。避免故障扩大化,减少由于设备故障或网络问题导致的铁路事故。除了实时监控和故障预警外,智和信通运维监测平台还提供了丰富的管理功能。通过平台对网络设备进行远程管理和配置,实现设备的自动化管理和维护。

在智和信通运维监测平台的部署和应用后,不仅依托于强大的数据分析和处理能力,使得用户可以更加精准地定位故障源头,并采取有效的措施进行修复,大大提高了运维工作效率,也减少因故障带来的损失。同时,通过自动化和智能化的运维管理,降低了对人力资源的依赖。运维人员无需再频繁地进行手动巡检和排查,而是可以通过平台自动生成的报告和数据分析结果,快速了解网络的运行状况,极大地提高了运维工作的质量和稳定性。

相关推荐

CentOS 7 搭建 Harbor2.4.1 Docker镜像仓库

上一篇文章我们使用了registry镜像来搭建Docker私有镜像仓库,但是使用体验不是很好,没有一个可管理的UI界面,管理很麻烦。本篇文章将介绍一个新的搭建Docker镜像仓库的工具叫做Har...

简单认识认识mqtt及mosquitto(mqtt报文解析)

某项目中使用了MQTT作为进程间的通信方式,之前没用过,这两篇笔记我们就来一起学习一下这种方式。MQTT的一些介绍以下介绍内容来自《[野火]《LwIP应用开发实战指南》MQTT协议全称是Messa...

全源码打造高性能 LNMP 架构: 实战教程(2025最新版)

适用场景:企业生产环境、自建Web服务、深度性能调优操作系统:CentOS7/8、RockyLinux、Debian、Ubuntu(本文以CentOSStream9为例)技术栈:N...

Nacos3.0重磅来袭!全面拥抱AI,单机及集群模式安装详细教程!

之前和大家分享过JDK17的多版本管理及详细安装过程,然后在项目升级完jdk17后又发现之前的注册和配置中心nacos又用不了,原因是之前的nacos1.3版本的,版本太老了,已经无法适配当前新的JD...

Ubuntu24.04.2 企业级MinIO存储系统部署指南

一、概要1.1MinIO架构解析MinIO是一款高性能的云原生对象存储系统,采用Golang开发并遵循ApacheLicensev2.0协议。其核心架构基于纠删码(ErasureCode)技...

从零打造自己的 国产鸿蒙(OpenHarmony)定制系统-完整可落地流程

适用版本:OpenHarmony4.0/5.0Standard目标人群:想在x86PC、RK3568开发板或自有硬件上裁剪、加品牌、预装应用并生成可刷机镜像的开发者/团队目录环境准...

一次暂未成功的dify安装经历(dify怎么安装)

前几天在阿里云买了一台机,这几天一直在尝试安装dify,到现在还没安装上我是按这个教程装的https://blog.csdn.net/2401_82469710/article/details/14...

ZLMediaKit教程(五)支持webrtc(webrtc lib)

ZLMediaKit系列文章(共六篇):ZLMediaKit流媒体(一)编译安装ZLMediaKit教程(二)主程序和配置文件解析ZLMediaKit教程(三)URL规则ZLMediaKit教程...

Linux程序安装与管理指南(linux程序安装命令大全)

在Linux系统中,安装和管理程序主要通过包管理器和手动编译安装两种主要方式实现。以下是详细的操作指南,涵盖常见发行版(如Ubuntu/Debian、CentOS/RHEL、Fedora等)的用法。一...

离线状态下安装 Nginx 各个模块?这篇攻略让你轻松搞定

你是不是也在为离线状态下安装Nginx各个模块而发愁?在互联网大厂后端开发工作中,我们常常会遇到一些特殊的网络环境,比如公司内部的离线服务器,或是处于隔离状态的测试环境。当需要在这些离线环境中安装...

Rust实践:Win10环境下的openssl交叉编译

Rust支持跨平台,可以指定生成目标平台,交叉编译也是支持的。当然,想要交叉编译成功,还需要指定平台的编译器(如:msvc、gcc等)。openssl是C语言开发的库,如果在Rust代码中用到open...

Linux下Blackwell架构显卡(RTX5070/5090)编译PaddlePaddle指南

Blackwell显卡架构如RTX5070\5090等显卡当前Paddle预编译版本中包含的GPU架构(即SM架构)是有限的,比如常见的SM75(T4)、SM86(A10)、SM89(...

突破操作系统界限,掌握Linux的必备指南

#头条创作挑战赛#简介Linux是一种开源的操作系统,它的核心思想是自由和开放。Linux以其稳定性、可靠性和安全性而闻名,被广泛用于服务器和嵌入式设备中。Linux创始人Linux安装在安装Linu...

Linux日常高频使用的100条命令,强烈建议收藏

查看系统信息如何查看系统版本:uname-alsb_release-acat/etc/os-release如何查看系统内核信息:uname-r如何查看系统CPU信息:lscpucat...

Linux文件系统结构全解析(linux文件结构详解)

对Linux新手而言,“一切皆文件”的设计哲学常让人既兴奋又困惑——打开终端输入ls/,看到的bin、etc、var等目录到底有什么用?如何快速定位关键文件?本文将从Linux文件系统的底层逻...

取消回复欢迎 发表评论: