摘 要:國網(wǎng)江蘇省電力有限公司(以下簡稱江蘇公司)開展云平臺建設和應用,推進“千臺入云、系統(tǒng)上云”的專項工作,為泛在電力物聯(lián)網(wǎng)的建設提供可靠的云計算服務。為提高云平臺的運維能力,提出指標采集和存儲、指標分析和可視化以及實時告警技術方案,構建物理機、平臺、存儲、應用的體系化監(jiān)控體系,實現(xiàn)國網(wǎng)云運行監(jiān)控和異常事件的實時告警。
關鍵詞:泛在電力物聯(lián)網(wǎng);云計算;監(jiān)控系統(tǒng)
引言
國家電網(wǎng)公司(以下簡稱國網(wǎng)公司)于2019年3年部署開展泛在電力物聯(lián)網(wǎng)建設。國網(wǎng)江蘇省電力有限公司(以下簡稱江蘇公司)從2018年開展云平臺建設,按照“分級分域”的原則同時開展虛擬化平臺OpenStack和容器化平臺K8s建設,通過開展“千臺入云,系統(tǒng)入云”的國網(wǎng)云建設工作,**了巨大的成效。截止2019年8月份,國網(wǎng)云平臺已納管851臺服務器,入云212套系統(tǒng),穩(wěn)定運行400余天。
江蘇公司的OpenStack 平臺采用Kolla 部署,Kubernetes(以下簡稱K8s)平臺采用Kuberspray方案部署,這兩個方案都將平臺組件部署在容器中,這種方式大幅提升了云平臺的部署效率,同時江蘇公司大力推進應用系統(tǒng)容器化改造工作,應用系統(tǒng)的整體技術架構往容器化、微服務化架構方向轉變。
為提升云平臺的運維能力,本文探索針對容器化平臺組件和容器化應用的云平臺監(jiān)控系統(tǒng)建設。容器具有無固定IP地址、數(shù)量大、運行*等特點,采用Agent 或者Agentless 等方式采集數(shù)據(jù)的Zabbix、Naggio 等傳統(tǒng)監(jiān)控工具不能滿足要求。為此,本文尋求其他技術解決方案。文獻[1]和文獻[2]提出傳統(tǒng)方式部署的OpenStack平臺監(jiān)控工具,但是不適合容器化云平臺。文獻[3]和文獻[4]提出基于云原生開源監(jiān)控軟件Prometheus構建云平臺監(jiān)控系統(tǒng),開源軟件Grafana展示平臺運行狀態(tài),部署方式簡單,符合容器化部署云平臺的技術路線,但是沒有提出實時監(jiān)控的技術方案。文獻[5]提出一種基于流式計算的監(jiān)控技術,縮減指標數(shù)據(jù)采集的時延,適用于大規(guī)模云平臺環(huán)境,但是該技術方案部署復雜。
綜上所述,本文選擇符合容器化云平臺技術特點、部署簡單、開源技術主的技術方案,以Prometheus為采集服務、Grafana為監(jiān)控展現(xiàn)服務、智能巡檢平臺為告警平臺的云平臺監(jiān)控解決方案。
1、云平臺監(jiān)控方案
1.1 技術架構
本文組合監(jiān)控工具Prometheus、可視化工具Grafana以及智能巡檢平臺作為國網(wǎng)云的統(tǒng)一監(jiān)控系統(tǒng),實現(xiàn)了OpenStack和K8s平臺集群的監(jiān)控全覆蓋,滿足了立體化監(jiān)控需求,總體技術架構如圖1所示。
圖1 云平臺監(jiān)控技術架構
(1) 指標采集及存儲:監(jiān)控系統(tǒng)需要有可靠的監(jiān)控后臺以及監(jiān)控代理,滿足云平臺中設備、平臺以及應用等各個層面的指標采集和存儲需求,選擇Prometheus 以及配套使用的相關代理作為解決方案。Prometheus系統(tǒng)采用中心化的數(shù)據(jù)采集、分析和分布式的監(jiān)控代理的設計理念,目前Prometheus官方認證有約600個代理,覆蓋服務器、中間件、數(shù)據(jù)庫、云平臺、應用等對象,滿足國網(wǎng)云統(tǒng)一監(jiān)控的需求。
(2) 指標分析和展現(xiàn):原始的指標展示的信息有限,無法展示平臺的運行情況,本文設計指標分析公式,較掌握物理節(jié)點資源使用情況、云平臺資源分配情況、云應用運行情況,同時利用Grafana等開源可視化工具,實現(xiàn)指標的可視化展現(xiàn)。
(3) 實時告警:除了通過指標分析掌握平臺運行狀態(tài)以及性能情況,本文還設計告警規(guī)則實現(xiàn)了重要異常事件的實時告警,將告警信息推送給調度運行監(jiān)控平臺,實現(xiàn)國網(wǎng)云運行的7×24 h監(jiān)控,保證故障的及時處置。
1.2 立體化監(jiān)控
為采集OpenStack平臺宿主機以及集群運行數(shù)據(jù),研究采用node?exporter代理采集宿主機的資源運行指標、OpenStack?exporter代理采集平臺的運行指標、ceph?exporter代理采集后端分布式存儲的運行指標,實現(xiàn)宿主機以及平臺兩個層面的主要運行指標的采集。幾種OpenStack實例監(jiān)控代理的作用和部署方式如表1所示。
為采集K8s平臺宿主機、集群以及承載的物聯(lián)網(wǎng)應用容器運行數(shù)據(jù),研究采用node?exporter采集宿主機的資源運行指標、cAdvisor采集所有容器運行指標、kube?state?metrics采集所有Pod容器運行狀態(tài)、kube?metrics 采集平臺等信息,實現(xiàn)宿主機、平臺、容器應用3個層面的主要運行指標的采集幾種K8s實例監(jiān)控代理的作用和部署方式如表2所示。
1.3 運行分析
為掌握國網(wǎng)云的運行情況,本文基于監(jiān)控系統(tǒng)采集的原始指標,結合業(yè)務實際需求,開展運行分析,設計指標分析公式,掌握OpenStack云平臺資源分配情況、K8s平臺資源分配情況、應用容器運行情況,通過可視化展示工具Grafana實現(xiàn)運行指標的可視化展示,提升了平臺運行分析的便捷性。以OpenStack平臺運行分析為例,OpenStack平臺主要通過整合硬件服務器資源,對外提供虛機計算資源,因此實時掌握已創(chuàng)建的虛機數(shù)量、分配的虛機CPU及內存資源占比等信息,對指導平臺資源分配以及資源擴容具有重要的幫助意義。CPU及內存資源分配占比分別為公式(1)和公式(2)
UsageCPU = (sum(hypervisor_vcpus_used) )/(sum(hypervisor_vcpus_total) )× ** (1)
UsageMem = (sum(hypervisor_memory_mbs_used) )/(sum(hypervisor_memory_mbs_total) )× ** (2)
1.4 實時告警
在實現(xiàn)監(jiān)控全覆蓋、指標分析和可視化的基礎上,考慮實時告警的運維需求,研究告警規(guī)則的配置。以OpenStack 節(jié)點文件系統(tǒng)使用率異常為例,本文設計告警公式(3),當監(jiān)控系統(tǒng)檢測到文件系統(tǒng)**過95%,將推送告警信息給告警平臺。
v100- (node_ filesystem_ free{mountpoint ="/"})/(node_ filesystem_size{mountpoint ="/"})×100)>95(3)
初步梳理出10個重要告警,這些告警直接影響到平臺或者宿主機的運行。目前配置的監(jiān)控指標都是滿足可用性的指標,如表3所示。
表3 云平臺告警規(guī)則
2、平臺監(jiān)控實踐
2.1 OpenStack平臺的監(jiān)控實踐
江蘇公司部署有多個OpenStack集群,每個集群的設備、平臺以及服務有上百個運行指標采集。為保證指標數(shù)據(jù)采集的實時性以及監(jiān)控系統(tǒng)的可靠性,江蘇按照“一集群、一監(jiān)控”的原則,采用一個Prometheus 實例監(jiān)控一個OpenStack集群的部署架構,保證每個國網(wǎng)云實例都有獨立的監(jiān)控系統(tǒng),降低監(jiān)控系統(tǒng)對存儲空間的需求,同時將告警信息對接至智能巡檢平臺,整體架構如圖2。
圖2 OpenStack集群監(jiān)控架構
考慮宿主機監(jiān)控和OpenStack平臺監(jiān)控不同的業(yè)務需求,定制宿主機和平臺兩個維度的Grafana監(jiān)控頁面。平臺監(jiān)控面板主要展現(xiàn)平臺規(guī)模、平臺服務狀態(tài)、資源使用情況等,如圖3所示。宿主機監(jiān)控面板主要展現(xiàn)主機狀態(tài)、物理資源使用情況。不同于平臺面板統(tǒng)計的是分配資源占比,物理資源面板統(tǒng)計的是宿主機實際資源使用率。
2.2 K8s平臺的監(jiān)控實踐
江蘇公司部署有多個K8s集群,按照“一集群、一監(jiān)控”的原則,采用一個Prometheus實例監(jiān)控一個K8s集群的部署架構,保證每個國網(wǎng)云實例都有獨立的監(jiān)控系統(tǒng),告警信息對接至智能巡檢平臺,整體架構如圖4。
考慮宿主機監(jiān)控、K8s平臺監(jiān)控以及容器應用監(jiān)控不同的業(yè)務需求,江蘇公司將Prometheus數(shù)據(jù)接入可視化平臺Grafana,并且配置個性化監(jiān)控儀表盤,提供了宿主機、平臺、容器應用3個維度的監(jiān)控頁面,容器應用監(jiān)控面板如圖5所示。
通過實施本文的技術方案,江蘇公司OpenStack平臺監(jiān)控系統(tǒng)實現(xiàn)了7套OpenStack、250余臺設備、2500余個虛機規(guī)模的云平臺的實時監(jiān)控,K8s平臺監(jiān)控系統(tǒng)實現(xiàn)了4套OpenStack、90余臺設備、700余個虛機規(guī)模的云平臺的實時監(jiān)控,同時具備重要告警的實時告警能力,填補了江蘇公司云平臺監(jiān)控的空白,為泛在電力物聯(lián)網(wǎng)應用的運行提供堅強的運行支撐**。
3、安科瑞配電系統(tǒng)智能運維產品選型及介紹
近兩年來,安科瑞已經陸續(xù)參與各縣市電力公司的用戶端能源管理平臺、云南省網(wǎng)綜合能源服務平臺、上海嘉定區(qū)147所學校電力運維平臺等相關平臺的建設,提供了包括云平臺、智能網(wǎng)關、終端設備等產品,各類用戶端云平臺在全國各地運行案例700多套,并且根據(jù)用戶需求不斷完善產品功能,這些都是未來泛在電力物聯(lián)網(wǎng)的一部分。
綜合能源服務是以電為中心,把電力系統(tǒng)與天然氣網(wǎng)絡、供熱網(wǎng)絡、工業(yè)系統(tǒng)、交通系統(tǒng)、建筑系統(tǒng)等緊密結合起來,實現(xiàn)電、氣、冷、熱、可再生能源等多能互補和“源-網(wǎng)-荷-儲”各環(huán)節(jié)高度協(xié)調優(yōu)化,生產和消費雙向互動,集中與分布相結合的能源服務。
3.1安科瑞智能網(wǎng)關、終端設備選型
3.2 安科瑞智能運維平臺介紹
平臺結構
變配電站通過安裝多溫濕度傳感器,水浸傳感器,煙霧傳感器,門磁開關等傳感器,通過網(wǎng)關經無線(3G/4G)或有線的方式將數(shù)據(jù)上傳云服務器上,并將數(shù)據(jù)進行集中存儲、統(tǒng)一管理。具有權限的用戶可通過PC、PAD、手機等各類終端設備訪問數(shù)據(jù)、接收報警信息,監(jiān)控變配電站環(huán)境狀態(tài)。
運維平臺功能:
安科瑞變電所運維云平臺(AcrelCloud-1000)根據(jù)市場需求反饋,運用互聯(lián)網(wǎng)和大數(shù)據(jù)技術,為電力運維公司提供配套線上運維服務。該平臺作為連接運維單位和用電企業(yè)的紐帶,監(jiān)視用戶配電系統(tǒng)的運行狀態(tài)和電量數(shù)據(jù),為客戶提供較好的運維服務,平臺提供系統(tǒng)總覽、電力數(shù)據(jù)監(jiān)測、電能質量分析、用電統(tǒng)計分析和日/月/年電能統(tǒng)計報表、異常預警、事故報警和事件記錄、運行環(huán)境監(jiān)測、運維巡檢派單等功能,并支持多平臺、多終端數(shù)據(jù)訪問。
電力監(jiān)測
通過矢量配電圖監(jiān)測變電所用電情況,畫面響應遙信變位、遙測越限報警,點擊某個配電回路后可以查詢該配電回路的各類詳細用電參數(shù),包括實時值、平均值;
實時監(jiān)測變壓器運行情況,包括功率、負荷率、需量、繞組溫度等。
提供多種類型的查詢報表,可以查詢各配電回路的各類電力參數(shù)(電壓、電流、功率、頻率、諧波、三相不平衡度等),系統(tǒng)可以對某電力參數(shù)按照天、月進行統(tǒng)計。
可實現(xiàn)漏電監(jiān)測、線纜及母排溫度監(jiān)測。
故障報警
平臺可配置遙信變位報警(水浸、煙霧、門磁、開關跳閘等)、遙測越限報警(過壓、欠壓、過流、線纜溫度過高、繞組溫度過高等)、運行報警(儀表離線、網(wǎng)關離線等),并將接收到的報警通過短信、網(wǎng)頁推送,報警上下限可根據(jù)現(xiàn)場情況靈活配置。
能效分析
按照配電回路、區(qū)域、部門、分項(照明、空調、動力等)統(tǒng)計每時、每天、每月、每年用電數(shù)據(jù),并進行同環(huán)比分析;
按尖、峰、平、谷統(tǒng)計各配電回路的用電量及用電金額;
統(tǒng)計四象限電能并計算每天、每月的平均功率因數(shù);
按月統(tǒng)計每個回路的需量及發(fā)生值,為需量申報提供依據(jù)。
設備檔案
系統(tǒng)可配置每個變電所內變壓器、進線柜、出線柜、計量柜、高壓電纜等設備信息,記錄設備的廠家、型號、投運日期等,并可靈活定義設備的巡檢項、缺陷類別等信息。
巡檢消缺
通過系統(tǒng)編制巡檢計劃,并將計劃下發(fā)到巡檢人員手機上,巡檢人員在變電所現(xiàn)場根據(jù)巡檢要求執(zhí)行巡檢任務,如果在巡檢過程中發(fā)現(xiàn)缺陷,可記錄缺陷并在系統(tǒng)中生成消缺任務。
?用戶報告
手機APP
通過手機APP實現(xiàn)配電圖查看、視頻監(jiān)視及回放、電力參數(shù)查詢、需量統(tǒng)計、用能分析,并可通過手機接收報警、執(zhí)行巡檢、記錄缺陷.
4、結語
本文實現(xiàn)江蘇公司國網(wǎng)云宿主機、OpenStack平臺服務、K8s平臺服務以及K8s容器應用等主要運維對象的監(jiān)控,覆蓋了設備層、平臺層和應用層,并且實現(xiàn)了重要指標的采集和展示,幫助運維人員分析運行健康狀態(tài),同時通過告警規(guī)則的配置,實現(xiàn)了重要運行指標的7×24 h監(jiān)控,大大提升了云平臺故障處置效率,為泛在電力物聯(lián)網(wǎng)的大規(guī)模建設和應用提供可靠的、持續(xù)的計算、存儲和網(wǎng)絡資源服務。
本文設計的方案主要實現(xiàn)OpenStack和K8s云平臺資源使用和可用狀態(tài)的監(jiān)控,暫不具備監(jiān)控云平臺運行性能和判斷平臺故障點的能力。因此,對云平臺**組件運行性能和運行日志的分析將是下一步研究的主要工作。
參考文獻
【1】董波,沈青,肖德寶. 云計算集群服務器系統(tǒng)監(jiān)控方法的研究[J]計算機工程與科學.
【2】鄒昊東,丁正陽,滕愛國,韋健.省級泛在電力物聯(lián)網(wǎng)云平臺監(jiān)控系統(tǒng)建設實踐.
【3】安科瑞企業(yè)微電網(wǎng)設計及應用手冊.2020.06版
安科瑞電氣股份有限公司專注于多用戶計量表,多回路電能表等