自動化運維

說說故障自愈那些事兒

背景最近晚上23:00甚至是凌晨總收到告警通知:磁盤可用量低于20%,這個時候不得不爬起來處理告警。當然這里要提醒大家:對于小問題,運維也絕不要抱著僥幸的心理,因為只有痛過才知道。磁盤類告警只是我們諸多告警中的冰山一角,雖然我們有值班人員甚至是運維團隊支撐,但是也不能因為這種小問題就分散注意力,這時我們就需要考慮如何通過自動化實現。針對這種情況,我們通常會想到以下幾點:在告警機器上設置定時任務;編

Linksla
大規模網絡運維
2023-05-31 14:05

銀行業IT服務連續性體系規劃與災備自動化切換建設

一、背景介紹相比于其他行業,銀行業對于信息系統可用性與連續性有著很高的要求,基于這樣的客觀需求,同時也是滿足銀保監會《商業銀行數據中心監管指引》的要求,絕大部分大中型銀行都已經建立兩地三中心架構,甚至多地多中心架構。為了驗證同城中心或者異地中心的 IT 服務連續性保障能力,需要持續開展災備切換演練,一般情況下分為同城災備切換演練與異地災備切換演練。在進行經驗分享之前,需要統一對于 IT 服務連續性

Linksla
大規模網絡運維
2023-05-26 15:51

數字化浪潮下,運維繞不開的需求升級

伴隨企業數據中心規?;?、復雜度、設備多樣性的發展,運維也迎來的巨大挑戰,運維的重要性被推向高點,對運維平臺而言無疑是最好的時代,充分利用大數據和人工智能技術融合來解決實際問題,建立數據要素全周期管理和價值挖掘,實現全域覆蓋、數據治理、企業管理、業務生態的全面升級。運維從傳統人工走向智能,實現高效率的運維管理。01數據浪潮下運維現狀&挑戰政企數字化轉型進程的推進,數據化規模愈發龐大,物理 I

Linksla
大規模網絡運維
2023-05-24 17:09

從 DevOps 到平臺工程:軟件開發的新范式

DevOps 是一種將開發和運營結合起來的方法,在應用規劃、開發、交付和運營方面將人員、流程和技術結合起來。DevOps 使以前孤立的角色(如開發、IT運營、質量工程和安全)之間進行協調和合作。一直以來,DevOps 的采用都是以幫助企業更快地向客戶提供價值,更好地適應市場和競爭,并保持系統的穩定性和可靠性為目標。 然而,近兩年關于“DevOps 已死”的討論越來越多。該觀點持有者認為

Seal數澈
DevOps
2023-05-19 09:47

運維請收藏!一篇文章告訴你日志分析、告警管理、服務網關的重要性…

隨著網站規模越來越大,單體應用往往很難再滿足要求,就需要向分布式,微服務架構演變。 那么這個演變過程是怎么樣的呢?都涉及到哪些組件,會遇到哪些問題,以及相應的解決方案都是什么,本篇文章就來回答這些問題。

運維實踐派
應用服務器
2023-05-04 13:28

破防了,這才是機房運維的高效方法

在云計算、5G等新業務野蠻生長的催化下,機房規模與容量也呈倍速擴張。機房安全是業務發展的底座。提升機房設備安全和管理效率,避免人為因素導致的事故發生,是機房運維的必要前提。安全生產重于泰山,除了日常的科學防護,中外運維也曾一致的走近玄學。了解工作性質,似乎也不難理解這個現象。機房運維的那些事1機房值守--瑣碎且重要機房值守是不可或缺的一環,保證網絡實時連通、可用,保障接入交換機、匯聚交換機和核心交

Linksla
應用服務器
2023-04-23 11:03

提高 MongoDB 運維效率的實用技巧

一、MongoDB 集群簡介MongoDB是一個基于分布式文件存儲的數據庫,其目的在于為WEB應用提供可擴展的高性能數據存儲解決方案。下面將以3臺機器介紹最常見的集群方案。具體介紹,可以查看官網 https://docs.mongodb.com/v3.4/introduction/。1、集群組件的介紹mongos(路由處理):作為Client與MongoDB集群的請求入口,所有用戶請求都會透過Mo

Linksla
大規模網絡運維
2023-04-19 09:30

金融系統IT運維監控的探索與實踐

一、背景介紹金融行業作為國內信息化發展最早、最成熟的行業之一,在數字化應用不斷深入的情況下,傳統運維面對微服務、容器、虛擬化等顯得愈加力不從心,金融行業要建立與全新架構能力相匹配的運維體系,提升業務運營感知能力、基礎架構運維掌控能力和敏捷業務支撐能力,保障業務連續性和安全穩定運行。這種新的需求指向可觀測性、數據分析處理和告警收斂準確度提升等方面。二、現狀闡述1、在眾多應用中逐漸失去平衡由傳統集中式

Linksla
大規模網絡運維
2023-04-12 14:14

敏捷研發—前端DevOps流水線實踐

本文介紹了如何將DevOps理念應用于前端開發的實踐指南。從前端開發的背景現狀及問題分析入手,詳細介紹了前端DevOps中的流水線設計、需求管理、代碼構建、測試部署、性能檢測等方面的實踐方法和工具,并結合案例分析和實踐建議,幫助讀者深入理解和掌握前端DevOps的核心概念和實踐技能。

運維實踐派
DevOps
2023-04-06 13:48

運維監控應知應會: InfluxDB 使用指南

InfluxDB是什么InfluxDB 是一個由 InfluxData 開發的開源時序型數據庫。它由 Go 寫成,著力于高性能地查詢與存儲時序型數據。InfluxDB 被廣泛應用于存儲系統的監控數據,IoT 行業的實時數據等場景。技術特點包括:InfluxDB在技術實現上充分利用了Go語言的特性,無需任何外部依賴即可獨立部署[5]。InfluxDB提供了一個類似于SQL的查詢語言并且一系列內置函數

Linksla
DevOps
2023-04-06 10:02

DevOps 在未來將如何演進?丨行業觀察

自2007年 DevOps 這一概念推出以來,越來越多企業開始將開發和運維團隊結合在一起,以加快部署速度,提高軟件開發生命周期的效率和協作。但是,諸多因素都會對 DevOps 是否成功產生影響,例如組織規模、文化和實施計劃等。 隨著系統愈發復雜,企業正在尋找新的方法來減輕開發人員的負擔,同時加速軟件發布以保持市場競爭力。隨著 DevOps 相關技術和工具的成熟,IT 行業開始將注意力集中

Seal數澈
DevOps
2023-03-27 10:00

OB運維 | tenant--刪除租戶的流程設計

ob中的租戶相當于我們平常認知的數據庫集群,對外提供數據庫服務。 當需要刪除ob中的租戶時,會刪除該租戶下的所有對象,包含數據庫、表等。 數據是?常重要的,為了避免意外情況, 此時,你可能需要設置多種策略,以便確認&處理?些異常場景。

運維實踐派
應用服務器
2023-03-24 09:14

詳解智能運維一體化建設實現路徑

在移動化、大數據、云計算、人工智能等新技術的推動下,IT技術架構悄然變遷,從傳統“IOE架構”走向“互聯網架構”?;ヂ摼W架構所涉及的云計算、敏捷開放、微服務等元素成倍劇增,使得運維壓力越來越大。

danny_2018
DevOps
2023-03-20 11:14

侃透了:運維人的自我修養

“ 他強任他強,清風拂山崗”,在技術趨勢不斷變遷的今天,我們唯有保持“自驅力”的清風,才能越過重重的山崗,這就是運維人的自我修養!

運維實踐派
應用服務器
2023-03-20 10:13

通通透透看無服務器計算:由來、場景和問題

本文分享自天翼云開發者社區@《通通透透看無服務器計算:由來、場景和問題》,作者: 我是小朋友鏈接:https://www.ctyun.cn/developer/article/358337908473993?track=|cp:cz_bk|tgdy:wenzhang|ttjh:bokeshequ|key:bw303|pf:PC ?一、 無服務器(Serverless)計算是什么 

天翼云開發者社區
應用服務器
2023-03-16 14:19

蘇寧基于 AI 和圖技術的智能監控體系的建設

蘇寧通過 CMDB、調用鏈等數據構建軟硬件知識圖譜,在此基礎上通過歷史告警數據構建告警知識圖譜,并最終應用知識圖譜進行告警收斂和根因定位。本文主要包括運維知識圖譜構建、知識圖譜存儲、告警收斂及根因定位等內容。

nebulagraph
DevOps
2023-02-20 17:13

如何優雅進行灰度發布測試?中國工商銀行是這樣實踐的

灰度發布(Gray Release),又名金絲雀發布,是從不發布,逐漸平滑過渡到正式發布的一種發布方式。在黑與白之間能夠平滑過渡,得名灰度發布?;叶劝l布使新舊版本短期并存,新版本只向特定用戶發布,產生的問題只影響部分用戶,降低新版本上線風險。

網絡通信頻道
大規模網絡運維
2023-01-31 16:52

應用上K8S第四步:如何選擇合適的持久卷

首先來看一下 Pod Volumes 的使用場景:場景一:如果 pod 中的某一個容器在運行時異常退出,被 kubelet 重新拉起之后,如何保證之前容器產生的重要數據沒有丟失?場景二:如果同一個 pod 中的多個容器想要共享數據,應該如何去做?

網絡通信頻道
大規模網絡運維
2023-01-30 16:54

應用上K8S第一步:Dockerfile參數化構建技巧

SpringBoot應用容器化上K8S,第一步就是通過maven或gradle進行鏡像打包,準備工作如下:maven/gradle docker-plugin實行應用編譯打包;Dockerfile,通過傳遞變量實現鏡像的參數化打包;Docker中傳遞變量主要使用ARG和ENV,雖然功能相同,但是他們的作用范圍是不一樣的。下面我們結合SpringBoot啟動的JVM參數來詳細了解下。通過本文介紹,我們可以知道這兩個命令的具體使用方式。

網絡通信頻道
大規模網絡運維
2023-01-30 15:38

2000億日寫入量!eBay基于ClickHouse事件監控平臺建設

在介紹事件平臺之前先看下監控平臺的總體情況,我們的監控平臺主要有四種信號:指標、日志、追蹤和事件?;谶@四種信號,我們提供了多維分析、告警、異常檢測等能力,并基于這些能力開發了 BCD 解決方案,自動發現有問題的部署,還有 Groot 解決方案來做根因分析,Exemplar 解決方案來解決關聯指標、日志、追蹤,從而快速定位問題。

網絡通信頻道
大規模網絡運維
2023-01-03 12:44