TiDB分布式數(shù)據(jù)庫運(yùn)維實(shí)踐
TiDB 是 PingCAP 開發(fā)的開源分布式關(guān)系型數(shù)據(jù)庫,兼容 MySQL 5.7 協(xié)議,底層存儲(chǔ)....
MySQL數(shù)據(jù)庫備份恢復(fù)方式對(duì)比
備份是數(shù)據(jù)庫運(yùn)維中最重要也最容易被忽視的環(huán)節(jié)。"重要"體現(xiàn)在數(shù)據(jù)丟失時(shí)備份是唯一的救命稻草,"忽視"....
Nginx高性能配置詳細(xì)步驟
Nginx 1.26.x 是當(dāng)前 mainline 分支的最新穩(wěn)定線,在 HTTP/3 支持、動(dòng)態(tài)模....
大模型推理服務(wù)的彈性部署與GPU調(diào)度方案
7B 模型 FP16 推理需要約 14GB 顯存,70B 模型需要 140GB+,KV Cache ....
Kubernetes Pod調(diào)度策略原理與落地指南
Pod調(diào)度是Kubernetes的核心機(jī)制之一,決定了Pod最終運(yùn)行在哪個(gè)節(jié)點(diǎn)上。默認(rèn)調(diào)度器kube....
Redis哨兵模式的自動(dòng)故障檢測與主從切換實(shí)戰(zhàn)
Redis 主從復(fù)制解決了讀擴(kuò)展和數(shù)據(jù)冗余問題,但主節(jié)點(diǎn)故障時(shí)需要人工介入切換,這在生產(chǎn)環(huán)境中是不可....
Redis內(nèi)存管理、持久化策略與慢查詢排查分析
Redis 在生產(chǎn)環(huán)境中承擔(dān)著緩存、會(huì)話存儲(chǔ)、消息隊(duì)列、分布式鎖等多種角色。隨著數(shù)據(jù)量增長和并發(fā)壓力....
使用Prometheus和Grafana的企業(yè)級(jí)監(jiān)控落地實(shí)戰(zhàn)
生產(chǎn)環(huán)境跑著幾百臺(tái)機(jī)器,出了故障全靠人肉巡檢和用戶反饋,這種被動(dòng)運(yùn)維的日子我們團(tuán)隊(duì)經(jīng)歷了兩年。201....
Docker容器網(wǎng)絡(luò)模式全解析
容器網(wǎng)絡(luò)是Docker使用中最容易出問題的部分。容器之間怎么通信、容器怎么訪問外網(wǎng)、外部怎么訪問容器....
Helm包管理與模板化部署實(shí)戰(zhàn)
直接用kubectl管理K8s資源,10個(gè)微服務(wù)就要維護(hù)幾十個(gè)YAML文件,版本管理靠文件夾命名,回....
Prometheus告警規(guī)則編寫與Alertmanager通知配置實(shí)戰(zhàn)
監(jiān)控系統(tǒng)搭完了,指標(biāo)也采集上來了,但如果沒有告警,等于白搭。我見過不少團(tuán)隊(duì)Prometheus跑得好....
使用VictoriaMetrics的Prometheus遠(yuǎn)程存儲(chǔ)方案
Prometheus單機(jī)存儲(chǔ)在生產(chǎn)環(huán)境跑到一定規(guī)模就會(huì)碰壁——單節(jié)點(diǎn)磁盤容量有限,TSDB默認(rèn)保留1....
Kubernetes HPA和VPA使用實(shí)戰(zhàn)指南
線上業(yè)務(wù)流量存在明顯的波峰波谷。白天高峰期Pod數(shù)量不夠?qū)е抡?qǐng)求排隊(duì),凌晨低谷期大量Pod空跑浪費(fèi)資....
基于OpenTelemetry的全鏈路追蹤微服務(wù)可觀測性實(shí)踐
微服務(wù)拆分到第三年,我們的服務(wù)數(shù)量從最初的5個(gè)膨脹到了47個(gè)。一個(gè)用戶下單請(qǐng)求要經(jīng)過API Gate....
Kubernetes存儲(chǔ)管理功能的落地實(shí)踐
容器本身是無狀態(tài)的,Pod重啟后容器內(nèi)的數(shù)據(jù)全部丟失。數(shù)據(jù)庫、消息隊(duì)列、文件存儲(chǔ)這類有狀態(tài)服務(wù)跑在K....
Kubernetes容器運(yùn)行時(shí)containerd與CRI-O如何選擇
Kubernetes 1.24版本正式移除了dockershim,Docker不再是K8s的默認(rèn)容器....
Istio服務(wù)網(wǎng)格的核心原理與部署實(shí)戰(zhàn)
微服務(wù)拆分之后,服務(wù)間調(diào)用關(guān)系變得復(fù)雜。一個(gè)請(qǐng)求從網(wǎng)關(guān)進(jìn)來,經(jīng)過認(rèn)證服務(wù)、用戶服務(wù)、訂單服務(wù)、庫存服....
Kubernetes故障排查手冊(cè)
K8s集群出故障是常態(tài)。Pod起不來、Service訪問不通、節(jié)點(diǎn)NotReady、證書過期、etc....
使用Dockerfile構(gòu)建鏡像的詳細(xì)步驟
Dockerfile寫得好不好,直接影響三件事:鏡像大小、構(gòu)建速度、運(yùn)行安全性。我見過太多團(tuán)隊(duì)的Do....
編寫一個(gè)生產(chǎn)級(jí)的Service配置文件
systemctl start xxx 敲了無數(shù)遍,但真要從零寫一個(gè) Service 文件丟到生產(chǎn)環(huán)....
TCP三次握手與四次揮手的詳細(xì)過程
TCP 三次握手和四次揮手,大概是網(wǎng)絡(luò)領(lǐng)域被問爛了的面試題。但真正能把狀態(tài)變遷、序列號(hào)變化、抓包細(xì)節(jié)....
磁盤IO問題的定位根因與調(diào)優(yōu)解決思路
監(jiān)控大屏上 iowait 突然飆到 80%,SSH 連上去敲個(gè) ls 要等 5 秒才有響應(yīng),業(yè)務(wù)日志....
Ingress Nginx性能調(diào)優(yōu)配置方案
Ingress Nginx 是 Kubernetes 集群中最主流的流量入口組件,承擔(dān)著集群內(nèi)所有 ....
Linux文件刪除的底層原理和恢復(fù)方法
rm -rf 大概是 Linux 世界里殺傷力最大的命令,沒有之一。手一抖、路徑一錯(cuò)、通配符一飄,幾....
SSH安全加固與免密登錄實(shí)戰(zhàn)指南
線上服務(wù)器被暴力破解SSH密碼的事每個(gè)月都在發(fā)生。我們團(tuán)隊(duì)去年處理過一起安全事件,一臺(tái)測試機(jī)用了默認(rèn)....
Docker容器化部署完全指南
我們團(tuán)隊(duì)從 2019 年開始全面容器化,目前線上跑著 800+ 個(gè)容器,覆蓋 Java、Go、Nod....
一文帶你徹底搞懂K8s網(wǎng)絡(luò)
說實(shí)話,K8s 網(wǎng)絡(luò)是我見過最讓新手頭疼的知識(shí)點(diǎn),沒有之一。記得我剛接觸 K8s 那會(huì)兒,看著流量在....
K8s生產(chǎn)環(huán)境10大踩坑記錄復(fù)盤
這篇文章記錄了我這些年在 K8s 生產(chǎn)環(huán)境踩過的坑。每一個(gè)案例都是血淚教訓(xùn),有些甚至導(dǎo)致了生產(chǎn)事故。....
Linux文件權(quán)限管理詳解
說實(shí)話,Linux 權(quán)限這塊我踩過不少坑。記得剛?cè)胄心菚?huì)兒,有次為了圖省事直接 chmod 777 ....
Ansible與SaltStack配置管理工具的對(duì)比
在大規(guī)模服務(wù)器運(yùn)維場景中,配置管理工具是基礎(chǔ)設(shè)施自動(dòng)化的核心組件。經(jīng)過多年生產(chǎn)環(huán)境實(shí)踐,Ansibl....