91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么有時進(jìn)程莫名奇妙就沒有了?

Linux閱碼場 ? 來源:卯時卯刻 ? 作者:KINGYT ? 2021-05-24 17:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

先來看段代碼:

566b5b06-bc29-11eb-bf61-12bb97331649.png

這段代碼非常簡單,就是先用mmap的方式,為該進(jìn)程分配10GiB的虛擬內(nèi)存,然后再用page寫的方式,讓操作系統(tǒng)為這10GiB虛擬內(nèi)存,分配對應(yīng)的物理內(nèi)存,最后sleep,等待我們測試。

運行下。

沒啥問題,和我們預(yù)期的一樣,正常執(zhí)行。

打開另一個終端,執(zhí)行以下命令,看下它的內(nèi)存占用:

56883a6e-bc29-11eb-bf61-12bb97331649.png

上圖中的VSZ指的是虛擬內(nèi)存,RSS指的是物理內(nèi)存,單位都是KiB,所以該進(jìn)程虛擬內(nèi)存和物理內(nèi)存的使用,都約等于10GiB,沒問題。

我們再開個終端,再執(zhí)行下這個程序。

第二次執(zhí)行這個程序也沒問題,但奇怪的是,此時第一次執(zhí)行的那個程序卻被kill掉了。

這是為什么呢?

上面我們說到,該程序的邏輯是分配10GiB的物理內(nèi)存,所以運行兩次,也就是要分配20GiB的物理內(nèi)存。

但在我們的測試機(jī)器上,物理內(nèi)存一共才16GiB,所以,運行兩個這樣的進(jìn)程肯定是不行的。

在第二次執(zhí)行該程序,且向操作系統(tǒng)申請物理內(nèi)存時,操作系統(tǒng)會發(fā)現(xiàn),物理內(nèi)存已經(jīng)沒有了。

此時,為了防止整個系統(tǒng)crash掉,linux內(nèi)核會觸發(fā) OOM/Out of Memory killing 機(jī)制,即按照一定的規(guī)則選擇一個進(jìn)程,將其kill掉,以便回收物理內(nèi)存,以此來保證機(jī)器整體的穩(wěn)定運行。

同時,該kill事件,也會被記錄到內(nèi)核日志中,且可通過dmesg命令等方式查看。

比如上面第一個進(jìn)程被kill掉的事件記錄如下:

56e61c06-bc29-11eb-bf61-12bb97331649.png

看上面紅色字體行,該行是說,進(jìn)程14134因為out of memory被linux內(nèi)核kill掉了,該進(jìn)程正是上面我們第一次執(zhí)行的那個程序。

linux內(nèi)核的oom killing機(jī)制,其實是一種棄車保帥的做法,因為如果我們不kill掉某進(jìn)程,來釋放物理內(nèi)存的話,那很有可能會導(dǎo)致后續(xù)系統(tǒng)級別的crash,兩害相權(quán)取其輕,操作系統(tǒng)只能這樣處理,歸根結(jié)底,是我們對進(jìn)程使用物理內(nèi)存的規(guī)劃不足,才導(dǎo)致了這種情況。

那為什么不在第二次執(zhí)行該程序時,在調(diào)用mmap分配虛擬內(nèi)存時就直接報錯,返回?zé)o法分配內(nèi)存呢?

這是因為,經(jīng)過多年觀察,linux內(nèi)核的開發(fā)人員發(fā)現(xiàn),絕大部分程序在分配了很大的虛擬內(nèi)存之后,在大部分時間里,并不會一直使用這么多的物理內(nèi)存。

所以,為了更合理更高效的利用物理內(nèi)存資源,linux內(nèi)核允許虛擬內(nèi)存的overcommit,即,例如在上面執(zhí)行mmap分配虛擬內(nèi)存時,linux內(nèi)核并不會嚴(yán)格檢查,所有運行中的進(jìn)程分配的虛擬內(nèi)存加起來,是否超過了整個物理內(nèi)存大小。

這也就解釋了為什么上面第二次運行該程序時,mmap是沒有報錯的。

但是,雖然mmap的虛擬內(nèi)存分配成功了,但當(dāng)真正使用該內(nèi)存時,比如上面的寫內(nèi)存,此時要分配物理內(nèi)存,則是有可能失敗的,因為虛擬內(nèi)存的overcommit,很可能導(dǎo)致后續(xù)的物理內(nèi)存不足。

如果真的發(fā)生了這種情況,就會觸發(fā)linux內(nèi)核的oom killing機(jī)制,即linux內(nèi)核中的oom killer會按一定的規(guī)則,選一個進(jìn)程,將其kill掉,這個上面我們已經(jīng)演示過了。

那為什么不kill掉第二個進(jìn)程,而是kill掉第一個呢?

這個和linux內(nèi)核中oom killer的選擇策略有關(guān),我們直接看源碼:

5716408e-bc29-11eb-bf61-12bb97331649.png

當(dāng)進(jìn)程請求操作系統(tǒng)為其分配物理內(nèi)存時,如果此時物理內(nèi)存已經(jīng)沒有了,則會觸發(fā)上圖中的out_of_memory函數(shù)。

該函數(shù)中,會使用select_bad_process選擇要被kill掉的進(jìn)程,然后使用oom_kill_process將其kill掉,來釋放物理內(nèi)存。

在看select_bad_process之前,我們先看下oom_kill_process:

5745f928-bc29-11eb-bf61-12bb97331649.png

該函數(shù)調(diào)用了__oom_kill_process:

575389b2-bc29-11eb-bf61-12bb97331649.png

在上面的函數(shù)中,通過向victim進(jìn)程發(fā)送SIGKILL這個signal(我們平時使用的kill -9命令,就是用的這個signal),將其kill掉,然后該kill事件,會被記錄到內(nèi)核日志中。

注意,這里記錄的日志格式,正好和我們上面用dmesg輸出的,14134進(jìn)程被kill掉事件日志格式完全一樣。

kill掉進(jìn)程的過程就是這樣,我們再來看下select_bad_process函數(shù)是如何選擇要被kill掉進(jìn)程的:

576449b4-bc29-11eb-bf61-12bb97331649.png

在該函數(shù)中,會遍歷系統(tǒng)中的所有進(jìn)程,然后使用oom_evaluate_task這個函數(shù),對各個進(jìn)程進(jìn)行評估:

57b3a3ba-bc29-11eb-bf61-12bb97331649.png

oom_evaluate_task函數(shù)中,會使用oom_badness,計算某進(jìn)程badness的點數(shù),點數(shù)越高,越容易被kill掉。

如果badness的點數(shù)是LONG_MIN這個特殊值,則直接跳過該進(jìn)程,即該進(jìn)程不會成為被kill掉的對象,如果badness點數(shù)小于之前選擇進(jìn)程的badness點數(shù),同樣也跳過該進(jìn)程,即被kill掉的進(jìn)程badness點數(shù)要是最大的。

遍歷中選擇的進(jìn)程,及其badness的點數(shù),會被賦值到oc->chosen和oc->chosen_points里,oc->chosen最終指向的進(jìn)程,就是上面oom_kill_process里kill掉的進(jìn)程。

我們再來看下badness點數(shù)是如何計算的:

57d364c0-bc29-11eb-bf61-12bb97331649.png

該函數(shù)主體邏輯分成兩部分,一部分是,在某些情況下,該進(jìn)程的badness點數(shù)直接返回LONG_MIN,即不會被kill掉。

這些情況包括,oom_score_adj的值為OOM_SCORE_ADJ_MIN,即-1000,或者該進(jìn)程已經(jīng)在被kill的過程中了,或者該進(jìn)程在vfork過程中。

該函數(shù)邏輯的另外一部分就是計算進(jìn)程的badness點數(shù),其大致計算規(guī)則為:

points = 該進(jìn)程占用的物理內(nèi)存總數(shù) +總物理內(nèi)存 * oom_score_adj值的千分比。

oom_score_adj的值,是進(jìn)程獨有的,是可以通過寫 /proc/[pid]/oom_score_adj 的方式調(diào)整的,取值范圍為 -1000 到 1000。

該值越大,進(jìn)程總的badness點數(shù)就會越大,進(jìn)程也就越容易被kill掉。

該值越小,進(jìn)程總的badness點數(shù)就會越小,該進(jìn)程也就越不容易被kill掉。

上面我們還提到oom_score_adj有一個特殊值為OOM_SCORE_ADJ_MIN,即-1000,表示該進(jìn)程不能被kill掉。

各進(jìn)程的oom_score_adj的值默認(rèn)為0。

綜上可知,linux內(nèi)核中oom killer選擇被kill進(jìn)程的方式,就是看各進(jìn)程badness點數(shù)的大小。

默認(rèn)情況下,因為各進(jìn)程的oom_score_adj的值都為0,所以進(jìn)程占用的物理內(nèi)存越大,其badness點數(shù)也就越大,其也就越容易被kill掉。

這也就解釋了,為什么上面在第二次執(zhí)行那個程序時,被kill掉的是第一次執(zhí)行的那個進(jìn)程,而不是第二次執(zhí)行的進(jìn)程,因為第一次執(zhí)行的那個進(jìn)程,占用的物理內(nèi)存更大。

其實,調(diào)整linux內(nèi)核中oom killer行為的方式有很多,不止修改oom_score_adj值這一種方法。

比如,通過修改 /proc/sys/vm/panic_on_oom 的值,可以讓整個系統(tǒng)在物理內(nèi)存不夠時,直接panic,而不是選擇性的kill掉某個進(jìn)程。

比如,通過修改 /proc/sys/vm/overcommit_memory 的值,可以使上面第二次執(zhí)行的測試程序,在使用mmap分配虛擬內(nèi)存時,就直接報錯,說內(nèi)存不夠。

比如,通過修改/proc/[pid]/oom_adj 值的方式,同樣可以達(dá)到修改/proc/[pid]/oom_score_adj 的目的,不過這個在內(nèi)核2.6.36版本之后已經(jīng)不推薦使用。

oom killer行為調(diào)整的相關(guān)參數(shù),其具體詳解可以看proc的man文檔:

https://man.archlinux.org/man/proc.5

聊了這么多,那理解linux內(nèi)核的oom killer機(jī)制,對于我們實際應(yīng)用有哪些幫助呢?

我們假設(shè)以下場景:

假如,我們有一臺機(jī)器,上面跑著一個非常重要的服務(wù),比如數(shù)據(jù)庫,或者某個應(yīng)用進(jìn)程等。

它非常耗內(nèi)存,但是正常情況下,它使用的物理內(nèi)存肯定不會高于實際總物理內(nèi)存大小。

有一天我們需要在這臺機(jī)器上執(zhí)行一項任務(wù),如果這個任務(wù)也比較耗內(nèi)存,那很可能在執(zhí)行這項任務(wù)時,整臺機(jī)器的物理內(nèi)存就完全不夠用了,此時,就會觸發(fā)linux內(nèi)核的oom killing機(jī)制。

又因為在不調(diào)整oom_score_adj值的情況下,linux內(nèi)核中的oom killer默認(rèn)kill掉的,就是占用物理內(nèi)存最多的那個進(jìn)程,一般來說,就是我們數(shù)據(jù)庫進(jìn)程,或其他應(yīng)用進(jìn)程,假設(shè)這個進(jìn)程又是線上的一個重要服務(wù),那它被kill掉了,你想一下這會是多么嚴(yán)重的一個事故。

那怎么避免呢?

此時,我們就可以使用上面提到的,用于調(diào)整進(jìn)程badness點數(shù)的,oom_score_adj 這個參數(shù)。

比如,我們可以通過 echo -1000 > /proc/[pid]/oom_score_adj 命令,將oom_score_adj的值設(shè)置為-1000,即該進(jìn)程不能被kill掉。

又比如,還是通過上面的echo命令,將oom_score_adj的值修改為一個較小的值,來降低它被kill掉的概率。

但是,這些方法其實都不是完美的解決方式。

雖然該機(jī)器上的這個重要服務(wù)不被kill掉了,但操作系統(tǒng)為了保證整個系統(tǒng)不crash,還是會kill掉其他各種進(jìn)程。

如果那些進(jìn)程不重要還好,萬一重要的話,還是會相當(dāng)嚴(yán)重的。

甚至,如果操作系統(tǒng)找不到可以kill掉的進(jìn)程,那整個系統(tǒng)就會crash,這個就更嚴(yán)重了。

所以,最好的方式,還是人為去避免物理內(nèi)存不足的情況,在機(jī)器上跑各種程序時,要提前對整個物理內(nèi)存的使用,有個規(guī)劃和預(yù)判,最好是能預(yù)留出一些內(nèi)存,以防各種誤操作。

好了,該篇文章就講這些內(nèi)容,如果以后你發(fā)現(xiàn)你的進(jìn)程,莫名奇妙就沒有了,可以通過dmesg等方式看下內(nèi)核日志,確定下你的進(jìn)程是否被oom kill掉了。

原文標(biāo)題:為什么我的進(jìn)程被kill掉了

文章出處:【微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4972

    瀏覽量

    74133
  • 進(jìn)程
    +關(guān)注

    關(guān)注

    0

    文章

    211

    瀏覽量

    14546

原文標(biāo)題:為什么我的進(jìn)程被kill掉了

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    飛凌嵌入式ElfBoard-進(jìn)程的相關(guān)信息之用戶ID和組ID

    在Linux操作系統(tǒng)中,用戶ID(UID) 和 組ID(GID)對進(jìn)程有著重要的作用,主要影響到進(jìn)程的權(quán)限管理、資源訪問以及操作系統(tǒng)的安全性。進(jìn)程的用戶ID和組ID代表
    發(fā)表于 03-12 17:13

    飛凌嵌入式ElfBoard-進(jìn)程的相關(guān)信息之父進(jìn)程和子進(jìn)程

    進(jìn)程在創(chuàng)建時,創(chuàng)建進(jìn)程是新進(jìn)程的父進(jìn)程,新進(jìn)程是創(chuàng)建進(jìn)程的子
    發(fā)表于 03-12 17:12

    飛凌嵌入式ElfBoard-進(jìn)程之什么是進(jìn)程

    在Linux系統(tǒng)中,有些基本命令能夠查看到進(jìn)程的信息。例如ps、top、pgrep、pstree等;這些命令為用戶提供查看和管理Linux進(jìn)程信息的多種功能。通過合理使用這些命令,用戶可以監(jiān)控
    發(fā)表于 03-02 08:49

    飛凌嵌入式ElfBoard-進(jìn)程之什么是進(jìn)程

    進(jìn)程是正在執(zhí)行(已經(jīng)開始執(zhí)行但還沒終止的)的程序?qū)嵗?,?zhí)行程序時,內(nèi)核會將程序載入虛擬內(nèi)存,為程序變量分配空間,建立內(nèi)核記賬(bookkeeping)數(shù)據(jù)結(jié)構(gòu),以記錄與進(jìn)程有關(guān)的各種信息(比如,進(jìn)程
    發(fā)表于 01-26 08:42

    進(jìn)程概念和特征

    進(jìn)程的概念   在多道程序環(huán)境下,允許多個程序并發(fā)執(zhí)行,此時它們將失去封閉性,并具有間斷性及不可再現(xiàn)性的特征。為此引入了進(jìn)程(Process)的概念,以便更好地描述和控制程序的并發(fā)執(zhí)行,實現(xiàn)操作系統(tǒng)
    發(fā)表于 01-15 06:39

    進(jìn)程通信

    進(jìn)程通信是指進(jìn)程之間的信息交換。PV操作是低級通信方式,髙級通信方式是指以較高的效率傳輸大量數(shù)據(jù)的通信方式。高級通信方法主要有以下三個類。   共享存儲   在通信的進(jìn)程之間存在一塊可直接
    發(fā)表于 01-15 06:16

    進(jìn)程的控制

    進(jìn)程控制的主要功能是對系統(tǒng)中的所有進(jìn)程實施有效的管理,它具有創(chuàng)建新進(jìn)程、撤銷已有進(jìn)程、實現(xiàn)進(jìn)程狀態(tài)轉(zhuǎn)換等功能。在操作系統(tǒng)中,一般把
    發(fā)表于 01-15 06:05

    解析Linux的進(jìn)程、線程和協(xié)程

    進(jìn)程間通信(IPC):Linux提供多種IPC機(jī)制,如管道、信號、共享內(nèi)存和消息隊列,用于進(jìn)程之間的通信。 線程管理 在Linux中,線程可以通過pthread庫來管理。線程共享同一進(jìn)程
    發(fā)表于 12-22 11:00

    關(guān)于RV-STAR開發(fā)板插上USB,電腦為什么會顯示識別到兩個串口呢?

    剛買來時還是只顯示識別到一個串口,最近莫名奇妙,我們幾個同學(xué)都是這個問題,插上RV-STAR開發(fā)板,設(shè)備管理器顯示兩個串口?
    發(fā)表于 11-10 06:31

    60pin的0.5pitch的FPC連接短路的原因

    我們使用的60pin的0.5pitch的FPC連接方式連接,偶發(fā)出現(xiàn)管腳短路,莫名奇妙短路會消失,拔掉又看不到短路的臟污,再插回去短路現(xiàn)象也會消失,可能是什么原因?
    發(fā)表于 08-20 09:08

    某車聯(lián)網(wǎng)終端有時無法短信喚醒的故障分析

    某車企反饋車載物聯(lián)網(wǎng)終端4G下有時無法接收短信,導(dǎo)致車輛無法喚醒。查詢短信中心記錄,下發(fā)失敗原因有時是“用戶不在服務(wù)區(qū)”,有時是“用戶關(guān)機(jī)”。實際終端一直保持開機(jī)狀態(tài)。
    的頭像 發(fā)表于 07-14 10:39 ?784次閱讀
    某車聯(lián)網(wǎng)終端<b class='flag-5'>有時</b>無法短信喚醒的故障分析

    多相電機(jī)的奇妙世界(2):三相電機(jī)vs多相電機(jī)

    本文是第二屆電力電子科普征文大賽的獲獎作品,來自華中科技大學(xué)劉自程、王光宇、朱榮培、蔣棟、羅翔宇、包木建、朱梓豪等投稿。上期回顧多相電機(jī)的奇妙世界(1):從三相到多相的跨越本期文章將繼續(xù)帶您探索多相
    的頭像 發(fā)表于 06-28 08:33 ?922次閱讀
    多相電機(jī)的<b class='flag-5'>奇妙</b>世界(2):三相電機(jī)vs多相電機(jī)

    探索信號分析的奇妙世界

    在這個信息爆炸的時代無線通信已經(jīng)成為我們生活中不可或缺的一部分無論是手機(jī)、無線網(wǎng)絡(luò)還是衛(wèi)星通信背后都有一個共同的英雄——信號分析儀今天,就讓我們一起探索這個奇妙的無線電世界了解信號分析產(chǎn)品如何幫助
    的頭像 發(fā)表于 04-07 09:49 ?739次閱讀
    探索信號分析的<b class='flag-5'>奇妙</b>世界

    Linux進(jìn)程狀態(tài)詳解

    進(jìn)程狀態(tài)是task_struct內(nèi)的一個整數(shù);進(jìn)行:進(jìn)程在調(diào)度隊列中,進(jìn)程的狀態(tài)都是running,阻塞:等待某種設(shè)備或者資源就緒。進(jìn)程是一個隊列,設(shè)備也是一個隊列,當(dāng)我們讀磁盤,讀網(wǎng)
    的頭像 發(fā)表于 04-01 09:46 ?1205次閱讀
    Linux<b class='flag-5'>進(jìn)程</b>狀態(tài)詳解

    使用mpc5675k器件,調(diào)試時經(jīng)常莫名其妙地觸發(fā)中斷,怎么解決?

    我正在使用mpc5675k器件、我在調(diào)試時經(jīng)常莫名其妙地觸發(fā)中斷。 我知道,因為我沒有配置相應(yīng)的中斷,所以程序經(jīng)常會遇到 DefaultInterrupt 函數(shù)。 讓我困惑的是,我知道我沒有配置它
    發(fā)表于 03-27 06:42