91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Linux內(nèi)核源碼的RCU實(shí)現(xiàn)方案

454398 ? 來源: Chinaunix ? 作者:hiyachen ? 2020-09-25 15:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

RCU(Read-Copy Update)是數(shù)據(jù)同步的一種方式,在當(dāng)前的Linux內(nèi)核中發(fā)揮著重要的作用。RCU主要針對的數(shù)據(jù)對象是鏈表,目的是提高遍歷讀取數(shù)據(jù)的效率,為了達(dá)到目的使用RCU機(jī)制讀取數(shù)據(jù)的時候不對鏈表進(jìn)行耗時的加鎖操作。這樣在同一時間可以有多個線程同時讀取該鏈表,并且允許一個線程對鏈表進(jìn)行修改(修改的時候,需要加鎖)。RCU適用于需要頻繁的讀取數(shù)據(jù),而相應(yīng)修改數(shù)據(jù)并不多的情景,例如在文件系統(tǒng)中,經(jīng)常需要查找定位目錄,而對目錄的修改相對來說并不多,這就是RCU發(fā)揮作用的最佳場景。

Linux內(nèi)核源碼當(dāng)中,關(guān)于RCU的文檔比較齊全,你可以在 /Documentation/RCU/ 目錄下找到這些文件。Paul E. McKenney 是內(nèi)核中RCU源碼的主要實(shí)現(xiàn)者,他也寫了很多RCU方面的文章。他把這些文章和一些關(guān)于RCU的論文的鏈接整理到了一起。http://www2.rdrop.com/users/paulmck/RCU/

在RCU的實(shí)現(xiàn)過程中,我們主要解決以下問題:

1,在讀取過程中,另外一個線程刪除了一個節(jié)點(diǎn)。刪除線程可以把這個節(jié)點(diǎn)從鏈表中移除,但它不能直接銷毀這個節(jié)點(diǎn),必須等到所有的讀取線程讀取完成以后,才進(jìn)行銷毀操作。RCU中把這個過程稱為寬限期(Grace period)。

2,在讀取過程中,另外一個線程插入了一個新節(jié)點(diǎn),而讀線程讀到了這個節(jié)點(diǎn),那么需要保證讀到的這個節(jié)點(diǎn)是完整的。這里涉及到了發(fā)布-訂閱機(jī)制(Publish-Subscribe Mechanism)。

3, 保證讀取鏈表的完整性。新增或者刪除一個節(jié)點(diǎn),不至于導(dǎo)致遍歷一個鏈表從中間斷開。但是RCU并不保證一定能讀到新增的節(jié)點(diǎn)或者不讀到要被刪除的節(jié)點(diǎn)。

寬限期

通過例子,方便理解這個內(nèi)容。以下例子修改于Paul的文章。

[cpp]view plaincopy

structfoo{

inta;

charb;

longc;

};

DEFINE_SPINLOCK(foo_mutex);

structfoo*gbl_foo;

voidfoo_read(void)

{

foo*fp=gbl_foo;

if(fp!=NULL)

dosomething(fp->a,fp->b,fp->c);

}

voidfoo_update(foo*new_fp)

{

spin_lock(&foo_mutex);

foo*old_fp=gbl_foo;

gbl_foo=new_fp;

spin_unlock(&foo_mutex);

kfee(old_fp);

}

如上的程序,是針對于全局變量gbl_foo的操作。假設(shè)以下場景。有兩個線程同時運(yùn)行 foo_ read和foo_update的時候,當(dāng)foo_ read執(zhí)行完賦值操作后,線程發(fā)生切換;此時另一個線程開始執(zhí)行foo_update并執(zhí)行完成。當(dāng)foo_ read運(yùn)行的進(jìn)程切換回來后,運(yùn)行dosomething 的時候,fp已經(jīng)被刪除,這將對系統(tǒng)造成危害。為了防止此類事件的發(fā)生,RCU里增加了一個新的概念叫寬限期(Grace period)。如下圖所示:

圖中每行代表一個線程,最下面的一行是刪除線程,當(dāng)它執(zhí)行完刪除操作后,線程進(jìn)入了寬限期。寬限期的意義是,在一個刪除動作發(fā)生后,它必須等待所有在寬限期開始前已經(jīng)開始的讀線程結(jié)束,才可以進(jìn)行銷毀操作。這樣做的原因是這些線程有可能讀到了要刪除的元素。圖中的寬限期必須等待1和2結(jié)束;而讀線程5在寬限期開始前已經(jīng)結(jié)束,不需要考慮;而3,4,6也不需要考慮,因?yàn)樵趯捪奁诮Y(jié)束后開始后的線程不可能讀到已刪除的元素。為此RCU機(jī)制提供了相應(yīng)的API來實(shí)現(xiàn)這個功能。

[cpp]view plaincopy

voidfoo_read(void)

{

rcu_read_lock();

foo*fp=gbl_foo;

if(fp!=NULL)

dosomething(fp->a,fp->b,fp->c);

rcu_read_unlock();

}

voidfoo_update(foo*new_fp)

{

spin_lock(&foo_mutex);

foo*old_fp=gbl_foo;

gbl_foo=new_fp;

spin_unlock(&foo_mutex);

synchronize_rcu();

kfee(old_fp);

}

其中foo_read中增加了rcu_read_lock和rcu_read_unlock,這兩個函數(shù)用來標(biāo)記一個RCU讀過程的開始和結(jié)束。其實(shí)作用就是幫助檢測寬限期是否結(jié)束。foo_update增加了一個函數(shù)synchronize_rcu(),調(diào)用該函數(shù)意味著一個寬限期的開始,而直到寬限期結(jié)束,該函數(shù)才會返回。我們再對比著圖看一看,線程1和2,在synchronize_rcu之前可能得到了舊的gbl_foo,也就是foo_update中的old_fp,如果不等它們運(yùn)行結(jié)束,就調(diào)用kfee(old_fp),極有可能造成系統(tǒng)崩潰。而3,4,6在synchronize_rcu之后運(yùn)行,此時它們已經(jīng)不可能得到old_fp,此次的kfee將不對它們產(chǎn)生影響。

寬限期是RCU實(shí)現(xiàn)中最復(fù)雜的部分,原因是在提高讀數(shù)據(jù)性能的同時,刪除數(shù)據(jù)的性能也不能太差。

訂閱——發(fā)布機(jī)制

當(dāng)前使用的編譯器大多會對代碼做一定程度的優(yōu)化,CPU也會對執(zhí)行指令做一些優(yōu)化調(diào)整,目的是提高代碼的執(zhí)行效率,但這樣的優(yōu)化,有時候會帶來不期望的結(jié)果。如例:

[cpp]view plaincopy

voidfoo_update(foo*new_fp)

{

spin_lock(&foo_mutex);

foo*old_fp=gbl_foo;

new_fp->a=1;

new_fp->b=‘b’;

new_fp->c=100;

gbl_foo=new_fp;

spin_unlock(&foo_mutex);

synchronize_rcu();

kfee(old_fp);

}

這段代碼中,我們期望的是6,7,8行的代碼在第10行代碼之前執(zhí)行。但優(yōu)化后的代碼并不對執(zhí)行順序做出保證。在這種情形下,一個讀線程很可能讀到 new_fp,但new_fp的成員賦值還沒執(zhí)行完成。當(dāng)讀線程執(zhí)行dosomething(fp->a, fp->b , fp->c ) 的 時候,就有不確定的參數(shù)傳入到dosomething,極有可能造成不期望的結(jié)果,甚至程序崩潰。可以通過優(yōu)化屏障來解決該問題,RCU機(jī)制對優(yōu)化屏障做了包裝,提供了專用的API來解決該問題。這時候,第十行不再是直接的指針賦值,而應(yīng)該改為 :

rcu_assign_pointer(gbl_foo,new_fp);

rcu_assign_pointer的實(shí)現(xiàn)比較簡單,如下:

[cpp]view plaincopy

#definercu_assign_pointer(p,v)

__rcu_assign_pointer((p),(v),__rcu)

#define__rcu_assign_pointer(p,v,space)

do{

smp_wmb();

(p)=(typeof(*v)__forcespace*)(v);

}while(0)

我們可以看到它的實(shí)現(xiàn)只是在賦值之前加了優(yōu)化屏障 smp_wmb來確保代碼的執(zhí)行順序。另外就是宏中用到的__rcu,只是作為編譯過程的檢測條件來使用的。

在DEC Alpha CPU機(jī)器上還有一種更強(qiáng)悍的優(yōu)化,如下所示:

[cpp]view plaincopy

voidfoo_read(void)

{

rcu_read_lock();

foo*fp=gbl_foo;

if(fp!=NULL)

dosomething(fp->a,fp->b,fp->c);

rcu_read_unlock();

}

第六行的fp->a,fp->b,fp->c會在第3行還沒執(zhí)行的時候就預(yù)先判斷運(yùn)行,當(dāng)他和foo_update同時運(yùn)行的時候,可能導(dǎo)致傳入dosomething的一部分屬于舊的gbl_foo,而另外的屬于新的。這樣導(dǎo)致運(yùn)行結(jié)果的錯誤。為了避免該類問題,RCU還是提供了宏來解決該問題:

[cpp]view plaincopy

#definercu_dereference(p)rcu_dereference_check(p,0)

#definercu_dereference_check(p,c)

__rcu_dereference_check((p),rcu_read_lock_held()||(c),__rcu)

#define__rcu_dereference_check(p,c,space)

({

typeof(*p)*_________p1=(typeof(*p)*__force)ACCESS_ONCE(p);

rcu_lockdep_assert(c,"suspiciousrcu_dereference_check()"

"usage");

rcu_dereference_sparse(p,space);

smp_read_barrier_depends();

((typeof(*p)__force__kernel*)(_________p1));

})

staticinlineintrcu_read_lock_held(void)

{

if(!debug_lockdep_rcu_enabled())

return1;

if(rcu_is_cpu_idle())

return0;

if(!rcu_lockdep_current_cpu_online())

return0;

returnlock_is_held(&rcu_lock_map);

}

這段代碼中加入了調(diào)試信息,去除調(diào)試信息,可以是以下的形式(其實(shí)這也是舊版本中的代碼):

[cpp]view plaincopy

#definercu_dereference(p)({

typeof(p)_________p1=p;

smp_read_barrier_depends();

(_________p1);

})

在賦值后加入優(yōu)化屏障smp_read_barrier_depends()。

我們之前的第四行代碼改為foo *fp = rcu_dereference(gbl_foo);,就可以防止上述問題。

數(shù)據(jù)讀取的完整性

還是通過例子來說明這個問題:

如圖我們在原list中加入一個節(jié)點(diǎn)new到A之前,所要做的第一步是將new的指針指向A節(jié)點(diǎn),第二步才是將Head的指針指向new。這樣做的目的是當(dāng)插入操作完成第一步的時候,對于鏈表的讀取并不產(chǎn)生影響,而執(zhí)行完第二步的時候,讀線程如果讀到new節(jié)點(diǎn),也可以繼續(xù)遍歷鏈表。如果把這個過程反過來,第一步head指向new,而這時一個線程讀到new,由于new的指針指向的是Null,這樣將導(dǎo)致讀線程無法讀取到A,B等后續(xù)節(jié)點(diǎn)。從以上過程中,可以看出RCU并不保證讀線程讀取到new節(jié)點(diǎn)。如果該節(jié)點(diǎn)對程序產(chǎn)生影響,那么就需要外部調(diào)用做相應(yīng)的調(diào)整。如在文件系統(tǒng)中,通過RCU定位后,如果查找不到相應(yīng)節(jié)點(diǎn),就會進(jìn)行其它形式的查找,相關(guān)內(nèi)容等分析到文件系統(tǒng)的時候再進(jìn)行敘述。

我們再看一下刪除一個節(jié)點(diǎn)的例子:

如圖我們希望刪除B,這時候要做的就是將A的指針指向C,保持B的指針,然后刪除程序?qū)⑦M(jìn)入寬限期檢測。由于B的內(nèi)容并沒有變更,讀到B的線程仍然可以繼續(xù)讀取B的后續(xù)節(jié)點(diǎn)。B不能立即銷毀,它必須等待寬限期結(jié)束后,才能進(jìn)行相應(yīng)銷毀操作。由于A的節(jié)點(diǎn)已經(jīng)指向了C,當(dāng)寬限期開始之后所有的后續(xù)讀操作通過A找到的是C,而B已經(jīng)隱藏了,后續(xù)的讀線程都不會讀到它。這樣就確保寬限期過后,刪除B并不對系統(tǒng)造成影響。

小結(jié)

RCU的原理并不復(fù)雜,應(yīng)用也很簡單。但代碼的實(shí)現(xiàn)確并不是那么容易,難點(diǎn)都集中在了寬限期的檢測上,后續(xù)分析源代碼的時候,我們可以看到一些極富技巧的實(shí)現(xiàn)方式。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Linux
    +關(guān)注

    關(guān)注

    88

    文章

    11759

    瀏覽量

    219014
  • 數(shù)據(jù)同步
    +關(guān)注

    關(guān)注

    0

    文章

    17

    瀏覽量

    8370
  • rcu
    rcu
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    5751
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    送4本!206 張手繪圖+源碼+視頻!Linux 老兵嘔心之作,讓小白也能吃透底層邏輯

    作為開發(fā)者,你是否也有過這樣的困擾?想學(xué)Linux網(wǎng)絡(luò)編程,卻被枯燥的理論、復(fù)雜的內(nèi)核源碼勸退;照搬別人的代碼能跑通項(xiàng)目,但遇到問題不知如何排查,更談不上架構(gòu)優(yōu)化;市面上的教材要么只講API用法,要么滿
    的頭像 發(fā)表于 02-05 08:08 ?120次閱讀
    送4本!206 張手繪圖+<b class='flag-5'>源碼</b>+視頻!<b class='flag-5'>Linux</b> 老兵嘔心之作,讓小白也能吃透底層邏輯

    Linux內(nèi)核的“心跳”:jiffies如何為系統(tǒng)計時?

    Linux 內(nèi)核的世界里,有一個默默工作的 "計時器"——jiffies。它不像我們手機(jī)上的時鐘那樣顯示年月日,卻掌控著內(nèi)核中絕大多數(shù)時間相關(guān)的操作:從進(jìn)程調(diào)度到設(shè)備驅(qū)動的定時檢查,都離不開它的身影。
    的頭像 發(fā)表于 02-04 16:27 ?817次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>的“心跳”:jiffies如何為系統(tǒng)計時?

    深入RK3588內(nèi)核:rockchip_linux_defconfig的作用與調(diào)試價值

    在 RK3588 芯片的 Linux 開發(fā)中,有一個文件始終是開發(fā)者繞不開的核心 ——kernel/arch/arm64/configs/rockchip_linux_defconfig。無論是首次
    的頭像 發(fā)表于 02-03 15:56 ?1156次閱讀
    深入RK3588<b class='flag-5'>內(nèi)核</b>:rockchip_<b class='flag-5'>linux</b>_defconfig的作用與調(diào)試價值

    Linux系統(tǒng)內(nèi)核參數(shù)調(diào)優(yōu)實(shí)戰(zhàn)指南

    Linux 內(nèi)核參數(shù)調(diào)優(yōu)是系統(tǒng)性能優(yōu)化的核心環(huán)節(jié)。隨著云原生架構(gòu)的普及和硬件性能的飛速提升,默認(rèn)的內(nèi)核參數(shù)配置往往無法充分發(fā)揮系統(tǒng)潛力。在高并發(fā) Web 服務(wù)、大數(shù)據(jù)處理、容器化部署等場景下,合理的
    的頭像 發(fā)表于 01-28 14:27 ?432次閱讀

    【「Linux 設(shè)備驅(qū)動開發(fā)(第 2 版)」閱讀體驗(yàn)】Linux內(nèi)核開發(fā)基礎(chǔ)

    ()、msleep_interruptible()這些API用于簡單睡眠 內(nèi)核延遲或忙等待 可以調(diào)用ndelay()、udelay()、mdelay()這些API實(shí)現(xiàn) Linux內(nèi)核
    發(fā)表于 01-12 22:45

    【「Linux 設(shè)備驅(qū)動開發(fā)(第 2 版)」閱讀體驗(yàn)】+讀內(nèi)核處理的核心輔助函數(shù)

    “處理內(nèi)核的核心輔助函數(shù)”進(jìn)行學(xué)習(xí)。 第3章又是以5個主題展開討論學(xué)習(xí),①、Linux內(nèi)核加鎖機(jī)制和共享資源;②、處理內(nèi)核等待、睡眠和延遲機(jī)制;③、深入理解
    發(fā)表于 01-10 22:08

    深入Linux內(nèi)核:進(jìn)程調(diào)度的核心邏輯與實(shí)現(xiàn)細(xì)節(jié)

    ,背后都離不開內(nèi)核調(diào)度算法的精準(zhǔn)操控。今天,我們就從優(yōu)先級、調(diào)度算法、時間片分配到底層實(shí)現(xiàn),全方位拆解Linux內(nèi)核進(jìn)程調(diào)度的核心邏輯。 一、進(jìn)程調(diào)度的“身份標(biāo)識”:優(yōu)先級與分類 要理
    的頭像 發(fā)表于 12-24 07:05 ?4302次閱讀
    深入<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>:進(jìn)程調(diào)度的核心邏輯與<b class='flag-5'>實(shí)現(xiàn)</b>細(xì)節(jié)

    基于 DR1M90 的 Linux-RT 內(nèi)核開發(fā):從編譯配置到 GPIO / 按鍵應(yīng)用實(shí)現(xiàn)(1)

    本手冊由創(chuàng)龍科技研發(fā),針對 DR1M90,詳述 Linux-RT 實(shí)時內(nèi)核開發(fā):含實(shí)時性測試(LinuxLinux-RT 對比、CPU 空載 / 滿負(fù)荷 / 隔離狀態(tài)測試)、
    的頭像 發(fā)表于 12-02 10:38 ?1176次閱讀
    基于 DR1M90 的 <b class='flag-5'>Linux</b>-RT <b class='flag-5'>內(nèi)核</b>開發(fā):從編譯配置到 GPIO / 按鍵應(yīng)用<b class='flag-5'>實(shí)現(xiàn)</b>(1)

    如何將 GPIO PWM 和 GPIO Capture 驅(qū)動程序?qū)?Linux 內(nèi)核實(shí)現(xiàn) PWM 輸出并檢測引腳的變化狀態(tài)?

    如何將 GPIO PWM 和 GPIO Capture 驅(qū)動程序?qū)?Linux 內(nèi)核實(shí)現(xiàn) PWM 輸出并檢測引腳的變化狀態(tài)
    發(fā)表于 08-20 08:20

    Linux內(nèi)核參數(shù)調(diào)優(yōu)方案

    在高并發(fā)微服務(wù)環(huán)境中,網(wǎng)絡(luò)性能往往成為K8s集群的瓶頸。本文將深入探討如何通過精細(xì)化的Linux內(nèi)核參數(shù)調(diào)優(yōu),讓你的K8s節(jié)點(diǎn)網(wǎng)絡(luò)性能提升30%以上。
    的頭像 發(fā)表于 08-06 17:50 ?947次閱讀

    迅為RK3568開發(fā)板OpeHarmony學(xué)習(xí)開發(fā)手冊1.1-內(nèi)核移植優(yōu)化

    ;copy 到 out 目錄-->打新補(bǔ)丁 那么優(yōu)化思路是什么呢? out/kernel/src_tmp/linux-5.10/ linux-5.10/ 下的內(nèi)核源碼是已經(jīng)打過原
    發(fā)表于 07-26 10:37

    如何配置和驗(yàn)證Linux內(nèi)核參數(shù)

    Linux系統(tǒng)運(yùn)維和性能優(yōu)化中,內(nèi)核參數(shù)(sysctl)的配置至關(guān)重要。合理的參數(shù)調(diào)整可以顯著提升網(wǎng)絡(luò)性能、系統(tǒng)穩(wěn)定性及資源利用率。然而,僅僅修改參數(shù)是不夠的,如何驗(yàn)證這些參數(shù)是否生效同樣關(guān)鍵。
    的頭像 發(fā)表于 05-29 17:40 ?1151次閱讀

    迅為RK3568開發(fā)板內(nèi)核模塊實(shí)現(xiàn)-編寫 Makefile

    ;lt;文件>:將指定的文件(需要是以.o 結(jié)尾)設(shè)為編譯時以模塊形式編譯 第 4 行是設(shè)備樹內(nèi)核源碼路徑,請大家根據(jù)實(shí)際內(nèi)核路徑進(jìn)行修改。 第 5 行是獲取當(dāng)前目錄的變量 第 7 行
    發(fā)表于 04-24 13:36

    Linux內(nèi)核編譯失???移動硬盤和虛擬機(jī)的那些事兒

    Linux內(nèi)核卻失敗了,這是咋回事?FAT和NTFS文件系統(tǒng)不能支持軟鏈接,在這寫格式的磁盤里編譯內(nèi)核會失敗,同樣也不能在這樣的磁盤里解壓內(nèi)核源碼
    的頭像 發(fā)表于 04-11 11:36 ?993次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>編譯失?。恳苿佑脖P和虛擬機(jī)的那些事兒

    樹莓派4 性能大比拼:標(biāo)準(zhǔn)Linux與實(shí)時Linux 4.19內(nèi)核的延遲測試

    引言本文是對我之前關(guān)于RaspberryPi3同一主題的帖子的更新。與之前的帖子一樣,我使用的是隨Raspbian鏡像提供的標(biāo)準(zhǔn)內(nèi)核,以及應(yīng)用了RT補(bǔ)丁的相似內(nèi)核版本。對于實(shí)時版,我
    的頭像 發(fā)表于 03-25 09:39 ?809次閱讀
    樹莓派4 性能大比拼:標(biāo)準(zhǔn)<b class='flag-5'>Linux</b>與實(shí)時<b class='flag-5'>Linux</b> 4.19<b class='flag-5'>內(nèi)核</b>的延遲測試