91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析Linux內(nèi)核頁表管理中那些鮮為人知的秘密

Linux閱碼場(chǎng) ? 來源:Linux內(nèi)核遠(yuǎn)航者 ? 作者:Linux內(nèi)核遠(yuǎn)航者 ? 2021-06-11 16:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1.開場(chǎng)白

環(huán)境:

處理器架構(gòu):arm64

內(nèi)核源碼:linux-5.11

ubuntu版本:20.04.1

代碼閱讀工具:vim+ctags+cscope

通用操作系統(tǒng),通常都會(huì)開啟mmu來支持虛擬內(nèi)存管理,而頁表管理是在虛擬內(nèi)存管理中尤為重要,本文主要以回答幾個(gè)頁表管理中關(guān)鍵性問題來解析Linux內(nèi)核頁表管理,看一看頁表管理中那些鮮為人知的秘密。

2.頁表的作用是什么?

1)地址轉(zhuǎn)換

將虛擬地址轉(zhuǎn)換為物理地址

2)權(quán)限管理

管理cpu對(duì)物理頁的訪問,如讀寫執(zhí)行權(quán)限

3)隔離地址空間

隔離各個(gè)進(jìn)程的地址空間,使其互不影響,提供系統(tǒng)的安全性

打開mmu后,對(duì)沒有頁表映射的虛擬內(nèi)存訪問或者有頁表映射但是沒有訪問權(quán)限都會(huì)發(fā)生處理器異常,內(nèi)核選擇殺死進(jìn)程或者panic;通過頁表給一段內(nèi)存設(shè)置用戶態(tài)不可訪問, 這樣可以做到用戶態(tài)的用戶進(jìn)程不能訪問內(nèi)核地址空間的內(nèi)容;而由于用戶進(jìn)程各有一套自己的頁表,所以彼此看不到對(duì)方的地址空間,更別提訪問,造成每個(gè)進(jìn)程都認(rèn)為自己擁有所有虛擬內(nèi)存的錯(cuò)覺;通過頁表給一段內(nèi)存設(shè)置只讀屬性,那么就不容許修改這段內(nèi)存內(nèi)容,從而保護(hù)了這段內(nèi)存不被改寫;對(duì)應(yīng)用戶進(jìn)程地址空間映射的物理內(nèi)存,內(nèi)核可以很方便的進(jìn)行頁面遷移和頁面交換,而對(duì)使用虛擬地址的用戶進(jìn)程來說是透明的;通過頁表,很容易實(shí)現(xiàn)內(nèi)存共享,使得一份共享庫很多進(jìn)程都可以映射到自己地址空間使用;通過頁表,可以小內(nèi)存加載大應(yīng)用程序運(yùn)行,在運(yùn)行時(shí)按需加載和映射。..

3.頁表的存放在哪?

頁表存放在物理內(nèi)存中,打開mmu之后,如果需要修改頁表,需要將頁表所在的物理地址映射到虛擬地址才能訪問頁表(如內(nèi)核初始化后會(huì)將物理內(nèi)存線性映射,這樣通過物理地址和虛擬地址的偏移就可以獲得頁表物理地址對(duì)應(yīng)的虛擬地址)。

4. 頁表項(xiàng)中存放是虛是實(shí)?

頁表基地址寄存器和各級(jí)頁表項(xiàng)中存放的都是物理地址,而不是虛擬地址。

5. 開啟mmu后地址轉(zhuǎn)換過程?

虛擬地址轉(zhuǎn)換物理地址的過程:打開mmu后,cpu訪問的都是虛擬地址,當(dāng)cpu訪問一個(gè)虛擬地址的時(shí)候,會(huì)通過cpu內(nèi)部的mmu來查詢物理地址,mmu首先通過虛擬地址在tlb中查找,如果找到相應(yīng)表項(xiàng),直接獲得物理地址;如果tlb沒有找到,就會(huì)通過虛擬地址從頁表基地址寄存器保存的頁表基地址開始查詢多級(jí)頁表,最終查詢到找到相應(yīng)表項(xiàng),會(huì)將表項(xiàng)緩存到tlb中,然后從表項(xiàng)中獲得物理地址。

6. Linux內(nèi)核為何使用多級(jí)頁表?

1)使用一級(jí)頁表結(jié)構(gòu)優(yōu)劣:

優(yōu)勢(shì):

只需要2次訪問內(nèi)存(一次訪問頁表,一次訪問數(shù)據(jù)),效率高,實(shí)現(xiàn)簡(jiǎn)單

劣勢(shì):

需要連續(xù)的大塊內(nèi)存存放每個(gè)進(jìn)程的頁表(如32位系統(tǒng)每個(gè)進(jìn)程需要4M頁表),浪費(fèi)內(nèi)存,虛擬內(nèi)存越大頁表越大,內(nèi)存碎片化的時(shí)候很難分配到連續(xù)大塊內(nèi)存,大多數(shù)虛擬內(nèi)存并沒有使用。

2)使用多級(jí)頁表結(jié)構(gòu)優(yōu)劣:

優(yōu)勢(shì):

1.節(jié)省內(nèi)存

2.可以按需分配各級(jí)頁表

3.可以離散存儲(chǔ)頁表

劣勢(shì):

需要遍歷多級(jí)頁表,需要多次訪問內(nèi)存,實(shí)現(xiàn)復(fù)雜度高點(diǎn)

3)Linux內(nèi)核綜合考慮:

典型的以時(shí)間換空間,可以將各級(jí)頁表放到物理內(nèi)存的任何地方,無論是硬件遍歷還是內(nèi)核遍歷,比一級(jí)頁表更復(fù)雜,但是為了節(jié)省內(nèi)存,內(nèi)核選擇多級(jí)頁表結(jié)構(gòu)。

7.減小多級(jí)頁表遍歷的優(yōu)化?

1)mmu中添加tlb

來緩存最近訪問的頁表表項(xiàng),根據(jù)程序的時(shí)間和空間的局部性原理,tlb能有很高的命中率。

2)使用巨型頁

減少訪存次數(shù)(如使用1G或2M巨型頁),可以減少tlb miss和缺頁異常。

8. 硬件做了哪些事情?

遍歷頁表,將va轉(zhuǎn)換為pa,頁面權(quán)限管理

涉及到的硬件為:

mmu

->功能:查詢tlb或者遍歷頁表

tlb

->功能:緩存最近轉(zhuǎn)換的頁表?xiàng)l目

頁表基地址寄存器 如ttbr0_el1 ttbr1_el1

->功能:存放頁表基地址(物理地址)作為mmu遍歷多級(jí)頁表的起點(diǎn)

mmu進(jìn)行多級(jí)頁表遍歷時(shí)當(dāng)發(fā)現(xiàn)虛擬地址的最高bit為1時(shí)使用 ttbr1_el1作為遍歷起點(diǎn),最高bit為0時(shí)使用 ttbr0_el1作為遍歷起點(diǎn)。

9. 軟件做了哪些事情?

1)應(yīng)用程序

訪問虛擬內(nèi)存即可如執(zhí)行指令、讀寫內(nèi)存, 沒有權(quán)限管理頁表

不管虛擬內(nèi)存如何轉(zhuǎn)換為物理內(nèi)存,對(duì)應(yīng)用來說透明。

2)Linux內(nèi)核

填寫頁表,將頁表基地址告訴mmu

內(nèi)核初始化建立內(nèi)核頁表,實(shí)現(xiàn)缺頁異常等機(jī)制為用戶任務(wù)按需分配并映射頁表。

當(dāng)然,內(nèi)核也可以遍歷頁表,如缺頁異常時(shí)遍歷進(jìn)程頁表。

10. 內(nèi)核中涉及到的頁表基地址?

內(nèi)核:

idmap_pg_dir 恒等映射頁表(va=pa 映射2M)

init_pg_dir 粗粒度內(nèi)核頁表

swapper_pg_dir 主內(nèi)核頁表

用戶:

tsk->mm->pgd用戶進(jìn)程fork的時(shí)候分配私有的pgd頁,用于保存pgd表項(xiàng)(僅僅分配了第一級(jí)頁表)。

11. 頁表填寫/切換時(shí)機(jī)

1)內(nèi)核頁表填充

內(nèi)核初始化過程:

物理地址 -> 恒等映射(建立恒等映射頁表和粗粒度內(nèi)核頁表) ->打開mmu -> paging_init(建立細(xì)粒度的內(nèi)核頁表和內(nèi)存線性映射) -> 。..

恒等映射階段:

將恒等映射頁表idmap_pg_dir 地址保存到ttbr0_el1

將 粗粒度內(nèi)核頁表init_pg_dir 地址保存到ttbr1_el1

paging_init階段:

將內(nèi)核主頁表swapper_pg_dir 地址保存到ttbr1_el1

paging_init之后丟棄idmap_pg_dir 和init_pg_dir 頁表的使用。

2)用戶頁表填充

訪問時(shí)缺頁填充:

用戶進(jìn)程訪問已經(jīng)申請(qǐng)的虛擬內(nèi)存時(shí),發(fā)生缺頁,缺頁處理程序中為進(jìn)程分配各級(jí)頁表等物理頁并建立頁表映射關(guān)系。

進(jìn)程切換時(shí)切換進(jìn)程頁表:

switch_mm的時(shí)候切換tsk->mm->pgd到ttbr0_el1以及asid 到ttbr1_el1,從而完成了進(jìn)程地址空間切換。

12.頁表遍歷過程

下面以arm64處理器架構(gòu)多級(jí)頁表遍歷作為結(jié)束(使用4級(jí)頁表,頁大小為4K):

Linux內(nèi)核中 可以將頁表擴(kuò)展到5級(jí),分別是頁全局目錄(Page Global Directory, PGD), 頁4級(jí)目錄(Page 4th Directory, P4D), 頁上級(jí)目錄(Page Upper Directory, PUD),頁中間目錄(Page Middle Directory, PMD),直接頁表(Page Table, PT),而支持arm64的linux使用4級(jí)頁表結(jié)構(gòu)分別是 pgd, pud, pmd, pt ,arm64手冊(cè)中將他們分別叫做L0,L1,L2,L3級(jí)轉(zhuǎn)換表,所以一下使用L0-L3表示各級(jí)頁表。

tlb miss時(shí),mmu會(huì)進(jìn)行多級(jí)頁表遍歷遍歷過程如下:

1.mmu根據(jù)虛擬地址的最高位判斷使用哪個(gè)頁表基地址寄存器作為起點(diǎn):當(dāng)最高位為0時(shí),使用ttbr0_el1作為起點(diǎn)(訪問的是用戶空間地址);當(dāng)最高位為1時(shí),使用ttbr1_el1作為起點(diǎn)(訪問的是內(nèi)核空間地址)mmu從相應(yīng)的頁表基地址寄存器中獲得L0轉(zhuǎn)換表基地址。

2.找到L0級(jí)轉(zhuǎn)換表,然后從虛擬地址中獲得L0索引,通過L0索引找到相應(yīng)的表項(xiàng)(arm64中稱為L(zhǎng)0表描述符,內(nèi)核中叫做PGD表項(xiàng)),從表項(xiàng)中獲得L1轉(zhuǎn)換表基地址。

3.找到L1級(jí)轉(zhuǎn)換表,然后從虛擬地址中獲得L1索引,通過L1索引找到相應(yīng)的表項(xiàng)(arm64中稱為L(zhǎng)1表描述符,內(nèi)核中叫做PUD表項(xiàng)),從表項(xiàng)中獲得L2轉(zhuǎn)換表基地址。

4.找到L2級(jí)轉(zhuǎn)換表,然后從虛擬地址中獲得L2索引,通過L2索引找到相應(yīng)的表項(xiàng)(arm64中稱為L(zhǎng)2表描述符,內(nèi)核中叫做PUD表項(xiàng)),從表項(xiàng)中獲得L3轉(zhuǎn)換表基地址。

5.找到L3級(jí)轉(zhuǎn)換表,然后從虛擬地址中獲得L3索引,通過L3索引找到頁表項(xiàng)(arm64中稱為頁描述符,內(nèi)核中叫做頁表項(xiàng))。

6.從頁表項(xiàng)中取出物理頁幀號(hào)然后加上物理地址偏移(VA[11,0])獲得最終的物理地址。

原文標(biāo)題:Linux內(nèi)核頁表管理-那些鮮為人知的秘密

文章出處:【微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 內(nèi)核
    +關(guān)注

    關(guān)注

    4

    文章

    1467

    瀏覽量

    42864
  • Linux
    +關(guān)注

    關(guān)注

    88

    文章

    11756

    瀏覽量

    218996

原文標(biāo)題:Linux內(nèi)核頁表管理-那些鮮為人知的秘密

文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Linux內(nèi)核伙伴系統(tǒng)內(nèi)存申請(qǐng)函數(shù)詳解:從原理到實(shí)戰(zhàn)

    Linux 內(nèi)核,內(nèi)存管理是整個(gè)系統(tǒng)穩(wěn)定運(yùn)行的基石,而伙伴系統(tǒng)(Buddy System) 作為內(nèi)核物理內(nèi)存分配的核心機(jī)制,更是驅(qū)動(dòng)開
    的頭像 發(fā)表于 02-10 16:58 ?3627次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>伙伴系統(tǒng)內(nèi)存申請(qǐng)函數(shù)詳解:從原理到實(shí)戰(zhàn)

    Linux內(nèi)核的“心跳”:jiffies如何為系統(tǒng)計(jì)時(shí)?

    Linux 內(nèi)核的世界里,有一個(gè)默默工作的 "計(jì)時(shí)器"——jiffies。它不像我們手機(jī)上的時(shí)鐘那樣顯示年月日,卻掌控著內(nèi)核絕大多數(shù)時(shí)間相關(guān)的操作:從進(jìn)程調(diào)度到設(shè)備驅(qū)動(dòng)的定時(shí)檢查
    的頭像 發(fā)表于 02-04 16:27 ?809次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>的“心跳”:jiffies如何為系統(tǒng)計(jì)時(shí)?

    【「Linux 設(shè)備驅(qū)動(dòng)開發(fā)(第 2 版)」閱讀體驗(yàn)】+讀深入理解Linux內(nèi)核內(nèi)存分配

    ,目前4KB是廣泛使用的大小。在Linux操作系統(tǒng),每個(gè)進(jìn)程甚至內(nèi)核本身都被分配了地址空間,這是處理器的虛擬地址空間的一部分,內(nèi)核和進(jìn)程
    發(fā)表于 01-16 20:05

    【「Linux 設(shè)備驅(qū)動(dòng)開發(fā)(第 2 版)」閱讀體驗(yàn)】Linux內(nèi)核開發(fā)基礎(chǔ)

    ()、msleep_interruptible()這些API用于簡(jiǎn)單睡眠 內(nèi)核延遲或忙等待 可以調(diào)用ndelay()、udelay()、mdelay()這些API實(shí)現(xiàn) Linux內(nèi)核時(shí)間管理
    發(fā)表于 01-12 22:45

    深入Linux內(nèi)核:進(jìn)程調(diào)度的核心邏輯與實(shí)現(xiàn)細(xì)節(jié)

    Linux系統(tǒng),進(jìn)程調(diào)度就像一位精明的“CPU管理員”——它決定著哪個(gè)進(jìn)程能優(yōu)先使用CPU,多久切換一次進(jìn)程,如何平衡系統(tǒng)響應(yīng)速度與資源利用率。小到桌面應(yīng)用的流暢點(diǎn)擊,大到服務(wù)器的多任務(wù)并發(fā)
    的頭像 發(fā)表于 12-24 07:05 ?4286次閱讀
    深入<b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>:進(jìn)程調(diào)度的核心邏輯與實(shí)現(xiàn)細(xì)節(jié)

    Linux內(nèi)核模塊的加載機(jī)制

    。Linux內(nèi)核模塊的加載過程主要包含了ELF解析、動(dòng)態(tài)鏈接、安全驗(yàn)證和資源管理技術(shù)。其核心步驟包括:權(quán)限檢查→ELF解析→符號(hào)重定位→依賴
    發(fā)表于 11-25 06:59

    Linux內(nèi)核printk日志級(jí)別全解析:從參數(shù)解讀到實(shí)操配置

    一、開篇:一個(gè)命令引出的核心問題 在?Linux?終端執(zhí)行?cat /proc/sys/kernel/printk,你可能會(huì)看到這樣的輸出: 這串?dāng)?shù)字不是隨機(jī)的,而是內(nèi)核日志系統(tǒng)的“核心配置開關(guān)
    的頭像 發(fā)表于 11-20 15:54 ?1691次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>printk日志級(jí)別全<b class='flag-5'>解析</b>:從參數(shù)解讀到實(shí)操配置

    deepin亮相2025Linux內(nèi)核開發(fā)者大會(huì)

    11 月 1 日,第二十屆中國 Linux 內(nèi)核開發(fā)者大會(huì)(CLK)在深圳舉辦。CLK 作為國內(nèi) Linux 內(nèi)核領(lǐng)域極具影響力的峰會(huì),由清華大學(xué)、Intel、華為、阿里云、富士通南大
    的頭像 發(fā)表于 11-05 17:59 ?813次閱讀

    華納云服務(wù)器Linux系統(tǒng)電源管理與節(jié)能優(yōu)化配置方法

    在云計(jì)算時(shí)代,Linux系統(tǒng)的電源管理優(yōu)化成為提升云服務(wù)器能效的關(guān)鍵環(huán)節(jié)。本文將深入解析Linux內(nèi)核的電源
    的頭像 發(fā)表于 08-21 15:09 ?915次閱讀

    Linux網(wǎng)絡(luò)管理的關(guān)鍵技術(shù)和最佳實(shí)踐

    在大型互聯(lián)網(wǎng)企業(yè)Linux網(wǎng)絡(luò)管理是運(yùn)維工程師的核心技能之一。面對(duì)海量服務(wù)器、復(fù)雜網(wǎng)絡(luò)拓?fù)?、高并發(fā)流量,運(yùn)維人員需要掌握從基礎(chǔ)網(wǎng)絡(luò)配置到高級(jí)網(wǎng)絡(luò)優(yōu)化的全套技術(shù)棧。本文將結(jié)合大廠實(shí)際場(chǎng)景,深入
    的頭像 發(fā)表于 07-09 09:53 ?943次閱讀

    詳解Linux網(wǎng)絡(luò)管理的關(guān)鍵命令

    本文檔概述了網(wǎng)絡(luò)管理的關(guān)鍵命令,如ifconfig配置網(wǎng)絡(luò)接口,ip管理路由,ping測(cè)試連通性,以及nmap進(jìn)行安全掃描。還介紹了nslookup和dig用于域名解析,tcpdum
    的頭像 發(fā)表于 07-04 11:37 ?1140次閱讀
    詳解<b class='flag-5'>Linux</b>網(wǎng)絡(luò)<b class='flag-5'>管理</b><b class='flag-5'>中</b>的關(guān)鍵命令

    如何配置和驗(yàn)證Linux內(nèi)核參數(shù)

    Linux系統(tǒng)運(yùn)維和性能優(yōu)化,內(nèi)核參數(shù)(sysctl)的配置至關(guān)重要。合理的參數(shù)調(diào)整可以顯著提升網(wǎng)絡(luò)性能、系統(tǒng)穩(wěn)定性及資源利用率。然而,僅僅修改參數(shù)是不夠的,如何驗(yàn)證這些參數(shù)是否生效同樣關(guān)鍵。
    的頭像 發(fā)表于 05-29 17:40 ?1147次閱讀

    Linux內(nèi)核編譯失敗?移動(dòng)硬盤和虛擬機(jī)的那些事兒

    Linux開發(fā),編譯內(nèi)核是一項(xiàng)常見任務(wù),但不少開發(fā)者在移動(dòng)硬盤或虛擬機(jī)環(huán)境下嘗試時(shí)會(huì)遭遇失敗。本文將簡(jiǎn)要探討這些問題的成因,并介紹一些虛擬機(jī)使用技巧,幫助大家更好地應(yīng)對(duì)相關(guān)問題。在移動(dòng)硬盤里編譯
    的頭像 發(fā)表于 04-11 11:36 ?991次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>編譯失???移動(dòng)硬盤和虛擬機(jī)的<b class='flag-5'>那些</b>事兒

    十大鮮為人知卻功能強(qiáng)大的機(jī)器學(xué)習(xí)模型

    本文轉(zhuǎn)自:QuantML當(dāng)我們談?wù)摍C(jī)器學(xué)習(xí)時(shí),線性回歸、決策樹和神經(jīng)網(wǎng)絡(luò)這些常見的算法往往占據(jù)了主導(dǎo)地位。然而,除了這些眾所周知的模型之外,還存在一些鮮為人知但功能強(qiáng)大的算法,它們能夠以驚人的效率
    的頭像 發(fā)表于 04-02 14:10 ?1091次閱讀
    十大<b class='flag-5'>鮮為人知</b>卻功能強(qiáng)大的機(jī)器學(xué)習(xí)模型

    樹莓派4 性能大比拼:標(biāo)準(zhǔn)Linux與實(shí)時(shí)Linux 4.19內(nèi)核的延遲測(cè)試

    使用的是raspberrypi/linux倉庫的rpi-4.19.y-rt分支。同樣,在測(cè)試,我使用了實(shí)時(shí)Linux項(xiàng)目中的cyclictest程序。Cyclictest程序
    的頭像 發(fā)表于 03-25 09:39 ?808次閱讀
    樹莓派4 性能大比拼:標(biāo)準(zhǔn)<b class='flag-5'>Linux</b>與實(shí)時(shí)<b class='flag-5'>Linux</b> 4.19<b class='flag-5'>內(nèi)核</b>的延遲測(cè)試