完全剖析 - Linux虛擬內存空間管理
掃描二維碼
隨時隨地手機看文章
在 《漫畫解說內存映射》一文中介紹過 虛擬內存 與 物理內存 映射的原理與過程,虛擬內存與物理內存進行映射的過程被稱為 內存映射。內存映射是硬件(內存管理單元)級別的功能,必須按照硬件的規(guī)范設置好內存映射的關系,進程才能正常運行。
但內存映射并不能區(qū)分內存的用途,比如我們想知道虛擬內存區(qū)間 0 ~ 2MB 是用作存儲數(shù)據(jù)還是存儲指令,這就很難從內存映射中獲取到相關信息。所以,Linux 根據(jù)功能上的差異,來對虛擬內存空間進行管理。
今天,我們來介紹一下 Linux 對虛擬內存空間管理的細節(jié)。
段
之前我們說過,在 32 位的操作系統(tǒng)中,每個進程都擁有 4GB 的虛擬內存空間。Linux 根據(jù)功能上的差異,把整個虛擬內存空間劃分為多個不同區(qū)間,稱為 段。
我們先來看看 Linux 進程虛擬內存空間的布局圖,如圖 1 所示:

上圖展示了 Linux 進程的虛擬內存空間布局情況,我們只關注 用戶空間 的布局。
從上圖可以看出,進程的用戶空間大小為 3GB。Linux 按照功能上的差異,把一個進程的用戶空間劃分為多個段,下面介紹一下各個段的作用:
代碼段:用于存放程序中可執(zhí)行代碼的段。數(shù)據(jù)段:用于存放已經初始化的全局變量或靜態(tài)變量的段。如在 C 語言中,使用語句int global = 10;定義的全局變量。未初始化數(shù)據(jù)段:用于存放未初始化的全局變量或靜態(tài)變量的段。如在 C 語言中,使用語句int global;定義的全局變量。堆:用于存放使用malloc函數(shù)申請的內存。mmap區(qū):用于存放使用mmap函數(shù)映射的內存區(qū)。棧:用于存放函數(shù)局部變量和函數(shù)參數(shù)。
虛擬內存區(qū)
從上面的介紹可知,Linux 按照功能上的差異,把虛擬內存空間劃分為多個 段。那么在內核中,是通過什么結構來管理這些段的呢?
答案就是:vm_area_struct。
內核通過 vm_area_struct 結構(虛擬內存區(qū))來管理各個 段,其定義如下:
1struct?vm_area_struct?{
2????struct?mm_struct?*vm_mm;?/*?The?address?space?we?belong?to.?*/
3????unsigned?long?vm_start;??/*?Our?start?address?within?vm_mm.?*/
4????unsigned?long?vm_end;????/*?The?first?byte?after?our?end?address?within?vm_mm.?*/
5
6????/*?linked?list?of?VM?areas?per?task,?sorted?by?address?*/
7????struct?vm_area_struct?*vm_next;
8
9????pgprot_t?vm_page_prot;???/*?Access?permissions?of?this?VMA.?*/
10????unsigned?long?vm_flags;??/*?Flags,?see?mm.h.?*/
11????struct?rb_node?vm_rb;
12????...
13????/*?Function?pointers?to?deal?with?this?struct.?*/
14????const?struct?vm_operations_struct?*vm_ops;
15????...
16};
下面介紹一下各個字段的作用:
vm_mm:指向進程的內存管理對象,每個進程都有一個類型為mm_struct的內存管理對象,用于管理進程的虛擬內存空間和內存映射等。vm_start:虛擬內存區(qū)的起始虛擬內存地址。vm_end:虛擬內存區(qū)的結束虛擬內存地址。vm_next:Linux 會通過鏈表把進程的所有虛擬內存區(qū)連接起來,這個字段用于指向下一個虛擬內存區(qū)。vm_page_prot:主要用于保存當前虛擬內存區(qū)所映射的物理內存頁的讀寫權限。vm_flags:標識當前虛擬內存區(qū)的功能特性。vm_rb:某些場景中需要通過虛擬內存地址查找對應的虛擬內存區(qū),為了加速查找過程,內核以虛擬內存地址作為key,把進程所有的虛擬內存區(qū)保存到一棵紅黑樹中,而這個字段就是紅黑樹的節(jié)點結構。vm_ops:每個虛擬內存區(qū)都可以自定義一套操作接口,通過操作接口,能夠讓虛擬內存區(qū)實現(xiàn)一些特定的功能,比如:把虛擬內存區(qū)映射到文件。而vm_ops字段就是虛擬內存區(qū)的操作接口集,一般在創(chuàng)建虛擬內存區(qū)時指定。
我們通過圖 2 來展示內核是怎么通過 vm_area_struct 結構來管理進程中的所有 段:

從上圖可以看出,內核通過一個鏈表和一棵紅黑樹來管理進程中所有的 段。mm_struct 結構的 mmap 字段就是鏈表的頭節(jié)點,而 mm_rb 字段就是紅黑樹的根節(jié)點。
加載程序鏡像
前面我們介紹了 Linux ?會把虛擬內存地址劃分為多個 段,并且使用 vm_area_struct 結構來管理這些段。那么,這些虛擬內存區(qū)是怎么建立起來的呢?
在介紹進程虛擬內存區(qū)建立的過程前,我們先來簡單介紹一下 ELF文件格式。
1. ELF文件
ELF 全稱 Executable and Linkable Format,即可執(zhí)行可鏈接文件格式。在 Linux 系統(tǒng)中,就是使用這種文件格式來存儲一個可執(zhí)行的應用程序。讓我們來看一下 ELF 文件格式由哪些結構組成:
一般一個 ELF 文件由以下三部分組成:
ELF 頭(ELF header):描述應用程序的類型、CPU架構、入口地址、程序頭表偏移和節(jié)頭表偏移等等;
程序頭表(Program header table):列舉了所有有效的段(segments)和他們的屬性,程序頭表需要加載器將文件中的段加載到虛擬內存段中;
節(jié)頭表(Section header table):包含對節(jié)(sections)的描述。
ELF 文件的結構大概如圖3所示:

當內核加載一個應用程序時,就是通過讀取 ELF 文件的信息,然后把文件中所有的段加載到虛擬內存的段中。ELF 文件通過 程序頭表 來描述應用程序中所有的段,表中的每一個項都描述一個段的信息。我們先來看看 程序頭表 項的結構定義:
1typedef?struct?elf64_phdr?{
2???Elf64_Word?p_type;?????//?段的類型
3???Elf64_Word?p_flags;????//?可讀寫標志
4???Elf64_Off?p_offset;????//?段在ELF文件中的偏移量
5???Elf64_Addr?p_vaddr;????//?段的虛擬內存地址
6???Elf64_Addr?p_paddr;????//?段的物理內存地址
7???Elf64_Xword?p_filesz;??//?段占用文件的大小
8???Elf64_Xword?p_memsz;???//?段占用內存的大小
9???Elf64_Xword?p_align;???//?內存對齊
10}?Elf64_Phdr;
所以,程序加載器可以通過 ELF 頭中獲取到程序頭表的偏移量,然后通過程序頭表的偏移量讀取到程序頭表的數(shù)據(jù),再通過程序頭表來獲取到所有段的信息。
我們可以通過 readelf -S file 命令來查看 ELF 文件的段(節(jié))信息,如下圖所示:

上面列出了 代碼段、數(shù)據(jù)段、未初始化數(shù)據(jù)段 和 注釋段 的信息。
2. 加載過程
要加載一個程序,需要調用 execve 系統(tǒng)調用來完成。我們來看看 execve 系統(tǒng)調用的調用棧:
1sys_execve
2└→?do_execve
3??└→?do_execveat_common
4?????└→?__do_execve_file
5????????└→?exec_binprm
6???????????└→?search_binary_handler
7??????????????└→?load_elf_binary
從上面的調用者可以看出,execve 系統(tǒng)調用最終會調用 load_elf_binary 函數(shù)來加載程序的 ELF 文件。
由于 load_elf_binary 函數(shù)的實現(xiàn)比較復雜,所以我們分段來解說:
(1)讀取并檢查ELF頭
1static?int?load_elf_binary(struct?linux_binprm?*bprm,?struct?pt_regs?*regs)
2{
3?? ...
4???struct?{
5???????struct?elfhdr?elf_ex;
6???????struct?elfhdr?interp_elf_ex;
7?? }?*loc;
8
9???loc?=?kmalloc(sizeof(*loc),?GFP_KERNEL);
10???if?(!loc)?{
11???????retval?=?-ENOMEM;
12???????goto?out_ret;
13? ?}
14
15???//?1.?獲取ELF頭
16???loc->elf_ex?=?*((struct?elfhdr?*)bprm->buf);
17
18???retval?=?-ENOEXEC;
19???//?2.?檢查ELF簽名是否正確
20???if?(memcmp(loc->elf_ex.e_ident,?ELFMAG,?SELFMAG)?!=?0)
21???????goto?out;
22
23???//?3.?是否是可執(zhí)行文件或者動態(tài)庫
24???if?(loc->elf_ex.e_type?!=?ET_EXEC?&&?loc->elf_ex.e_type?!=?ET_DYN)
25???????goto?out;
26
27???//?4.?檢查系統(tǒng)架構是否正確
28???if?(!elf_check_arch(&loc->elf_ex))
29???????goto?out;
30?? ...
上面這段代碼主要是讀取應用程序的 ELF 頭,然后檢查 ELF 頭信息是否合法。
(2)讀取程序頭表
1???size?=?loc->elf_ex.e_phnum?*?sizeof(struct?elf_phdr);?//?程序頭表的大小
2???retval?=?-ENOMEM;
3
4???elf_phdata?=?kmalloc(size,?GFP_KERNEL);?//?申請一塊內存來保存程序頭表
5???if?(!elf_phdata)
6???????goto?out;
7
8//?從ELF文件中讀取程序頭表的數(shù)據(jù),?并且保存到?elf_phdata?變量中
9???retval?=?kernel_read(bprm->file,?loc->elf_ex.e_phoff,?(char?*)elf_phdata,?size);
10???if?(retval?!=?size)?{
11???????if?(retval?>=?0)
12???????????retval?=?-EIO;
13???????goto?out_free_ph;
14??}
15??...
上面的代碼主要完成以下幾個工作:
從 ELF 頭的信息中獲取到程序頭表的大小。
調用
kmalloc函數(shù)申請一塊內存來保存程序頭表。調用
kernel_read函數(shù)從 ELF 文件中讀取程序頭表的數(shù)據(jù),保存到elf_phdata變量中,程序頭表的偏移量可以通過 ELF 頭的e_phoff字段獲取。
(3)加載段到虛擬內存
1???//?遍歷程序頭表所有的段
2???for?(i?=?0,?elf_ppnt?=?elf_phdata;?i?elf_ex.e_phnum;?i++,?elf_ppnt++)?{
3???????int?elf_prot?=?0,?elf_flags;
4???????unsigned?long?k,?vaddr;
5
6???????if?(elf_ppnt->p_type?!=?PT_LOAD)??//?判斷段是否需要加載
7???????????continue;
8??????...
9???????//?段的可讀寫權限
10???????if?(elf_ppnt->p_flags?&?PF_R)
11???????????elf_prot?|=?PROT_READ;
12???????if?(elf_ppnt->p_flags?&?PF_W)
13???????????elf_prot?|=?PROT_WRITE;
14???????if?(elf_ppnt->p_flags?&?PF_X)
15???????????elf_prot?|=?PROT_EXEC;
16
17???????elf_flags?=?MAP_PRIVATE?|?MAP_DENYWRITE?|?MAP_EXECUTABLE;
18
19???????vaddr?=?elf_ppnt->p_vaddr;??//?獲取段的虛擬內存地址
20??????...
21???????//?把段加載到虛擬內存
22???????error?=?elf_map(bprm->file,?load_bias?+?vaddr,?elf_ppnt,?elf_prot,?elf_flags,?0);
23??????...
24??}
上面這段代碼主要完成的工作是:
遍歷程序頭表所有的段。
判斷段是否需要加載。
獲取段的可讀寫權限和段的虛擬內存地址。
調用
elf_map函數(shù)把段加載到虛擬內存。
所以,把段加載到虛擬內存主要通過 elf_map 函數(shù)完成。我們來看看 elf_map 函數(shù)的調用棧:
1elf_map
2└→?do_mmap
3???└→?do_mmap_pgoff
4??????└→?mmap_region
從上面的調用者可以看出,elf_map 函數(shù)最終會調用 mmap_region 來完成加載段到虛擬內存。我們分析一下 mmap_region 函數(shù)的實現(xiàn):
1unsigned?long
2mmap_region(struct?file?*file,?unsigned?long?addr,?unsigned?long?len,
3???????????unsigned?long?flags,?unsigned?int?vm_flags,?unsigned?long?pgoff)
4{
5???struct?mm_struct?*mm?=?current->mm;
6???struct?vm_area_struct?*vma,?*prev;
7??...
8???//?申請一個?vm_area_struct?結構
9???vma?=?kmem_cache_zalloc(vm_area_cachep,?GFP_KERNEL);
10???if?(!vma)?{
11???????error?=?-ENOMEM;
12???????goto?unacct_error;
13??}
14
15???//?設置?vm_area_struct?結構各個字段的值
16???vma->vm_mm?=?mm;
17???vma->vm_start?=?addr;????????//?段的開始虛擬內存地址
18???vma->vm_end?=?addr?+?len;????//?段的結束虛擬內存地址
19???vma->vm_flags?=?vm_flags;????//?段的功能特性
20???vma->vm_page_prot?=?vm_get_page_prot(vm_flags);
21???vma->vm_pgoff?=?pgoff;
22
23??...
24???//?把?vm_area_struct?結構連接到虛擬內存區(qū)鏈表和紅黑樹中
25???vma_link(mm,?vma,?prev,?rb_link,?rb_parent);
26??...
27
28???return?addr;
29}
上面代碼對 mmap_region 函數(shù)進行了精簡,精簡后的工作主要有:
調用
kmem_cache_zalloc函數(shù)申請一個vm_area_struct(虛擬內存區(qū))結構。設置
vm_area_struct結構各個字段的值。調用
vma_link函數(shù)把vm_area_struct結構連接到虛擬內存區(qū)鏈表和紅黑樹中。
通過上面的過程,內核就把應用程序的所有段加載到虛擬內存中。
總結
本文主要介紹了 Linux 內核是怎么加載應用程序,并且在虛擬內存中建立各個段的布局。本文主要關注的是虛擬內存布局的建立過程,但加載應用程序的很多細節(jié)都忽略了(如怎么設置進程入口),有興趣可以自行查閱相關的資料和書籍。





