淺析Linux 64位系統(tǒng)虛擬地址和物理地址的映射及驗(yàn)證方法
掃描二維碼
隨時(shí)隨地手機(jī)看文章
前言
有好久沒(méi)更新了,這段時(shí)間發(fā)生了挺多大喜事哈。但是也還是有挺久沒(méi)更新了,不得不意識(shí)到自己是個(gè)小菜雞,就算是小菜雞也要做一只快樂(lè)小菜雞。就算更新慢但是我依然會(huì)持續(xù)更新,因?yàn)楦氖刮铱鞓?lè)。
虛擬內(nèi)存
先簡(jiǎn)單介紹一下操作系統(tǒng)中為什么會(huì)有虛擬地址和物理地址的區(qū)別。因?yàn)長(zhǎng)inux中有進(jìn)程的概念,那么每個(gè)進(jìn)程都有自己的獨(dú)立的地址空間。
現(xiàn)在的操作系統(tǒng)都是64bit的,也就是說(shuō)如果在用戶態(tài)的進(jìn)程中創(chuàng)建一個(gè)64位的指針,那么在這個(gè)進(jìn)程中,這個(gè)指針能夠指向的范圍是0~0xFFFFFFFFFFFFFFFF(總共有16個(gè)F,每個(gè)F是4個(gè)bit)。
每個(gè)進(jìn)程“理論上”都有這樣的地址范圍(-,-這里的”理論“是指猜測(cè)一下,指針亂指向未定義的范圍會(huì)引發(fā)段錯(cuò)誤,下文中會(huì)寫明64bit的用戶空間的地址范圍)。
我們看到了,Linux為了讓每個(gè)進(jìn)程空間的獨(dú)立,創(chuàng)造了虛擬地址這個(gè)概念。但是計(jì)算機(jī)最終還是需要操作物理的內(nèi)存的。
那么虛擬地址和物理地址的映射關(guān)系是怎樣的?也只能用映射表了。比如說(shuō):進(jìn)程A虛擬空間中的第0x1234個(gè)字節(jié),對(duì)應(yīng)于物理內(nèi)存中的第0x823ABC個(gè)字節(jié)。這個(gè)一個(gè)字節(jié)和一個(gè)字節(jié)對(duì)應(yīng),理論上是可以的,但是太消耗資源了,為了映射這“一個(gè)字節(jié)”,僅映射這“一個(gè)字節(jié)”的表項(xiàng)的大小也遠(yuǎn)超過(guò)了一個(gè)字節(jié)的大?。ù蠹s四十個(gè)字節(jié)左右)。這是不行的,這就像幾十個(gè)產(chǎn)品和項(xiàng)目經(jīng)理去管一個(gè)程序員工作,這是效率低下的。
頁(yè)
所以頁(yè)這個(gè)概念產(chǎn)生了,一個(gè)頁(yè)一個(gè)頁(yè)映射總還可以了吧,我們將頁(yè)作為最小單位去映射就好了。大多數(shù)32位體系結(jié)構(gòu)支持4KB的頁(yè),而64位體系結(jié)構(gòu)一般會(huì)支持8KB的頁(yè)。在linux使用命令獲取當(dāng)前系統(tǒng)的頁(yè)大小:
getconf PAGE_SIZE
在我的ubuntu 16.04 x86_64上的系統(tǒng)得到的結(jié)果是 4096。目前大部分64位的系統(tǒng)的頁(yè)大小都是4096個(gè)字節(jié)。
系統(tǒng)中每個(gè)物理頁(yè)都會(huì)建立一個(gè)類似映射表的結(jié)構(gòu)體,但是依然會(huì)有人覺(jué)得這有點(diǎn)浪費(fèi)內(nèi)存。我們來(lái)算一下,比如一個(gè)物理頁(yè)的屬性和映射表的內(nèi)容占用40個(gè)字節(jié)(linux代碼中是struct page)。假設(shè)如當(dāng)前大部分Linux上的頁(yè)為4KB大小,系統(tǒng)有4GB物理內(nèi)存,那么就有1048576個(gè)頁(yè),這么多頁(yè)的映射表消耗的內(nèi)存是1048576 * 40byte = 40MB。用40MB去管理4GB,還是可以接受的。
64位系統(tǒng)的虛擬內(nèi)存布局
在AArch64下,頁(yè)大小為4KB時(shí),頁(yè)管理為四級(jí)架構(gòu)時(shí)的Linux的進(jìn)程中的虛擬內(nèi)存布局如下:
可以看到即使是虛擬地址,用戶態(tài)下能用的地址也就只是0 ~ 0000ffffffffffff,不過(guò)也有256TB大小了。也就是說(shuō)每個(gè)進(jìn)程都有自己獨(dú)立的0 ~ 0000ffffffffffff的地址空間。0x0000ffffffffffff是12個(gè)f,也就是48個(gè)bit。
每個(gè)進(jìn)程都有自己的虛擬地址到物理地址的映射關(guān)系表。Linux內(nèi)核會(huì)根據(jù)每個(gè)不同的進(jìn)程去查找表:如進(jìn)程A的虛擬空間地址K的物理地址是哪個(gè)。為了加快查找效率,虛擬內(nèi)存的地址的不同段映射到了不同的entry上,頁(yè)管理表有4級(jí)的也有3級(jí)的。最常用的4級(jí)頁(yè)管理映射表如下:
可以看到[47:0]這48個(gè)bits的虛擬地址,被分成了五段,前四段的每一份長(zhǎng)度都是9 bits,最后一段是12 bits。
每個(gè)9 bits的段都是2^9 = 512,也就是說(shuō)每個(gè)分級(jí)段都有512個(gè)entry。
最后一段[11:0],大小是12 bits的即2^12 = 4096,4096就是一個(gè)頁(yè)的大小,所以最后一段是頁(yè)內(nèi)偏移(因?yàn)橛成涫且皂?yè)為單位,所以虛擬地址和物理地址的頁(yè)內(nèi)偏移都是一樣的)。前四段合在一起就是虛擬頁(yè)號(hào)。
我們舉一個(gè)48 bit 虛擬地址的例子,這個(gè)地址以八進(jìn)制表示:
003 010 007 413 1056
上面所述的每個(gè)Entry的結(jié)構(gòu)體如下:
可以看到物理地址的頁(yè)號(hào)是40 bits,也就是說(shuō)最多有2^40個(gè)物理頁(yè),每個(gè)頁(yè)是4096個(gè)字節(jié),也就是最多4PB(4096TB)。
虛擬地址到物理地址的驗(yàn)證方法
說(shuō)了這么多,如何驗(yàn)證上面說(shuō)的這些是真的。就算推導(dǎo)出物理地址了,那又有啥用呢?
如果你知道共享庫(kù)和靜態(tài)庫(kù)的區(qū)別的話,那么就會(huì)知道不同的進(jìn)程如果用了同一個(gè)共享庫(kù),那么其實(shí)這兩個(gè)不同的進(jìn)程使用的共享庫(kù)是指向同一個(gè)物理地址!如果能驗(yàn)證這一點(diǎn),那么從虛擬地址推導(dǎo)到物理地址的方法大體是正確的,以上所述大體也是對(duì)的。
借助proc下的maps和pagemap
通過(guò)man命令
man proc
可以找到以下條目:
以上我們知道通過(guò)/proc/[pid]/maps就能夠知道一個(gè)進(jìn)程的虛擬地址。
以上我們知道通過(guò)/proc/[pid]/pagemap就能夠?qū)⒁粋€(gè)進(jìn)程的虛擬地址頁(yè)轉(zhuǎn)成物理地址頁(yè)。
測(cè)試代碼
下面上硬菜。小伙子你要講武德,你不能閃!
代碼如下:
#include#include #include #include #include size_t virtual_to_physical(pid_t pid, size_t addr) { char str[20]; sprintf(str, "/proc/%u/pagemap", pid); int fd = open(str, O_RDONLY); if(fd < 0) { printf("open %s failed!\n", str); return 0; } size_t pagesize = getpagesize(); size_t offset = (addr / pagesize) * sizeof(uint64_t); if(lseek(fd, offset, SEEK_SET) < 0) { printf("lseek() failed!\n"); close(fd); return 0; } uint64_t info; if(read(fd, &info, sizeof(uint64_t)) != sizeof(uint64_t)) { printf("read() failed!\n"); close(fd); return 0; } if((info & (((uint64_t)1) << 63)) == 0) { printf("page is not present!\n"); close(fd); return 0; } size_t frame = info & ((((uint64_t)1) << 55) - 1); size_t phy = frame * pagesize + addr % pagesize; close(fd); printf("The phy frame is 0x%zx\n", frame); printf("The phy addr is 0x%zx\n", phy); return phy; } int main(void) { while(1) { uint32_t pid; uint64_t virtual_addr; printf("Please input the pid in dec:"); scanf("%u", &pid); printf("Please input the virtual address in hex:"); scanf("%zx", &virtual_addr); printf("pid = %u and virtual addr = 0x%zx\n", pid, virtual_addr); virtual_to_physical(pid, virtual_addr); } return 0; }
首先,我編譯一下!
gcc test.c -o haha
然后,我拷貝一下!
cp haha hahatest1; cp haha hahatest2; cp haha hahamonitor
接著,我運(yùn)行一下!
nohup ./hahatest1 & [1] 3943 nohup ./hahatest2 & [2] 3944 sudo ./hahamonitor
這里你可能已經(jīng)發(fā)現(xiàn)我的意圖了,我是用進(jìn)程hahamonitor查看進(jìn)程hahatest1和進(jìn)程hahatest2的內(nèi)存地址。
但是你不能大意,運(yùn)行hahamonitor 一定要加sudo或者root權(quán)限,不然讀出來(lái)就都是0了。
先看看hahatest1和hahatest2進(jìn)程的地址空間:
zbf@zbf:~$ cat /proc/3943/maps 00400000-00401000 r-xp 00000000 08:06 11150436 /home/zbf/physic_virtual_memory/hahatest1 00600000-00601000 r--p 00000000 08:06 11150436 /home/zbf/physic_virtual_memory/hahatest1 00601000-00602000 rw-p 00001000 08:06 11150436 /home/zbf/physic_virtual_memory/hahatest1 011ad000-011cf000 rw-p 00000000 00:00 0 [heap] 7ffbf1b64000-7ffbf1d24000 r-xp 00000000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7ffbf1d24000-7ffbf1f24000 ---p 001c0000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7ffbf1f24000-7ffbf1f28000 r--p 001c0000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7ffbf1f28000-7ffbf1f2a000 rw-p 001c4000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7ffbf1f2a000-7ffbf1f2e000 rw-p 00000000 00:00 0 7ffbf1f2e000-7ffbf1f54000 r-xp 00000000 08:06 20714659 /lib/x86_64-linux-gnu/ld-2.23.so 7ffbf2133000-7ffbf2136000 rw-p 00000000 00:00 0 7ffbf2153000-7ffbf2154000 r--p 00025000 08:06 20714659 /lib/x86_64-linux-gnu/ld-2.23.so 7ffbf2154000-7ffbf2155000 rw-p 00026000 08:06 20714659 /lib/x86_64-linux-gnu/ld-2.23.so 7ffbf2155000-7ffbf2156000 rw-p 00000000 00:00 0 7ffd2529f000-7ffd252c0000 rw-p 00000000 00:00 0 [stack] 7ffd25302000-7ffd25305000 r--p 00000000 00:00 0 [vvar] 7ffd25305000-7ffd25307000 r-xp 00000000 00:00 0 [vdso] ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall] zbf@zbf:~$ cat /proc/3944/maps 00400000-00401000 r-xp 00000000 08:06 11150444 /home/zbf/physic_virtual_memory/hahatest2 00600000-00601000 r--p 00000000 08:06 11150444 /home/zbf/physic_virtual_memory/hahatest2 00601000-00602000 rw-p 00001000 08:06 11150444 /home/zbf/physic_virtual_memory/hahatest2 01e8b000-01ead000 rw-p 00000000 00:00 0 [heap] 7fe786964000-7fe786b24000 r-xp 00000000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7fe786b24000-7fe786d24000 ---p 001c0000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7fe786d24000-7fe786d28000 r--p 001c0000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7fe786d28000-7fe786d2a000 rw-p 001c4000 08:06 20714662 /lib/x86_64-linux-gnu/libc-2.23.so 7fe786d2a000-7fe786d2e000 rw-p 00000000 00:00 0 7fe786d2e000-7fe786d54000 r-xp 00000000 08:06 20714659 /lib/x86_64-linux-gnu/ld-2.23.so 7fe786f33000-7fe786f36000 rw-p 00000000 00:00 0 7fe786f53000-7fe786f54000 r--p 00025000 08:06 20714659 /lib/x86_64-linux-gnu/ld-2.23.so 7fe786f54000-7fe786f55000 rw-p 00026000 08:06 20714659 /lib/x86_64-linux-gnu/ld-2.23.so 7fe786f55000-7fe786f56000 rw-p 00000000 00:00 0 7fffd3388000-7fffd33a9000 rw-p 00000000 00:00 0 [stack] 7fffd33ce000-7fffd33d1000 r--p 00000000 00:00 0 [vvar] 7fffd33d1000-7fffd33d3000 r-xp 00000000 00:00 0 [vdso] ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall]
可以看到這兩個(gè)進(jìn)程都鏈接了/lib/x86_64-linux-gnu/libc-2.23.so這個(gè)動(dòng)態(tài)庫(kù),在進(jìn)程3943(hahatest1)中的虛擬地址是:7ffbf1b64000,但在進(jìn)程3944中的虛擬地址是:7fe786964000
我們用hahamonitor康康它們的最終的物理地址都是什么?
zbf@zbf:~/$ sudo ./hahamonitor Please input the pid in dec:3943 Please input the virtual address in hex:7ffbf1b64000 pid = 3943 and virtual addr = 0x7ffbf1b64000 The phy frame is 0x12ee58 The phy addr is 0x12ee58000 Please input the pid in dec:3944 Please input the virtual address in hex:7fe786964000 pid = 3944 and virtual addr = 0x7fe786964000 The phy frame is 0x12ee58 The phy addr is 0x12ee58000
可以看到物理地址是一樣的,都是0x12ee58000。另外我也實(shí)驗(yàn)過(guò)這兩個(gè)進(jìn)程對(duì)應(yīng)的堆棧的物理地址都是不一樣的,這就對(duì)了!





