Linux從頭學(xué)02：x86中內(nèi)存【段尋址】方式的來龍去脈

時(shí)間：2021-10-18 16:30:56

關(guān)鍵字：內(nèi)存尋址 x86

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]什么是代碼段？什么是數(shù)據(jù)段？數(shù)據(jù)的類型和長(zhǎng)度尋址范圍棧實(shí)模式和保護(hù)模式Linux中的分段策略飯是一口一口的吃，計(jì)算機(jī)也是一步一步的發(fā)展，例如下面這張英特爾公司的CPU型號(hào)歷史：為了利用性能越來越強(qiáng)悍的計(jì)算機(jī)，操作系統(tǒng)的也是在逐步變得膨脹和復(fù)雜。為了從最底層來學(xué)習(xí)操作系統(tǒng)的一些基本...

什么是代碼段？
什么是數(shù)據(jù)段？
數(shù)據(jù)的類型和長(zhǎng)度
尋址范圍
棧
實(shí)模式和保護(hù)模式
Linux 中的分段策略

飯是一口一口的吃，計(jì)算機(jī)也是一步一步的發(fā)展，例如下面這張英特爾公司的CPU型號(hào)歷史：

為了利用性能越來越強(qiáng)悍的計(jì)算機(jī)，操作系統(tǒng)的也是在逐步變得膨脹和復(fù)雜。

為了從最底層來學(xué)習(xí)操作系統(tǒng)的一些基本原理，我們只有拋開操作系統(tǒng)的外衣，從最原始的硬件和編程方式來入手，才能了解到一些根本的知識(shí)。

這篇文章我們就來繼續(xù)挖掘一下，8086 這個(gè)開天辟地的處理器中，是如何利用段機(jī)制來對(duì)內(nèi)存進(jìn)行尋址的。

什么是代碼段？

在上一篇文章：Linux 從頭學(xué) 01：CPU 是如何執(zhí)行一條指令的？中，已經(jīng)提到過，在處理器的內(nèi)部，執(zhí)行每一條指令碼時(shí)，CPU是非常機(jī)械、非常單純地從 CS:IP 這2個(gè)寄存器計(jì)算得到轉(zhuǎn)換后的物理地址，從這個(gè)物理地址所指向的內(nèi)存地址處，讀取一定長(zhǎng)度的指令，然后交給邏輯運(yùn)算單元(Arithmetic Logic Unit, ALU)去執(zhí)行。

物理地址的計(jì)算方式是：CS * 16 IP。

當(dāng)CPU讀取一條指令后，根據(jù)指令操作碼它能夠自動(dòng)知道這條指令一共需要讀取多少個(gè)字節(jié)。

指令被讀取之后，IP寄存器中的內(nèi)容就會(huì)自增，指向內(nèi)存中下一條指令的地址。

例如，在內(nèi)存20000H開始的地方，存在2條指令：

mov ax, 1122H
mov bx, 3344H
當(dāng)執(zhí)行第一條指令時(shí)，CS = 2000H，IP = 0000H，經(jīng)過地址轉(zhuǎn)換之后的物理地址是：2000H * 16 0000 = 20000H(乘以 16 也就表示十六進(jìn)制的數(shù)左移 1 位)：

當(dāng)?shù)谝粭l指令碼B8 22 11這3個(gè)字節(jié)被讀取之后，IP 寄存器中的內(nèi)容自動(dòng)增加3`，從而指向下一條指令：

當(dāng)?shù)诙l指令碼BB 44 33這3個(gè)字節(jié)被讀取之后，IP寄存器中的內(nèi)容又增加3，變?yōu)?006H。

正如上篇文章所寫，CPU只是反復(fù)的從CS:IP指向的內(nèi)存地址中讀取指令碼、執(zhí)行指令，再讀取指令碼、再執(zhí)行指令。

可以看出，要完成一個(gè)有意義的工作，所有的指令碼必須集中在一起，統(tǒng)一放在內(nèi)存中某個(gè)確定的地址空間中，才能被CPU依次的讀取、執(zhí)行。

內(nèi)存中的這塊地址空間就叫做一個(gè)段，又因?yàn)?span>這個(gè)段中存儲(chǔ)的是代碼編譯得到的指令，因此又稱作代碼段。

因此，用來對(duì)代碼段進(jìn)行尋址的這兩個(gè)寄存器 CS 和 IP，它們的含義就非常清楚了：

CS: 段寄存器，其中的值左移 1 位之后，得到的值就表示代碼段在內(nèi)存中的首地址，或者稱作基地址;

IP: 指令指針寄存器，表示一條指令的地址，距離基地址的偏移量，也就是說，IP 寄存器是用來幫助 CPU 記?。耗男┲噶钜呀?jīng)被處理過了，下一個(gè)要被處理的指令是哪一個(gè);

什么是數(shù)據(jù)段？

作為一個(gè)有意義的程序，僅僅只有指令是不夠的，還必須操作數(shù)據(jù)。

這些數(shù)據(jù)也應(yīng)該集中放在一起，位于內(nèi)存中的某個(gè)地址空間中，這塊地址空間，也是一個(gè)段，稱作數(shù)據(jù)段。

也就是說：代碼段和數(shù)據(jù)段，就是內(nèi)存中的兩個(gè)地址空間，其中分別存儲(chǔ)了指令和數(shù)據(jù)。

可以想象一下：假如指令和數(shù)據(jù)不是分開存放的，而是夾雜放在一起，那么CPU在讀取一條指令時(shí)，肯定就會(huì)把數(shù)據(jù)當(dāng)做指令來讀取、執(zhí)行，就像下面這樣，不發(fā)生錯(cuò)誤才怪呢！

CPU對(duì)內(nèi)存中數(shù)據(jù)段的訪問方式，與訪問代碼段是類似的，也是通過一個(gè)基地址，再加上一個(gè)偏移量來得到數(shù)據(jù)段中的某個(gè)物理地址。

在8086處理其中，數(shù)據(jù)段的段寄存器是DS，也就是說，當(dāng)CPU執(zhí)行一條指令，這條指令需要訪問數(shù)據(jù)段時(shí)，就會(huì)把DS這個(gè)數(shù)據(jù)段寄存器中的值左移 1 位之后得到的地址，當(dāng)做數(shù)據(jù)段的基地址。

遺憾的是，CPU中并沒有提供一個(gè)類似IP寄存器的其他寄存器，來表示數(shù)據(jù)段的偏移地址寄存器。

這其實(shí)并不是壞事，因?yàn)橐粋€(gè)程序在處理數(shù)據(jù)時(shí)，需要對(duì)數(shù)據(jù)進(jìn)行什么樣操作，程序的開發(fā)者是最清楚的，因此我們就可以用更靈活的方式來告訴CPU應(yīng)該如何計(jì)算數(shù)據(jù)的偏移地址。

就像猴子掰苞米一樣，不需要按照順序來掰，想掰哪個(gè)就掰哪個(gè)。同樣的，程序在操作數(shù)據(jù)時(shí)，無論操作哪一個(gè)數(shù)據(jù)，直接給出該數(shù)據(jù)的偏移地址的值就可以了。

數(shù)據(jù)的類型和長(zhǎng)度

但是，在操作數(shù)據(jù)段中每一個(gè)數(shù)據(jù)，有一個(gè)比較重要的概念需要時(shí)刻銘記：數(shù)據(jù)的類型是什么，這個(gè)數(shù)據(jù)在內(nèi)存中占據(jù)的字節(jié)數(shù)是多少。

我們?cè)?span>高級(jí)語言編程中(eg:C語言)，在定義一個(gè)變量的時(shí)候，必須明確這個(gè)變量的類型是什么。一旦類型確定了，那么它在被加載到內(nèi)存中之后，所占據(jù)的空間大小也就確定了。

比如下面這張圖:

假設(shè)30000H是數(shù)據(jù)段的基地址(也就意味著DS寄存器中的內(nèi)容是3000H)，那么30000H地址處的數(shù)據(jù)大小是多少：11H？2211H？還是44332211H？

這幾個(gè)都有可能，因?yàn)?span>沒有確定數(shù)據(jù)的類型！

我們知道，在C語言中，假如有一個(gè)指針ptr最終指向了這里的30000H物理地址處(C代碼中的ptr是虛擬地址，經(jīng)過地址轉(zhuǎn)換之后執(zhí)行這里的30000H物理地址)。

如果ptr定義成：

char *ptr;
那么可以說ptr指針指向的數(shù)值是11H。

如果ptr定義成：

int *ptrt;
就可以說ptr指針指向的數(shù)值就是44332211H(假設(shè)是小端格式)。

也就是說，指針ptr指向的數(shù)據(jù)，取決于定義指針變量時(shí)的類型。

這是高級(jí)語言中的情況，那么在匯編語言中呢？

PS: 之前我曾說過，文章的主要目的是學(xué)習(xí) Linux 操作系統(tǒng)，但是為了學(xué)習(xí)一些相對(duì)底層的內(nèi)容，在開始階段必須拋開操作系統(tǒng)的外衣，進(jìn)入到硬件最近的地方去看。

但是該怎么看呢？還是要借助一些原始的手段和工具，那么匯編代碼無疑就是最好的、也是唯一的手段;

不過，涉及到的匯編代碼都是最簡(jiǎn)單的，僅僅是為了說明原理;

在匯編語言中，CPU是通過指令碼中的相關(guān)寄存器來判斷操作數(shù)據(jù)的長(zhǎng)度。

在上一篇文章中說過，相對(duì)于寄存器來說，CPU操作內(nèi)存的速度是很慢的。

因此，CPU在對(duì)數(shù)據(jù)段中的數(shù)據(jù)進(jìn)行處理的時(shí)候，一般都是先把原始數(shù)據(jù)讀取到通用寄存器中(比如：ax, bx, cx dx)，然后進(jìn)行計(jì)算。

得到計(jì)算結(jié)果之后，再把結(jié)果寫回到內(nèi)存的數(shù)據(jù)段中(如果需要的話)。

那么CPU在讀寫數(shù)據(jù)時(shí)，就根據(jù)指令碼中使用的寄存器，來決定讀寫數(shù)據(jù)的長(zhǎng)度。例如:

mov ax, [0]
其中的 [0] 表示內(nèi)存的數(shù)據(jù)段中偏移地址是0的位置。

CPU在執(zhí)行這條指令的時(shí)候，就會(huì)到30000H(假設(shè)此時(shí)數(shù)據(jù)段寄存器DS的值為3000H) 這個(gè)物理地址處，取出2個(gè)字節(jié)的數(shù)據(jù)，放到通用寄存器ax中，此時(shí)ax寄存器中的值就是2211H。

為什么取出2個(gè)字節(jié)？因?yàn)閍x寄存器的長(zhǎng)度是16位，就是2個(gè)字節(jié)。

那如果只想取1個(gè)字節(jié)，該怎么辦？

16位的通用寄存器ax可以拆成2個(gè)8位的寄存器里使用：ah和al。

mov al, [0]
因?yàn)橹噶畲a中的al寄存器是8位，因此CPU就只讀取30000H處的一個(gè)字節(jié)11，放到al寄存器中。(此時(shí)ax寄存器的高8位，也就是ah中的值保持不變)

那如果想取3個(gè)字節(jié)或4個(gè)字節(jié)怎么辦？

作為相當(dāng)古老的處理器，8086CPU 中是16位的，只能對(duì)8位或16位的數(shù)據(jù)進(jìn)行操作。

尋址范圍

從以上內(nèi)容可以總結(jié)得出：

代碼段和數(shù)據(jù)段都是通過【基地址偏移地址】的方式進(jìn)行尋址;

基地址都放在各自的段寄存器中，CPU 會(huì)自動(dòng)把段寄存器的值，左移 1 位之后，作為段的基地址;

偏移地址決定了段中的每一個(gè)具體的地址，最大偏移地址是 16 個(gè) bit1，也即是 64KB 的空間;

注意：這里的段寄存器左移1位，是指十六進(jìn)制的左移，相當(dāng)于是乘以 16，因此段的基地址都是16的倍數(shù)。

我們?cè)賮砜匆幌逻@里的64 KB空間，與20根地址線有什么瓜葛。

上篇文章說到：8086處理器有20根地址線，一共可以表示1MB的內(nèi)存空間，即使給它更大的空間，它也沒有福氣去享受，因?yàn)閷ぶ凡坏酱笥? MB的地址空間??！

這1MB的內(nèi)存空間，就可以分割為很多個(gè)段。

例如：第1個(gè)段的地址范圍是：

我們來計(jì)算最后一個(gè)段的空間。

段寄存器和偏移地址都取最大值，就是 FFFF:FFFF，先偏移再相加：FFFF0 FFFF = 10FFEF =1M 64K - 16Bytes。

超過了1 MB的空間大小，但是畢竟只有20根地址線，肯定是無法尋址超過1 MB地址空間的，因此系統(tǒng)會(huì)采取回繞的方式來定位到一個(gè)地址空間，類似與數(shù)學(xué)中的取模操作。

此外還有一點(diǎn)，在表示一個(gè)內(nèi)存地址的時(shí)候，一般不會(huì)直接給出物理地址的值(比如：3000A)，而是使用段地址:偏移地址這樣的形式來表示(比如：3000:000A)。

棧

棧也是數(shù)據(jù)空間的一種，只不過它的操作方式有些特殊而已。

棧的操作方式就是4個(gè)字：后進(jìn)先出。

在上面介紹數(shù)據(jù)段的時(shí)候，我們都是在指令碼中手動(dòng)對(duì)數(shù)據(jù)的偏移地址進(jìn)行設(shè)置，指哪打哪，因?yàn)檫@些數(shù)據(jù)放在什么位置、表示什么意思、怎么來使用，開發(fā)者自己心里最門清。

但是棧有些不一樣，雖然它的功能也是用來存儲(chǔ)數(shù)據(jù)的，但是操作棧的方式，是由處理器提供的一些專門的指令來操作的：push和pop。

push(入棧): 往?？臻g中放入一個(gè)數(shù)據(jù);
pop(出棧): 從棧空間中彈出一個(gè)數(shù)據(jù);

注意：這里的數(shù)據(jù)是固定 2 個(gè)字節(jié)，也就是一個(gè)字。

寫過C/C程序的小伙伴都知道：在函數(shù)調(diào)用的時(shí)候，存在入棧操作；在函數(shù)返回的時(shí)候，存在出棧操作。

既然棧也是指一塊內(nèi)存空間，那么也就是表現(xiàn)為內(nèi)存中的一個(gè)段。

既然是一個(gè)段，那肯定就存在一個(gè)段寄存器，用來代表它的基地址，這個(gè)棧的段寄存器就是SS。

此外，由于棧在入棧和出棧的時(shí)候，是按照連續(xù)的地址順序操作的，因此處理器為棧也提供了一個(gè)偏移地址寄存器：SP(稱作：棧頂指針)，指向棧空間中最頂上的那個(gè)元素的位置。

例如下面這張圖：

棧空間的基地址是1000:0000，SS:SP執(zhí)行的地址空間是棧頂，此時(shí)棧頂中的元素是44。

當(dāng)執(zhí)行下面這2條指令時(shí)：

mov ax, 1234H
push as
棧頂指針寄存器SP中的值首先減 2，變成000A：

然后，再把寄存器ax中的值1234H放入SS:SP指向的內(nèi)存單元處：

出棧的操作順序是相反的：

pop bx
首先把SS:SP指向的內(nèi)存單元中的數(shù)據(jù)1234H放入寄存器bx中，然后把棧頂指針寄存器SP中的值加 2，變成000C：

以上描述的是 8086 處理器中對(duì)棧操作的執(zhí)行過程。

如果你看過其他一些棧相關(guān)的描述書籍，可以看出這里使用的是 “滿遞減” 的棧操作方式，另外還還有：滿遞增，空遞減，空遞增這幾種操作方式。

滿：是指棧頂指針指向的那個(gè)空間中，是一個(gè)有效的數(shù)據(jù)。當(dāng)一個(gè)新數(shù)據(jù)入棧時(shí)，棧頂指針先指向下一個(gè)空的位置，然后把數(shù)據(jù)放入這個(gè)位置;

空：是指棧頂指針指向的那個(gè)空間中，是一個(gè)無效的數(shù)據(jù)。當(dāng)一個(gè)新數(shù)據(jù)入棧時(shí)，先把數(shù)據(jù)放入這個(gè)位置，然后棧頂指針指向下一個(gè)空的位置;

遞增：是指在數(shù)據(jù)入棧時(shí)，棧頂指針向高地址方向增長(zhǎng);

遞減：是指在數(shù)據(jù)入棧時(shí)，棧頂指針向低地址方向遞減;

實(shí)模式和保護(hù)模式

從以上對(duì)內(nèi)存的尋址方式中可以看出：只要在可尋址的范圍內(nèi)，我們寫的程序是可以對(duì)內(nèi)存中任意一個(gè)位置的數(shù)據(jù)進(jìn)行操作的。

這樣的尋址方式，稱之為實(shí)模式。實(shí)，就是實(shí)在、實(shí)際的意思，簡(jiǎn)潔、直接，沒有什么彎彎繞。

既然編寫代碼的是人，就一定會(huì)犯一些低級(jí)的小錯(cuò)誤。或者一些惡意的家伙，故意去操作那些不應(yīng)該、不可以被操作的內(nèi)存空間中的代碼或數(shù)據(jù)。

為了對(duì)內(nèi)存進(jìn)行有效的保護(hù)，從80386開始，引入了保護(hù)模式來對(duì)內(nèi)存進(jìn)行尋址。

有些書籍中會(huì)提到 IA-32A 這個(gè)概念，IA-32 是英特爾 Architecture 32-bit簡(jiǎn)稱，即英特爾32位體系架構(gòu)，也是在386中首先采用。

雖然引進(jìn)了保護(hù)模式，但是也存在實(shí)模式，即向前兼容。電腦開機(jī)后處于實(shí)模式，BIOS 加載主引導(dǎo)記錄以及進(jìn)行一些寄存器的設(shè)置之后就進(jìn)入保護(hù)模式。

從386以后引入的保護(hù)模式下，地址線變成了32根，最大尋址空間可以達(dá)到4GB。

當(dāng)然，處理器中的寄存器也變成了32位。

我們還是用段基址偏移量的方式來計(jì)算一個(gè)物理地址，假設(shè)段寄存器中內(nèi)容為0，偏移地址最大長(zhǎng)度也是32位，那么一個(gè)段能表示的最大空間也就是4GB。

這也是為什么如今現(xiàn)代處理器中，每個(gè)進(jìn)程的最大可尋址空間是4GB(一般指的是虛擬地址)。

一句話總結(jié)：實(shí)模式和保護(hù)模式最根本的區(qū)別就是內(nèi)存是否收到保護(hù)。

Linux 中的分段策略

上面描述的分段機(jī)制是 x86 處理器中所提供的一種內(nèi)存尋址機(jī)制，這僅僅是一種機(jī)制而已。

在x86處理器之上，運(yùn)行著Windows、Linux獲取其它操作系統(tǒng)。

我們開發(fā)者是面對(duì)操作系統(tǒng)來編程的，寫出來的程序是被操作系統(tǒng)接管，并不是直接被x86處理器來接管。

相當(dāng)于操作系統(tǒng)把應(yīng)用程序和x86處理器之間進(jìn)行了一層隔離:

因此，如何利用x86提供的分段機(jī)制是操作系統(tǒng)需要操心的問題。

而操作系統(tǒng)提供什么樣的策略給應(yīng)用程序來使用，這就是另外一個(gè)問題了。

那么，Linux操作系統(tǒng)是如何來包裝、使用x86提供的段尋址方式的呢？

是否還記得上一篇文章中的這張圖：

這是Linux2.6版本中四個(gè)主要的段描述符，這里先不用管段描述符是什么，它們最終都是用來描述內(nèi)存中的一塊空間而已。

在現(xiàn)代操作系統(tǒng)中，分段和分頁都是對(duì)內(nèi)存的劃分和管理方式，在功能上是有點(diǎn)重復(fù)的。

Linux以非常有限的方式使用分段，更喜歡使用分頁方式。

上面的這張圖，一共定義了4個(gè)段，每一個(gè)段的基地址都是0x00000000，每一個(gè)段的Limit都是0xFFFFF。

從Limit的值可以得到：最大值是 2 的 20 次方，只有1 MB的空間。

但是其中的G字段表示了段的粒度，1表示粒度是4 K，因此 1 MB * 4K = 4 GB ，也就是說，段的最大空間是4 GB。

這4個(gè)段的基地址和尋址范圍都是一樣的！主要的區(qū)別就是Type和DPL字段不同。

DPL表示優(yōu)先級(jí)，2個(gè)用戶段(代碼段和數(shù)據(jù)段) 的優(yōu)先級(jí)值是3，優(yōu)先級(jí)最低（值越大，優(yōu)先級(jí)越低）；2個(gè)內(nèi)核段(代碼段和數(shù)據(jù)段)的優(yōu)先級(jí)值是0，優(yōu)先級(jí)最高。

因此，可以得出Linux系統(tǒng)中的一個(gè)重要結(jié)論：邏輯地址與線性地址，在數(shù)值上是相等的，因?yàn)榛刂肥?0x00000000。

關(guān)于Linux中的內(nèi)存分段和分頁尋址方式更詳細(xì)的內(nèi)容，我們以后再慢慢聊。

------ End ------