深入理解C語言及未定義那些事兒

時(shí)間：2019-07-09 10:46:01

關(guān)鍵字： C語言

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]Dennis Ritchie ?過世了，他發(fā)明了C語言，一個(gè)影響深遠(yuǎn)并徹底改變世界的計(jì)算機(jī)語言。一門經(jīng)歷40多年的到今天還長(zhǎng)盛不衰的語言，今天很多語言都受到C的影響，C++，Java，C#，Perl，

Dennis Ritchie ?過世了，他發(fā)明了C語言，一個(gè)影響深遠(yuǎn)并徹底改變世界的計(jì)算機(jī)語言。一門經(jīng)歷40多年的到今天還長(zhǎng)盛不衰的語言，今天很多語言都受到C的影響，C++，Java，C#，Perl， PHP， Javascript，等等。但是，你對(duì)C了解嗎？相信你看過本站的《C語言的謎題》還有《誰說C語言很簡(jiǎn)單？》，這里，我再寫一篇關(guān)于深入理解C語言的文章，一方面是緬懷Dennis，另一方面是告訴大家應(yīng)該如何學(xué)好一門語言。（順便注明一下，下面的一些例子來源于這個(gè)slides）

首先，我們先來看下面這個(gè)經(jīng)典的代碼：

1 2 3 4 5int main(){????inta = 42;????printf(“%dn”, a);}

從這段代碼里你看到了什么問題？我們都知道，這段程序里少了一個(gè)#include

不過，讓我們來深入的學(xué)習(xí)一下，

這段代碼在C++下無法編譯，因?yàn)镃++需要明確聲明函數(shù)這段代碼在C的編譯器下會(huì)編譯通過，因?yàn)樵诰幾g期，編譯器會(huì)生成一個(gè)printf的函數(shù)定義，并生成.o文件，鏈接時(shí)，會(huì)找到標(biāo)準(zhǔn)的鏈接庫，所以能編譯通過。?但是，你知道這段程序的退出碼嗎？在ANSI-C下，退出碼是一些未定義的垃圾數(shù)。但在C89下，退出碼是3，因?yàn)槠淙×藀rintf的返回值。為什么printf函數(shù)返回3呢？因?yàn)槠漭敵隽恕?′, ’2′,’n’ 三個(gè)字符。而在C99下，其會(huì)返回0，也就是成功地運(yùn)行了這段程序。你可以使用gcc的 -std=c89或是-std=c99來編譯上面的程序看結(jié)果。另外，我們還要注意main()，在C標(biāo)準(zhǔn)下，如果一個(gè)函數(shù)不要參數(shù)，應(yīng)該聲明成main(void)，而main()其實(shí)相當(dāng)于main(…)，也就是說其可以有任意多的參數(shù)。

我們?cè)賮砜匆欢未a：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17#includevoid f(void){???staticint a = 3;???staticint b;???intc;???++a; ++b; ++c;???printf("a=%dn", a);???printf("b=%dn", b);???printf("c=%dn", c);}int main(void){???f();???f();???f();}

這個(gè)程序會(huì)輸出什么？

我相信你對(duì)a的輸出相當(dāng)有把握，就分別是4，5，6，因?yàn)槟莻€(gè)靜態(tài)變量。對(duì)于c呢，你應(yīng)該也比較肯定，那是一堆亂數(shù)。但是你可能不知道b的輸出會(huì)是什么？答案是1，2，3。為什么和c不一樣呢？因?yàn)椋绻跏蓟?，每次調(diào)用函數(shù)里，編譯器都要初始化函數(shù)棧空間，這太費(fèi)性能了。但是c的編譯器會(huì)初始化靜態(tài)變量為0，因?yàn)檫@只是在啟動(dòng)程序時(shí)的動(dòng)作。全局變量同樣會(huì)被初始化。

說到全局變量，你知道靜態(tài)全局變量和一般全局變量的差別嗎？是的，對(duì)于static 的全局變量，其對(duì)鏈接器不可以見，也就是說，這個(gè)變量只能在當(dāng)前文件中使用。

我們?cè)賮砜匆粋€(gè)例子：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15#includevoid foo(void){????inta;????printf("%dn", a);}void bar(void){????inta = 42;}int main(void){????bar();????foo();}

你知道這段代碼會(huì)輸出什么嗎？A) 一個(gè)隨機(jī)值，B) 42。A 和 B都對(duì)（在“在函數(shù)外存取局部變量的一個(gè)比喻”文中的最后給過這個(gè)例子），不過，你知道為什么嗎？

如果你使用一般的編譯，會(huì)輸出42，因?yàn)槲覀兊木幾g器優(yōu)化了函數(shù)的調(diào)用棧（重用了之前的棧），為的是更快，這沒有什么副作用。反正你不初始化，他就是隨機(jī)值，既然是隨機(jī)值，什么都無所謂。但是，如果你的編譯打開了代碼優(yōu)化的開關(guān)，-O，這意味著，foo()函數(shù)的代碼會(huì)被優(yōu)化成main()里的一個(gè)inline函數(shù)，也就是說沒有函數(shù)調(diào)用，就像宏定義一樣。于是你會(huì)看到一個(gè)隨機(jī)的垃圾數(shù)。

下面，我們?cè)賮砜匆粋€(gè)示例：

1 2 3 4 5 6 7 8#includeint b(void) { printf(“3”); return 3; }int c(void) { printf(“4”); return 4; }int main(void){???inta = b() + c();???printf(“%dn”, a);}

這段程序會(huì)輸出什么？，你會(huì)說是，3，4，7。但是我想告訴你，這也有可能輸出，4，3，7。為什么呢？這是因?yàn)?，在C/C++中，表達(dá)的評(píng)估次序是沒有標(biāo)準(zhǔn)定義的。編譯器可以正著來，也可以反著來，所以，不同的編譯器會(huì)有不同的輸出。你知道這個(gè)特性以后，你就知道這樣的程序是沒有可移植性的。

我們?cè)賮砜纯聪旅娴倪@堆代碼，他們分別輸出什么呢？

1inta=41; a++; printf("%dn", a);1inta=41; a++ & printf("%dn", a);1inta=41; a++ && printf("%dn", a);1inta=41; if(a++ < 42)printf("%dn", a);1inta=41; a = a++; printf("%dn", a);

只有示例一，示例三，示例四輸出42，而示例二和五的行為則是未定義的。關(guān)于這種未定義的東西是因?yàn)镾equence Points的影響（Sequence Points是一種規(guī)則，也就是程序執(zhí)行的序列點(diǎn)，在兩點(diǎn)之間的表達(dá)式只能對(duì)變量有一次修改），因?yàn)檫@會(huì)讓編譯器不知道在一個(gè)表達(dá)式順列上如何存取變量的值。比如a = a++，a + a++，不過，在C中，這樣的情況很少。

下面，再看一段代碼：（假設(shè)int為4字節(jié)，char為1字節(jié)）

1 2 3 4structX { inta; charb; intc; };printf("%d,",sizeof(structX));structY { inta; charb; intc; chard};printf("%dn",sizeof(structY));

這個(gè)代碼會(huì)輸出什么?

a) 9，10
b)12, 12
c)12, 16

答案是C，我想，你一定知道字節(jié)對(duì)齊，是向4的倍數(shù)對(duì)齊。

但是，你知道為什么要字節(jié)對(duì)齊嗎？還是因?yàn)樾阅?。因?yàn)檫@些東西都在內(nèi)存里，如果不對(duì)齊的話，我們的編譯器就要向內(nèi)存一個(gè)字節(jié)一個(gè)字節(jié)的取，這樣一來，struct X，就需要取9次，太浪費(fèi)性能了，而如果我一次取4個(gè)字節(jié)，那么我三次就搞定了。所以，這是為了性能的原因。但是，為什么struct Y不向12 對(duì)齊，卻要向16對(duì)齊，因?yàn)閏har d; 被加在了最后，當(dāng)編譯器計(jì)算一個(gè)結(jié)構(gòu)體的尺寸時(shí)，是邊計(jì)算，邊對(duì)齊的。也就是說，編譯器先看到了int，很好，4字節(jié)，然后是 char，一個(gè)字節(jié)，而后面的int又不能填上還剩的3個(gè)字節(jié)，不爽，把char b對(duì)齊成4，于是計(jì)算到d時(shí)，就是13 個(gè)字節(jié)，于是就是16啦。但是如果換一下d和c的聲明位置，就是12了。

另外，再提一下，上述程序的printf中的%d并不好，因?yàn)椋?4位下，sizeof的size_t是unsigned long，而32位下是 unsigned int，所以，C99引入了一個(gè)專門給size_t用的%zu。這點(diǎn)需要注意。在64位平臺(tái)下，C/C++ 的編譯需要注意很多事。你可以參看《64位平臺(tái)C/C++開發(fā)注意事項(xiàng)》。

下面，我們?cè)僬f說編譯器的Warning，請(qǐng)看代碼：

1 2 3 4 5 6#includeintmain(void){????inta;????printf("%dn", a);}

考慮下面兩種編譯代碼的方式：

cc -Wall a.ccc -Wall -O a.c

前一種是不會(huì)編譯出a未初化的警告信息的，而只有在-O的情況下，才會(huì)有未初始化的警告信息。這點(diǎn)就是為什么我們?cè)趍akefile里的CFLAGS上總是需要-Wall和 -O。

最后，我們?cè)賮砜匆粋€(gè)指針問題，你看下面的代碼：

1 2 3 4 5 6 7 8 9#includeintmain(void){????inta[5];????printf("%xn", a);????printf("%xn", a+1);????printf("%xn", &a);????printf("%xn", &a+1);}

假如我們的a的地址是：0Xbfe2e100, 而且是32位機(jī)，那么這個(gè)程序會(huì)輸出什么？

第一條printf語句應(yīng)該沒有問題，就是 bfe2e100第二條printf語句你可能會(huì)以為是bfe2e101。那就錯(cuò)了，a+1，編譯器會(huì)編譯成 a+ 1*sizeof(int)，int在32位下是4字節(jié)，所以是加4，也就是bfe2e104第三條printf語句可能是你最頭疼的，我們?cè)趺粗繿的地址？我不知道嗎？可不就是bfe2e100。那豈不成了a==&a啦？這怎么可能？自己存自己的？也許很多人會(huì)覺得指針和數(shù)組是一回事，那么你就錯(cuò)了。如果是 int *a，那么沒有問題，因?yàn)閍是指針，所以 &a 是指針的地址，a 和 &a不一樣。但是這是數(shù)組啊a[]，所以&a其實(shí)是被編譯成了 &a[0]。第四條printf語句就很自然了，就是bfe2e104。還是不對(duì)，因?yàn)槭?amp;a是數(shù)組，被看成int(*)[5]，所以sizeof(a)是5，也就是5*sizeof(int)，也就是bfe2e114。

看過這么多，你可能會(huì)覺得C語言設(shè)計(jì)得真扯淡啊。不過我要告訴下面幾點(diǎn)Dennis當(dāng)初設(shè)計(jì)C語言的初衷：

1）相信程序員，不阻止程序員做他們想做的事。

2）保持語言的簡(jiǎn)潔，以及概念上的簡(jiǎn)單。

3）保證性能，就算犧牲移植性。

今天很多語言進(jìn)化得很高級(jí)了，語法也越來越復(fù)雜和強(qiáng)大，但是C語言依然光芒四射，Dennis離世了，但是C語言的這些設(shè)計(jì)思路將永遠(yuǎn)不朽。

（請(qǐng)勿用于商業(yè)用途，轉(zhuǎn)載時(shí)請(qǐng)注明作者和出處）