關(guān)系型數(shù)據(jù)庫設(shè)計要領(lǐng)(值得收藏)
[導(dǎo)讀]摘要本文討論關(guān)系數(shù)據(jù)庫設(shè)計相關(guān)的一些內(nèi)容,涉及關(guān)系模型,表結(jié)構(gòu)設(shè)計等內(nèi)容,以學(xué)生選修課程講述設(shè)計過程,在盡量講清楚設(shè)計要領(lǐng)的前提下,簡化設(shè)計內(nèi)容。本文基于MySQL數(shù)據(jù)庫為基礎(chǔ),適合有一定關(guān)系型數(shù)據(jù)庫基礎(chǔ)的人閱讀。實體-關(guān)系模型(E-R)首先搞清楚什么是E-R數(shù)據(jù)模型?它有什么用...
摘要
本文討論關(guān)系數(shù)據(jù)庫設(shè)計相關(guān)的一些內(nèi)容,涉及關(guān)系模型,表結(jié)構(gòu)設(shè)計等內(nèi)容,以學(xué)生選修課程講述設(shè)計過程,在盡量講清楚設(shè)計要領(lǐng)的前提下,簡化設(shè)計內(nèi)容。本文基于MySQL數(shù)據(jù)庫為基礎(chǔ),適合有一定關(guān)系型數(shù)據(jù)庫基礎(chǔ)的人閱讀。實體-關(guān)系模型(E-R)
首先搞清楚什么是E-R數(shù)據(jù)模型?它有什么用?E-R模型在將現(xiàn)實世界中事實的含義和相互關(guān)聯(lián)映射到概念模式方面非常有用,因此,許多數(shù)據(jù)庫設(shè)計工具都利用了E-R模型的概念。E-R模型所采用的三個主要概念是:實體集、關(guān)系集和屬性。實體:實體是世界中可以區(qū)別于其他對象的“事件”或者“物體”,例如,學(xué)校里的每個學(xué)生、學(xué)生選修的每門課程等都是一個實體。屬性:屬性是實體集中每個成員具有的描述性性質(zhì)。例如,學(xué)生的姓名,學(xué)號等。實體集:實體集就是就有相同類型及屬性的實體集合,比如,學(xué)校里的所有學(xué)生,學(xué)生選修的所有課程等。關(guān)系:關(guān)系是多個實體間的相互關(guān)聯(lián)。例如,小明選修語文課程。關(guān)系集:關(guān)系集是同類關(guān)系的集合。例如,所用學(xué)生選修課程的集合。

關(guān)系表設(shè)計
從上面的E-R圖,我們一眼就能看出他們之間的聯(lián)系,那該如何設(shè)計關(guān)系模式呢?我們要知道,關(guān)系數(shù)據(jù)庫設(shè)計的目的是為了生成一組關(guān)系模式,使我們能夠既不必存儲不必要的冗余信息,又能方便地獲取信息。為了是我們方便的達到這個目的,范式設(shè)計應(yīng)運而生。Boyce-Codd范式
我們所知道的令人滿意的范式之一是Boyce-Codd范式(BCNF)。如果對F 中所有形如 α→β 的函數(shù)依賴,其中 α?R 且 β?R,下面的定義至少有一個成立:- α→β 是平凡函數(shù)依賴(即 β ? α)。(一般來說,平凡函數(shù)依賴并沒有討論意義,討論的都是非平凡函數(shù)依賴,即 β ?? α 的情況)
- α 是模式R的超碼。
- 學(xué)生 = (學(xué)號,姓名,年齡,性別)
- 課程 = (課程號,課程名,學(xué)分)
- 選修 = (學(xué)號,課程號,成績)
- banker-name → branch-name
- branch-name customer-name → banker-name
第三范式
當(dāng)我們不能同時滿足以下三個設(shè)計目標(biāo):- BCNF。
- 無損連接。
- 保持函數(shù)依賴。
- α→β 是平凡函數(shù)依賴(即 β ? α)。
- α 是模式R的超碼。
- β - α 中的每個屬性 A 都包含在R的候選碼中。
每個BCNF都屬于3NF,因為BCNF的約束比3NF更嚴(yán)格。
存儲引擎的選擇
關(guān)系模式一但確定,基本的數(shù)據(jù)庫表結(jié)構(gòu)就確定了,接下來就是表結(jié)構(gòu)的詳細設(shè)計了,這里先從存儲引擎開始,MySQL提供的各種存儲引擎都是根據(jù)不同的用例設(shè)計的。下表概述了MySQL提供的一些存儲引擎。
- MyISAM:MySQL 5.5.5以前,MyISAM作為MySQL的默認存儲引擎。
- InnoDB:MySQL 5.5.5以后,InnoDB作為MySQL的默認存儲引擎。
何如選擇?
選擇標(biāo)準(zhǔn): 根據(jù)應(yīng)用特點選擇合適的存儲引擎,對于復(fù)雜的應(yīng)用系統(tǒng)可以根據(jù)實際情況選擇多種存儲引擎進行組合。但是要知道組合使用的缺點:- InnoDB和非InnoDB存儲引擎的組合對比,僅使用InnoDB存儲引擎可以簡化備份和恢復(fù)操作。MySQL Enterprise Backup對使用InnoDB存儲引擎的所有表進行熱備份。對于使用MyISAM或其他非InnoDB存儲引擎的表,它會執(zhí)行“熱”備份,數(shù)據(jù)庫會繼續(xù)運行,但這些表在備份時不能修改。
- InnoDB:事務(wù)型業(yè)務(wù)場景首選。
- MyISAM:非事務(wù)型的大多數(shù)業(yè)務(wù)場景。
- Memory:數(shù)據(jù)保存到內(nèi)存中,能提供極速的訪問速度。(個人覺得可以使用Redis等NoSQL數(shù)據(jù)庫代替)
字符集選擇
存儲引擎之后就是確定字符集,字符集的選擇十分重要,不管是MySQL還是Oracle,如果在數(shù)據(jù)庫創(chuàng)建階段沒有正確選擇字符集,那么在后期需要更換字符集的時候?qū)⒁冻龈甙旱拇鷥r。如何選擇?
建議在能夠完全滿足應(yīng)用當(dāng)下和未來幾年發(fā)展的前提下,盡量使用小的字符集。應(yīng)為更小的字符集意味著能夠節(jié)省空間、減少網(wǎng)絡(luò)傳輸字節(jié)數(shù),同時由于存儲空間小間接的提升了系統(tǒng)的性能。不同的數(shù)據(jù)庫有不同的字符集應(yīng)用級別,分別為服務(wù)器級別、庫級別、表級別、字段級別,通常推薦使用庫級別或者表級別。因為庫級別或者表級別在保有靈活性的同時,兼顧數(shù)據(jù)間字符集的統(tǒng)一,這可以給開發(fā)省去很多處理字符集的麻煩。數(shù)據(jù)類型的選擇
選擇原則
前提:使用合適的存儲引擎。選擇原則:為了獲得最佳的存儲,您應(yīng)該在所有情況下嘗試使用最精確的類型。固定長度和可變長度
char 與 varchar下面這個例子說明二者的區(qū)別:
mysql>?CREATE?TABLE?vc?(v?VARCHAR(4),?c?CHAR(4));
Query?OK,?0?rows?affected?(0.01?sec)
mysql>?INSERT?INTO?vc?VALUES?('ab??',?'ab??');
Query?OK,?1?row?affected?(0.00?sec)
mysql>?SELECT?CONCAT('(',?v,?')'),?CONCAT('(',?c,?')')?FROM?vc;
--------------------- ---------------------
|?CONCAT('(',?v,?')')?|?CONCAT('(',?c,?')')?|
--------------------- ---------------------
|?(ab??)??????????????|?(ab)????????????????|
--------------------- ---------------------
1?row?in?set?(0.06?sec)
對于InnoDB數(shù)據(jù)表,內(nèi)部的行格式?jīng)]有區(qū)分固定長度和可變長度列,所有數(shù)據(jù)化行都使用指向數(shù)據(jù)列值的頭指針,因此在本質(zhì)上,使用固定長度的CHAR列不一定比使用可變長度的VARCHAR列要好。因為,主要的性能因數(shù)是數(shù)據(jù)行使用的存儲總量。對于占用空間來說,CHAR總是大于等于VARCHAR,所以,使用VARCHAR來最小化行數(shù)據(jù)的存儲總量,進而減少磁盤I/O頻率。另外,歡迎關(guān)注公眾號Java筆記蝦,后臺回復(fù)“后端面試”,送你一份面試題寶典!text 和 blob在使用text或者blob類型的字段是需要注意一下幾點,以便獲得更好的性能:- 執(zhí)行大量的刪除和更新操作后,會留下很”空洞“,需要定期optimize table進行碎片整理;
- 避免查詢大型的text和blob。查詢大型的text和blob會使一頁能裝下的數(shù)據(jù)量減少,增加磁盤I/O壓力。
- 把text和blob分離到單獨的表中。這會把原來表中的數(shù)據(jù)列轉(zhuǎn)變?yōu)楦痰墓潭ㄩL度的數(shù)據(jù)行格式,這個十分有用。
浮點數(shù)和定點數(shù)
在MySQL中float、double是浮點數(shù),decimal是定點數(shù)。浮點數(shù)優(yōu)勢:在長度一定的情況下,浮點數(shù)能表示更大的數(shù)據(jù)范圍。浮點數(shù)缺點:精度問題。友情提醒:在有關(guān)金錢交易方面浮點數(shù)慎用!?。?/p>
整數(shù)
MySQL支持SQL標(biāo)準(zhǔn)整數(shù)類型INTEGER(或INT)和SMALLINT。作為標(biāo)準(zhǔn)的擴展,MySQL還支持整數(shù)類型TINYINT、MEDIUMINT和BIGINT。下表顯示了每個整數(shù)類型所需的存儲空間和范圍。
索引設(shè)計
設(shè)計原則
- 搜索的索引列,不一定是所要選擇的列。最適合索引的列是出現(xiàn)在 WHERE 子 句中的列,或連接子句中指定的列,而不是出現(xiàn)在 SELECT 關(guān)鍵字后的選擇列表中的列。
- 使用惟一索引。對于惟一值的列,索引的效果最好,而具有多個 重復(fù)值的列,其索引效果最差。
- 使用短索引。如果對字符串列進行索引,應(yīng)該指定一個前綴長度 。例如,如果有一個 CHAR(200) 列,如果在前 10 個或 20 個字符內(nèi),多數(shù)值是惟一的, 那么就不要對整個列進行索引。
- 利用最左前綴。每個額外的索 引都要占用額外的磁盤空間,并降低寫操作的性能。
- 不要過度索引。
- 考慮在列上進行的比較類型。如果是在列上做函數(shù)運算,對其進行索引將毫無意義。
示例
針對上面提到的學(xué)生選課E-R圖,給出設(shè)計結(jié)果和說明:表1-1 學(xué)生信息表(Student)


- Student中姓名的長度是40,這里把外國人也考慮進來了;
- Student中性別定義成枚舉,主要是枚舉意義簡明;
- Student中沒有存年齡,而存儲的出生日期,是因為年齡并不是一成不變的,并且能夠通過出生日期正確計算。
- SC中成績使用的是double而不采用decimal,主要是因為成績并不需要那么高的精確度。
- SC中(sno,cno)作為聯(lián)合主鍵而不是獨立主鍵,由于現(xiàn)階段markdown無法合拼行,所以無法編輯。
參考
- (美)Abraham Silberschatz等.數(shù)據(jù)庫系統(tǒng)概念.北京:機械工業(yè)出版社,2012
- MySQL 5.7 Reference Manual
- [eimhe.com]網(wǎng)易技術(shù)部的MySQL中文資料.





