日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 嵌入式 > Linux閱碼場
[導(dǎo)讀]Linux5.14于14小時之前發(fā)布了,而我5.13的總結(jié)還沒有寫出,我早覺得有寫一點東西的必要了,這雖然于搬磚的碼農(nóng)毫不相干,但在追求進步的工程師那里,卻大抵只能如此而已。為了不忘卻的紀念,我們列出5.13內(nèi)核的數(shù)個激動人心的新特性:AppleM1的初始MisccgroupLa...

Linux 5.14于14小時之前發(fā)布了,而我5.13的總結(jié)還沒有寫出,我早覺得有寫一點東西的必要了,這雖然于搬磚的碼農(nóng)毫不相干,但在追求進步的工程師那里,卻大抵只能如此而已。為了不忘卻的紀念,我們列出5.13內(nèi)核數(shù)個激動人心的新特性:

  1. Apple M1的初始

  2. Misc cgroup

  3. Landlock安全模塊

  4. 系統(tǒng)調(diào)用的堆棧隨機化

  5. printk無鎖ringbuffer的進一步優(yōu)化

  6. BPF可調(diào)用內(nèi)核函數(shù)

  7. 公共的IO PAGE Fault支持


Apple M1的初始支持


5.13最爆炸性的新聞無非是初始的Apple M1支持,但是然并卵,實用性幾乎為0。因為,已經(jīng)合入的patch非常類似于SoC bringup的初級階段:

  • 帶earlycon支持的UART (samsung-style) 串口驅(qū)動

  • Apple中斷控制器,支持中斷、中斷親和(affinity )和IPI (跨CPU中斷)

  • SMP (通過標準spin-table來支持)

  • 基于simplefb的framebuffer驅(qū)動

  • Mac Mini的設(shè)備樹

這樣一個東西,是沒法用的,發(fā)燒友玩玩可以,但是我們感激并欣賞Hector Martin “marcan”領(lǐng)導(dǎo)的Asahi Linux項目開了一個這樣的好頭。但是,在Apple M1上面跑Ubuntu啥的,近期、中期和長期的選擇還是用Parallels虛擬化技術(shù)比較好。


Misc cgroup

眾所周知,cgroup具備一個強大的控制CPU、內(nèi)存、I/O等資源在不同的任務(wù)群間進行分配的能力。比如,你通過下面的命令,限制A這個群的CFS調(diào)度類進程,最多只能耗費20%CPU

這個世界上的絕大多數(shù)資源都是可以進行抽象的,比如屬于cpuacct、cpu、memory、blkio、net_cls什么的,但是,總有一些不同于常人的人,他們既不是男人,也不是女人,而是“妖如果有了仁慈的心”的人。Linux內(nèi)核的驅(qū)動子系統(tǒng)多達100多個,但是還是有極個別驅(qū)動不屬于這100多類中的任何一類,于是在drivers下面有個misc

現(xiàn)在內(nèi)核碰到了類似的問題,它的資源要進行配額控制,但是不屬于通用的類型,而是:

  • Secure?Encrypted Virtualization (SEV) ASIDs

  • SEV - Encrypted State (SEV-ES)?ASIDs

這些有限的?ASIDs用于在AMD平臺上,進行虛擬機內(nèi)存加密,不能歸于現(xiàn)有cgroup的任何一類。那么,咱們加個misc類的cgroup吧,于是Misc?control-group controller5.13內(nèi)核誕生了。這再次證明了,不要重新造輪子,但是你可以在現(xiàn)有的輪子里面放一個“雜交”輪子。Misc cgroup允許進行一些特殊資源的控制,透過3個接口完成。

  • misc.capacity描述資源的能力(只讀),比如:

$ cat misc.capacityres_a 50res_b 10
  • 透過misc.current描述當前資源的占用(只讀),比如:

$ cat misc.currentres_a 3res_b 0
  • 透過misc.max設(shè)置這個cgroup最多只能使用多少資源(可讀可寫),比如:

# echo res_a 1 > misc.max同志們,有了這個misc cgroup的支持,以后咱們的阿貓阿狗資源限制,也可以往里面塞了。它相當于開了一道門。

?

Landlock安全模塊

曾經(jīng)有一個真誠的patch擺在我面前,但是我沒有珍惜,發(fā)了V1被人懟了后就放棄了,等到失去的時候才后悔莫及,塵世間最痛苦的事莫過于此,如果上天可以給我一個機會再來一次的話,我會對那個patch說我要繼續(xù)迭代發(fā)!如果非要在這個迭代的次數(shù)上加上一個期限,我希望是一百遍。5.13內(nèi)核,最勵志的事情無疑是,"Landlock" Lands In Linux 5.13 !在迭代了超過5年之后,安全組件landlock終于合入了Linux內(nèi)核,這份始于2016年的愛情,終于有了一個美好的結(jié)局。為此,Linux內(nèi)核doc的維護者,LDD3的作者之一Jonathan Corbet發(fā)文指出:Kernel development is not for people who lack persistence; changes can take a number of revisions and a lot of time to make it into a mainline release。文章鏈接:

https://lwn.net/Articles/859908/

所以,沒有耐力、不能持之以恒,想一夜暴富的人,真地不適合做kernel開發(fā)。Landlock LSM主要給非特權(quán)進程提供安全沙盒的能力,比如你可以對一個普通進程,施加自定義的文件系統(tǒng)訪問控制策略。

它的操作原理是,先創(chuàng)建一個規(guī)則集ruleset,比如,如下的ruleset就是涉及到文件的讀、寫、執(zhí)、讀DIR、寫DIR等:

ruleset對用戶以文件描述符fd的形式存在,再次證明了“一切都是文件”。接下來,我們可以透過這個fd,向這個ruleset里面添加rule,比如我們添加一個/usr目錄的“讀”規(guī)則,這樣進程就不能寫/usr了:

我們把這個ruleset施加起來讓它生效:

想要體驗的童鞋可以用這個例子啟動你的進程,它設(shè)置好ruleset后,會去call exec啟動命令行參數(shù)指定的程序:

https://github.com/landlock-lsm/linux/blob/landlock-v34/samples/landlock/sandboxer.c

LL_FS_RO環(huán)境變量是可讀文件的列表,LL_FS_RW環(huán)境變量是可讀寫文件的列表,運行方法:


LL_FS_RO=”只讀路徑”?\LL_FS_RW=”可寫路徑”?\sandboxer??./a.outa.out是你的想要安全沙盒的程序。

在下已經(jīng)一睹為快,在/home/baohua下面創(chuàng)建2個目錄1,2,然后創(chuàng)建/home/baohua/1/1/home/baohua/2/12個文件,限制第一個目錄只讀:

童鞋們看明白了嗎?我用sandboxer去啟動cat,2個文件都是成功的。但是,去啟動echo,/home/baohua/1/1是不允許寫的,但是/home/baohua/2/1是可以寫的。實際上,/home/baohua/1/1和/home/baohua/2/1并沒有絲毫的不同。landlock在發(fā)揮作用了!


系統(tǒng)調(diào)用的堆棧隨機化

這是一項安全增強,它允許對系統(tǒng)調(diào)用發(fā)生時,內(nèi)核使用的堆棧添加一個隨機偏移。這給基于stack的攻擊增加了難度,因為stack攻擊通常要求stack有個固定的layout?,F(xiàn)在每次系統(tǒng)調(diào)用,stacklayout都變化的話,黑客就比較捉摸不定了。比如ARM64主要修改了invoke_syscall()這個函數(shù):

這個東西聽起來很高大上,但是它的原理可能簡單地你想哭,NO BB! show me the code:

它實際上就是每次系統(tǒng)調(diào)用把offset隨機化一下,然后通過__builtin_alloca()stack里面分配一些stack空間,于是導(dǎo)致stack的位置移動。我們可以寫個非常簡單的應(yīng)用程序來驗證原理:

然后編譯

gcc 1.c -fno-stack-protector -O0運行:

親愛的,你有沒有發(fā)現(xiàn),10次函數(shù)調(diào)用的時候,每次stack臨時變量的位置都不一樣?。??


printk無鎖ringbuffer的進一步優(yōu)化

鎖什么,不鎖什么,鎖大還是鎖小,從來都是一個問題。宮鎖心玉、宮鎖珠簾、宮鎖沉香、宮鎖連城、宮鎖printk......

內(nèi)核工程師,可能真地被printk寵壞了,printk的優(yōu)勢是在Linux的任意CPU、任意線程、任意中斷(甚至包括NMI)都可以調(diào)用,呼之即來揮之即去。你有沒有想過,printk的實現(xiàn)里面可能有很大的鎖代價的?你怎么保證一個人在打印”abc”,另外一個人再打印”def”,它不把2個人的打印串擾呢?如何避免各種死鎖的可能性?很多操作系統(tǒng)為了避免這種代價,干脆禁止了一些上下文對類似print函數(shù)的調(diào)用,比如VxWorks的中斷服務(wù)程序是不能調(diào)用printf()的。所以Linuxprintk是一個極端復(fù)雜的存在。John Ogness 童鞋曾經(jīng)說過:If it is part of printk, it is already implicitly on every line of code.

生命不息,內(nèi)卷不止。printk在內(nèi)核不斷演進,可以看成一個鎖粒度逐步縮小,直至lockless的一個典范。

19910.01版的printk非常簡單,沒有現(xiàn)代意義上的logbuf這個環(huán)形緩沖區(qū),直接把buffertty里面寫:

這個時候,顯然還沒有loglevel,console的概念,也完全不支持多核;上世紀90年代的內(nèi)核逐步在printk加入了ringbuffer(logbuf)、loglevl、console等的概念,以及對syslogd等用戶態(tài)服務(wù)喚醒的支持。

直至1998年,Linux 2.1.80開始支持多核printk,通過一個spin_lock,把所有多核的printk串行化,各個處理器順序打?。▓D片來源https://elinux.org/images/7/7c/Elce-printk-v1.pdf):

2printk必須等第1printk徹底完成才能開始,這個printk的效率是非常低的。按照Amdahl定律,此種實現(xiàn)串行度100%,顯然scalability很差。

現(xiàn)代意義上的printk,誕生于20019月的2.4.10,開始支持異步的打印。這個時候,printk開始使用2個鎖:

  • console_lock?semaphore:用于在console打印

  • logbuf_lock spinlock:用于寫環(huán)形緩沖區(qū)logbuf

2個鎖其實把寫logbuf和在console打印的動作某種意義上并行化了:

只有拿到console_lock的任務(wù)負責打印,但是在打印的同時,其他任務(wù)只要能拿到logbuf_lock,是可以寫logbuf的。

由于printk拿了logbuf這樣的鎖,如果在printk的過程中,發(fā)生不同尋常的NMI(比如,即便logbuf_lock的附加屏蔽IRQ版本——logbuf_lock_irqsave也屏蔽不了NMI),而這個NMI也要printklogbuf啥的,則可能造成死鎖。所以在Linux 3.19后,引入了seq_buffer,NMIlog,寫入一個安全的per-CPUbuffer,而不是像其他printk那樣寫入全局的logbuf。之后,在NMI handler結(jié)束后的相對安全的上下文,把per-CPU seq_buffer里面的東西flush出去(比如Linux 4.7通過irq_work延后這個工作)。所以,此時的邏輯變成了:


這樣就導(dǎo)致了printk依賴一個臨時的所謂safe buffer。這種safe buffer的理念,也被用來避免printk自己遞歸(printk的實現(xiàn)調(diào)用printk)引起的死鎖。在遞歸的printk里面,內(nèi)容也如NMI那樣寫入safe buffer,之后在安全的上下文才把這個buffer的內(nèi)容flush出去。這種思路,其實也是數(shù)據(jù)結(jié)構(gòu)分化以避免全局鎖的思路,比如太平天國洪秀全暫時沒有辦法奪取北京城,就先在南京城占山為王,然后伺機再取北京。北京城1個數(shù)據(jù)結(jié)構(gòu),南京城是另1個。

printklogbuf有各種NMI、遞歸的坑的,前面基本就是在想辦法繞坑。繞坑的話,進取心實在有限,比如天王后面放棄了007,選擇了躺平,天國最后完蛋了。但是內(nèi)核的進取心很大,在5.10中,內(nèi)核提交了一個locklessringbuffer,可安全地用于一切上下文,避免了死鎖,也為避免NMI等場景對臨時的per-CPU?safe buffer依賴的去除提供了可能性,應(yīng)該是更加接近printk需求的本質(zhì)。注意,5.10內(nèi)核printk的這個lockless ringbuffer支持多個讀者、多個寫者安全的,它本身的實現(xiàn)比較復(fù)雜,更多涉及數(shù)據(jù)結(jié)構(gòu)的知識,具體的細節(jié)可以參考這個commit(大約2000行代碼):

但是5.10仍然有少量代碼路徑依賴?logbuf_lock,比如kmsg_dump、syslog?、格式化消息用的臨時buffer等(畢竟5.10之前的代碼用logbuf_lock用地比較奔放)。

5.13中,內(nèi)核進一步移除了?logbuf_lock,從而基本接近了locklessprintk。移除的方法是要么直接刪沒必要的?logbuf_lock調(diào)用,要么用一個特定的更小鎖來替換。比如,之前syslog里面的 syslog_seq, syslog_partial, syslog_time ,clear_seq 是靠?logbuf_lock保護的,現(xiàn)在重新引入一個它自己的鎖syslog_lock

這種思路其實就是分而治之,逐步細化瓦解。就像以前內(nèi)核有個BKL,后面它的使用場景,被一個個更小的鎖細化代替,直至最后BKL被徹底消滅一樣。


BPF可調(diào)用內(nèi)核函數(shù)

技術(shù)上來講BPF程序載入內(nèi)核的時候,內(nèi)核會執(zhí)行嚴格的檢查,內(nèi)核和BPF程序能實際互動的范圍非常有限,主要是內(nèi)核調(diào)用BPF而不是反過來。Linux 5.13內(nèi)核則允許特定program typeBPF程序直接調(diào)用特定的內(nèi)核函數(shù),為確保調(diào)用的安全,目前內(nèi)核僅僅授權(quán)了?tcp_slow_start()?、tcp_cong_avoid_ai()等這種TCP擁塞控制相關(guān)的函數(shù)(tcp-cc helper)供BPF擁塞控制程序直接調(diào)用,這樣BPF擁塞控制程序不需要把這些函數(shù)再copy-paste一遍。

內(nèi)核net/ipv4/bpf_tcp_ca.c的代碼顯示了這個verify的過程,需要在相應(yīng)的bpf_verifier_ops中添加check_kfunc_call()成員函數(shù):

check_kfunc_call()的成立條件就是特定函數(shù)必須是在bpf_tcp_ca_kfunc_ids集合里面的白名單函數(shù),比如:

這個時候,哥在想,如果我把kprobe這種program typeBPFcheck_kfunc_call()永遠返回真,我不是可以在kprobeBPF中為所欲為?

比如我可以嘗試在任何kprobe點對應(yīng)的BPF程序上,調(diào)用barrysong_hack_print()這個函數(shù)?目前還沒有嘗試,想做實驗的童鞋,可以仿照這個commit中的例子完成,這是一個測試案例:


公共的IO PAGE Fault支持

這個特性主要用于用戶空間的DMA,特別適用于SVA的場景,Shared Virtual Addressing (SVA)。

SVA模式下,設(shè)備的IOMMU采用和CPUMMU共享的頁表,從而讓進程地址空間對設(shè)備可見。

圖片來源:

https://events19.linuxfoundation.cn/wp-content/uploads/2017/11/Shared-Virtual-Addressing_Yisheng-Xie-_-Bob-Liu.pdf

5.13內(nèi)核中,ARM?SMMU和UACCE?(Unified/User-space-access-intended Accelerator Framework)?合入了共享SVA的支持,并將相關(guān)IO Page FaultIOPF)的代碼提煉成了通用的drivers/iommu/io-pgfault.c代碼。我們都知道,Linux的內(nèi)存管理重度近乎強迫癥式地依賴CPUpage fault,比如demanding page, swapCoW等,內(nèi)存都是在page fault發(fā)生后申請內(nèi)卷進來的。現(xiàn)在,設(shè)備也共享了進程的內(nèi)存,這樣設(shè)備訪問這些頁面的時候,仍然可能產(chǎn)生類似CPUpage fault幫忙把進程缺少的頁面申請出來。不過設(shè)備是先發(fā)一個中斷,然后內(nèi)核在中斷服務(wù)程序里面調(diào)用handle_mm_fault()來處理缺頁,這樣設(shè)備產(chǎn)生的IOPF同樣可以幫忙demanding page(比如設(shè)備DMAmalloc()后還沒獲得的內(nèi)存)。似乎設(shè)備變地非常類似進程里面的一個線程,不過我們仔細一想,這里仍然有一個邏輯講不通,如果我們把線程和Device并列:

當線程寫空指針,CPU會收到同步的Page Fault(在*p=10的指令卡住,并最終給進程產(chǎn)生segment fault);但是進程啟動設(shè)備在用戶態(tài)去做DMA,設(shè)備寫無效的地址,顯然也會收到IOPF,但是我們卻沒辦法定位到對應(yīng)的代碼行。在加上中斷啥時候進ISR的問題,這種IOPF行為總體對進程而言異步的。比如:

p = malloc(1M);device_write(p, 2M);其實寫前1MB都沒有問題,但是到1MB后,其實就是非法地址了,設(shè)備啥時候?qū)懲?/span>1MB,這個完全是異步的。

另外這個時候,內(nèi)核應(yīng)該給進程發(fā)什么信號也是個問題?CPU碰到這種情況,顯然就是發(fā)SIGSEGV;設(shè)備這里,IOPF的中斷服務(wù)程序,目前似乎是沒有發(fā),理想情況下,是不是至少也應(yīng)該發(fā)一個類似SIGBUS或者什么信號,不過無論如何,進程也無法同步檢測到哪里的代碼出了問題,更加不要說支持ASAN(Address Sanitizer)這種內(nèi)存越界檢查技術(shù)了。

我們期待后續(xù)內(nèi)存繼續(xù)對這個問題給出一個明確的說法,也期待更多的童鞋發(fā)patch來讓內(nèi)核能自圓其說。

時光永是流逝,街市依舊太平。內(nèi)核的每個新版本發(fā)布,之于搬磚的碼農(nóng),已泛不起任何的漣漪。但是,鐘愛內(nèi)核的人們,仍然在孜孜不倦地追隨。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉