作者簡介
胡哲寧,西安郵電大學(xué)計算機科學(xué)與技術(shù)專業(yè)大二學(xué)生。
Google SwitchTo
由于協(xié)程本身對操作系統(tǒng)的不可見性,協(xié)程中出現(xiàn)的 BUG 往往不能通過一些已有的工具去排查。在谷歌內(nèi)部有一套閉源的用戶態(tài)任務(wù)調(diào)度框架SwitchTo, 這個框架可以為谷歌提供延遲敏感的服務(wù),對運行的內(nèi)容進行細粒度的用戶空間控制/調(diào)度,它可以讓內(nèi)核來實現(xiàn)上下文的切換,同時將任務(wù)何時切換,何時恢復(fù)的工作交給了用戶態(tài)的程序來做,這樣既可以實現(xiàn)在任務(wù)間協(xié)作式切換的功能,又可以不喪失內(nèi)核對于任務(wù)的控制和觀察能力。谷歌去年恢復(fù)嘗試將其 SwitchTo API 上游引入 Linux。相關(guān)補丁見:[1],[2],[3],[4].1pid_t?switchto_wait(timespec?*timeout)
2/*??Enter?an?'unscheduled?state',?until?our?control?is?re-initiated?by?another?thread?or?external?event?(signal).?*/
3void?switchto_resume(pid_t?tid)
4/*?Resume?regular?execution?of?tid?*/
5pid_t?switchto_switch(pid_t?tid)
6/*?Synchronously?transfer?control?to?target?sibling?thread,?leaving?the?current?thread?unscheduled.Analogous?to:Atomically?{?Resume(t1);?Wait(NULL);?}
7*/
這是使用 SwitchTo 和使用其他線程間切換的組件的上下文切換性能對比:| Benchmark | Time(ns) | CPU(ns) | Iterations |
|---|---|---|---|
| BM_Futex | 2905 | 1958 | 1000000 |
| BM_GoogleMutex | 3102 | 2326 | 1000000 |
| BM_SwitchTo | 179 | 178 | 3917412 |
| BM_SwitchResume | 2734 | 1554 | 1000000 |
SwitchTo 后切換的性能比其他組件提高了一個數(shù)量級別。SwitchTo 是如何做到在切換性能上大幅度領(lǐng)先的呢?我們暫時可能無法看到它們,但讓我們來看看 Peter Oskolkov 向 LKML(Linux Kernel Mail List) 提出的補丁中有關(guān) futex_swap() 的實現(xiàn)??梢源_定的是,SwitchTo 構(gòu)建在這個內(nèi)核函數(shù)之上。什么是 futex
futex 全稱 fast user-space locking,快速用戶空間互斥鎖,作為內(nèi)核中一種基本的同步原語,它提供了非??焖俚臒o競爭鎖獲取和釋放,用于構(gòu)建復(fù)雜的同步結(jié)構(gòu):互斥鎖、條件變量、信號量等。由于 futex 的一些機制和使用過于復(fù)雜,glibc 沒有為 futex 提供包裝器,但我們?nèi)匀豢梢允褂?syscall 來調(diào)用這個 極其 hack 的系統(tǒng)調(diào)用。1static?int?futex(uint32_t?*uaddr,?int?futex_op,?uint32_t?val,
2?????????????????const?struct?timespec?*timeout,?uint32_t?*uaddr2,
3?????????????????uint32_t?val3)
4?{
5??return?syscall(SYS_futex,?uaddr,?futex_op,?val,?timeout,?uaddr2,?val3);
6}
uaddr: 一個四字節(jié)的用戶空間地址。多個任務(wù)間可以通過*uaddr的值的變化來控制阻塞或者運行。futex_op: 用于控制futex執(zhí)行的命令 如FUTEX_WAIT,FUTEX_WAKE,FUTEX_LOCK_PI,FUTEX_UNLOCK_PI…val: 在不同的futex_op具有不同的含義,如在futex(uaddr, FUTEX_WAKE)中作為喚醒等待在該futex上所有任務(wù)的數(shù)量。timeout: 作為等待(如FUTEX_WAIT)的超時時間。uaddr2:uaddr2參數(shù)是一個四字節(jié)的用戶空間地址 在需要的場景使用(如后文的FUTEX_SWAP)。val3: 整數(shù)參數(shù)val3的解釋取決于在操作上。
為什么 futex “快速”?
由于用戶模式和內(nèi)核模式之間的上下文切換很昂貴,futex 實現(xiàn)的同步結(jié)構(gòu)會盡可能多地留在用戶空間,這意味著它們只需要執(zhí)行更少的系統(tǒng)調(diào)用。futex 的狀態(tài)存儲在用戶空間變量中,futex 可以通過一些原子操作在沒有競爭的情況下更改 futex 的狀態(tài),而無需系統(tǒng)調(diào)用的開銷。futex_wait() 和 futex_wake()
在看futex_swap() 之前讓我們先看看 內(nèi)核中 與 futex 最重要的兩個內(nèi)核函數(shù):1static?int?futex_wait(u32?__user?*uaddr,?unsigned?int?flags,?u32?val,?ktime_t?*abs_time,?u32?bitset);
簡單來說 對于 futex_wait() 有用的參數(shù)就只有 uaddr,val,abs_time,就像 futex_wait(uaddr,val,abs_time)。其含義是當(dāng)這個用戶空間地址 uaddr的值等于傳入的參數(shù) val 的時候睡眠,即 if (*uaddr == val) wait(). futex_wake() 可以將它喚醒,另外還可以通過指定超時時間來超時喚醒。 1static?int?futex_wait(u32?__user?*uaddr,?unsigned?int?flags,?u32?val,
2??????????????ktime_t?*abs_time,?u32?bitset)
3{
4????struct?hrtimer_sleeper?timeout,?*to;
5????struct?restart_block?*restart;
6????struct?futex_hash_bucket?*hb;
7????struct?futex_q?q?=?futex_q_init;
8????int?ret;
9
10????if?(!bitset)
11????????return?-EINVAL;
12????q.bitset?=?bitset;
13??/*?設(shè)置定時器?*/
14????to?=?futex_setup_timer(abs_time,? 




