Linux內核網絡UDP數據包發(fā)送系列:Linux內核網絡UDP數據包發(fā)送(一)Linux內核網絡UDP數據包發(fā)送(二)——UDP協議層分析
Linux內核網絡UDP數據包發(fā)送(三)——IP協議層分析1. 前言
在繼續(xù)分析?
ce Code Pro", "DejaVu Sans Mono", "Ubuntu Mono", "Anonymous Pro", "Droid Sans Mono", Menlo, Monaco, Consolas, Inconsolata, Courier, monospace, "PingFang SC", "Microsoft YaHei", sans-serif;font-size: 14px;background-color: rgb(249, 242, 244);border-radius: 2px;padding: 2px 4px;line-height: 22px;color: rgb(199, 37, 78);">dev_queue_xmit?發(fā)送數據包之前,我們需要了解以下重要概念。Linux 支持流量控制(traffic control)的功能,此功能允許系統管理員控制數據包如何從機器發(fā)送出去。流量控制系統包含幾組不同的 queue system,每種有不同的排隊特征。各個排隊系統通常稱為 qdisc,也稱為排隊規(guī)則??梢詫?qdisc 視為
調度程序, qdisc 決定數據包的發(fā)送時間和方式。Linux 上每個 device 都有一個與之關聯的默認 qdisc。對于僅支持單發(fā)送隊列的網卡,使用默認的 qdisc
pfifo_fast。支持多個發(fā)送隊列的網卡使用 mq 的默認 qdisc。可以運行?
tc qdisc?來查看系統 qdisc 信息。某些設備支持硬件流量控制,這允許管理員將流量控制 offload 到網絡硬件,節(jié)省系統的 CPU 資源。現在我們從 net/core/dev.c 繼續(xù)分析?
dev_queue_xmit。
2.?dev_queue_xmit?and?__dev_queue_xmit
dev_queue_xmit?簡單封裝了
__dev_queue_xmit:
int dev_queue_xmit(struct sk_buff *skb)
{
return __dev_queue_xmit(skb, NULL);
}
EXPORT_SYMBOL(dev_queue_xmit);
__dev_queue_xmit?才是干臟活累活的地方,我們一點一點來看:
static int __dev_queue_xmit(struct sk_buff *skb, void *accel_priv)
{
struct net_device *dev = skb->dev;
struct netdev_queue *txq;
struct Qdisc *q;
int rc = -ENOMEM;
skb_reset_mac_header(skb);
/* Disable soft irqs for various locks below. Also
* stops preemption for RCU.
*/
rcu_read_lock_bh();
skb_update_prio(skb);
開始的邏輯:
- 聲明變量
- 調用?
skb_reset_mac_header,準備發(fā)送 skb。這會重置 skb 內部的指針,使得 ether 頭可以被訪問 - 調用?
rcu_read_lock_bh,為接下來的讀操作加鎖 - 調用?
skb_update_prio,如果啟用了網絡優(yōu)先級 cgroups,這會設置 skb 的優(yōu)先級
現在,我們來看更復雜的部分:
txq = netdev_pick_tx(dev, skb, accel_priv);
這會選擇發(fā)送隊列。
2.1?netdev_pick_tx
netdev_pick_tx?定義在net/core/flow_dissector.c
struct netdev_queue *netdev_pick_tx(struct net_device *dev,
struct sk_buff *skb,
void *accel_priv)
{
int queue_index = 0;
if (dev->real_num_tx_queues != 1) {
const struct net_device_ops *ops = dev->netdev_ops;
if (ops->ndo_select_queue)
queue_index = ops->ndo_select_queue(dev, skb,
accel_priv);
else
queue_index = __netdev_pick_tx(dev, skb);
if (!accel_priv)
queue_index = dev_cap_txqueue(dev, queue_index);
}
skb_set_queue_mapping(skb, queue_index);
return netdev_get_tx_queue(dev, queue_index);
}
如上所示,如果網絡設備僅支持單個 TX 隊列,則會跳過復雜的代碼,直接返回單個 TX 隊列。大多高端服務器上使用的設備都有多個 TX 隊列。具有多個 TX 隊列的設備有兩種情況:
- 驅動程序實現?
ndo_select_queue,以硬件或 feature-specific 的方式更智能地選擇 TX 隊列 - 驅動程序沒有實現?
ndo_select_queue,這種情況需要內核自己選擇設備
從 3.13 內核開始,沒有多少驅動程序實現?
ndo_select_queue。bnx2x 和 ixgbe 驅動程序實現了此功能,但僅用于以太網光纖通道FCoE。鑒于此,我們假設網絡設備沒有實現?
ndo_select_queue?和沒有使用 FCoE。在這種情況下,內核將使用
__netdev_pick_tx?選擇 tx 隊列。一旦
__netdev_pick_tx?確定了隊列號,
skb_set_queue_mapping?將緩存該值(稍后將在流量控制代碼中使用),
netdev_get_tx_queue?將查找并返回指向該隊列的指針。讓我們 看一下
__netdev_pick_tx?在返回
__dev_queue_xmit?之前的工作原理。
2.2?__netdev_pick_tx
我們來看內核如何選擇 TX 隊列。net/core/flow_dissector.c:
u16 __netdev_pick_tx(struct net_device *dev, struct sk_buff *skb)
{
struct sock *sk = skb->sk;
int queue_index = sk_tx_queue_get(sk);
if (queue_index < 0 || skb->ooo_okay ||
queue_index >= dev->real_num_tx_queues) {
int new_index = get_xps_queue(dev, skb);
if (new_index < 0)
new_index = skb_tx_hash(dev, skb);
if (queue_index != new_index