百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

从Linux源码看Socket(TCP)的listen及连接队列

nanshan 2024-10-22 13:02 34 浏览 0 评论

从Linux源码看Socket(TCP)的listen及连接队列

前言

笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码,是一件Exciting的事情。 今天笔者就来从Linux源码的角度看下Server端的Socket在进行listen的时候到底做了哪些事情(基于Linux 3.10内核),当然由于listen的backlog参数和半连接hash表以及全连接队列都相关,在这一篇博客里也一块讲了。

Server端Socket需要Listen

众所周知,一个Server端Socket的建立,需要socket、bind、listen、accept四个步骤。

今天笔者就聚焦于Listen这个步骤。

代码如下:


void start_server(){

    // server fd

    int sockfd_server;

    // accept fd 

    int sockfd;

    int call_err;

    struct sockaddr_in sock_addr;

     ......

    call_err=bind(sockfd_server,(struct sockaddr*)(&sock_addr),sizeof(sock_addr));

    if(call_err == -1){

        fprintf(stdout,"bind error!\n");

        exit(1);

    }

    // 这边就是我们今天的聚焦点listen

    call_err=listen(sockfd_server,MAX_BACK_LOG);

    if(call_err == -1){

        fprintf(stdout,"listen error!\n");

        exit(1);

    }

}

首先我们通过socket系统调用创建了一个socket,其中指定了SOCK_STREAM,而且最后一个参数为0,也就是建立了一个通常所有的TCP Socket。在这里,我们直接给出TCP Socket所对应的ops也就是操作函数。

如果你想知道上图中的结构是怎么来的,可以看下笔者以前的博客:


https://my.oschina.net/alchemystar/blog/1791017

Listen系统调用

好了,现在我们直接进入Listen系统调用吧。


#include <sys/socket.h>

// 成功返回0,错误返回-1,同时错误码设置在errno

int listen(int sockfd, int backlog);

注意,这边的listen调用是被glibc的INLINE_SYSCALL装过一层,其将返回值修正为只有0和-1这两个选择,同时将错误码的绝对值设置在errno内。

这里面的backlog是个非常重要的参数,如果设置不好,是个很隐蔽的坑。

对于java开发者而言,基本用的现成的框架,而java本身默认的backlog设置大小只有50。这就会引起一些微妙的现象,这个在本文中会进行讲解。

接下来,我们就进入Linux内核源码栈吧


listen

    |->INLINE_SYSCALL(listen......)

        |->SYSCALL_DEFINE2(listen, int, fd, int, backlog)

            /* 检测对应的描述符fd是否存在,不存在,返回-BADF

            |->sockfd_lookup_light

            /* 限定传过来的backlog最大值不超出 /proc/sys/net/core/somaxconn

            |->if ((unsigned int)backlog > somaxconn) backlog = somaxconn

            |->sock->ops->listen(sock, backlog) <=> inet_listen

值得注意的是,Kernel对于我们传进来的backlog值做了一次调整,让其无法>内核参数设置中的somaxconn。

inet_listen

接下来就是核心调用程序inet_listen了。


int inet_listen(struct socket *sock, int backlog)

{

    /* Really, if the socket is already in listen state

     * we can only allow the backlog to be adjusted.

     *if ((sysctl_tcp_fastopen & TFO_SERVER_ENABLE) != 0 &&

            inet_csk(sk)->icsk_accept_queue.fastopenq == NULL) {

            // fastopen的逻辑

            if ((sysctl_tcp_fastopen & TFO_SERVER_WO_SOCKOPT1) != 0)

                err = fastopen_init_queue(sk, backlog);

            else if ((sysctl_tcp_fastopen &

                  TFO_SERVER_WO_SOCKOPT2) != 0)

                err = fastopen_init_queue(sk,

                    ((uint)sysctl_tcp_fastopen) >> 16);

            else

                err = 0;

            if (err)

                goto out;

        }

    if(old_state != TCP_LISTEN) {



        err = inet_csk_listen_start(sk, backlog);

    }

    sk->sk_max_ack_backlog =backlog;

    ......

}

从这段代码中,第一个有意思的地方就是,listen这个系统调用可以重复调用!第二次调用的时候仅仅只能修改其backlog队列长度(虽然感觉没啥必要)。

首先,我们看下除fastopen之外的逻辑(fastopen以后开单章详细讨论)。也就是最后的inet_csk_listen_start调用。


int inet_csk_listen_start(struct sock *sk, const int nr_table_entries)

{

    ......

    // 这里的nr_table_entries即为调整过后的backlog

    // 但是在此函数内部会进一步将nr_table_entries = min(backlog,sysctl_max_syn_backlog)这个逻辑

    int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries);

    ......

    inet_csk_delack_init(sk);

    // 设置socket为listen状态

    sk->sk_state = TCP_LISTEN;

    // 检查端口号

    if (!sk->sk_prot->get_port(sk, inet->inet_num)){

        // 清除掉dst cache

        sk_dst_reset(sk);

        // 将当前sock链入listening_hash

        // 这样,当SYN到来的时候就能通过__inet_lookup_listen函数找到这个listen中的sock

        sk->sk_prot->hash(sk);

    }

    sk->sk_state = TCP_CLOSE;

    __reqsk_queue_destroy(&icsk->icsk_accept_queue);

    // 端口已经被占用,返回错误码-EADDRINUSE

    return -EADDRINUSE;

}

这里最重要的一个调用sk->sk_prot->hash(sk),也就是inet_hash,其将当前sock链入全局的listen hash表,这样就可以在SYN包到来的时候寻找到对应的listen sock了。如下图所示:

如图中所示,如果开启了SO_REUSEPORT的话,可以让不同的Socket listen(监听)同一个端口,这样就能在内核进行创建连接的负载均衡。在Nginx 1.9.1版本开启了之后,其压测性能达到3倍!

半连接队列hash表和全连接队列

在笔者一开始翻阅的资料里面,都提到。tcp的连接队列有两个,一个是sync_queue,另一个accept_queue。但笔者仔细阅读了一下源码,其实并非如此。事实上,sync_queue其实是个hash表(syn_table)。另一个队列是icsk_accept_queue。

所以在本篇文章里面,将其称为reqsk_queue(request_socket_queue的简称)。

在这里,笔者先给出这两个queue在三次握手时候的出现时机。如下图所示:

当然了,除了上面提到的qlen和sk_ack_backlog这两个计数器之外,还有一个qlen_young,其作用如下:


qlen_young: 

记录的是刚有SYN到达,

没有被SYN_ACK重传定时器重传过SYN_ACK

同时也没有完成过三次握手的sock数量

如下图所示:

至于SYN_ACK的重传定时器在内核中的代码为下面所示:


static void tcp_synack_timer(struct sock *sk)

{

    inet_csk_reqsk_queue_prune(sk, TCP_SYNQ_INTERVAL,

                   TCP_TIMEOUT_INIT, TCP_RTO_MAX);

}

这个定时器在半连接队列不为空的情况下,以200ms(TCP_SYNQ_INTERVAL)为间隔运行一次。限于篇幅,笔者就在这里不多讨论了。

为什么要存在半连接队列

因为根据TCP协议的特点,会存在半连接这样的网络攻击存在,即不停地发SYN包,而从不回应SYN_ACK。如果发一个SYN包就让Kernel建立一个消耗极大的sock,那么很容易就内存耗尽。所以内核在三次握手成功之前,只分配一个占用内存极小的request_sock,以防止这种攻击的现象,再配合syn_cookie机制,尽量抵御这种半连接攻击的风险。

半连接hash表和全连接队列的限制

由于全连接队列里面保存的是占用内存很大的普通sock,所以Kernel给其加了一个最大长度的限制。这个限制为:


下面三者中的最小值

1.listen系统调用中传进去的backlog

2./proc/sys/inet/ipv4/tcp_max_syn_backlog

3./proc/sys/net/core/somaxconn 

即min(backlog,tcp_ma_syn_backlog,somaxcon)

如果超过这个somaxconn会被内核丢弃,如下图所示:

这种情况的连接丢弃会发生比较诡异的现象。在不设置tcp_abort_on_overflow的时候,client端无法感知,就会导致即在第一笔调用的时候才会知道对端连接丢弃了。

那么,怎么让client端在这种情况下感知呢,我们可以设置一下tcp_abort_on_overflow


echo '1' > tcp_abort_on_overflow

设置后,如下图所示:

当然了,最直接的还是调大backlog!


listen(fd,2048)

echo '2048' > /proc/sys/inet/ipv4/tcp_max_syn_backlog

echo '2048' > /proc/sys/net/core/somaxconn

backlog对半连接队列的影响

这个backlog对半连接队列也有影响,如下代码所示:


    /* TW buckets are converted to open requests without

     * limitations, they conserve resources and peer is

     * evidently real one.

     */

    // 在开启SYN cookie的情况下,如果半连接队列长度超过backlog,则发送cookie

    // 否则丢弃

    if (inet_csk_reqsk_queue_is_full(sk) && !isn) {

        want_cookie = tcp_syn_flood_action(sk, skb, "TCP");

        if (!want_cookie)

            goto drop;

    }

    /* Accept backlog is full. If we have already queued enough

     * of warm entries in syn queue, drop request. It is better than

     * clogging syn queue with openreqs with exponentially increasing

     * timeout.

     */

    // 在全连接队列满的情况下,如果有young_ack,那么直接丢弃

    if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1) {

        NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS);

        goto drop;

    }

我们在dmesg里面经常看到的


Possible SYN flooding on port 8080

就是由于半连接队列满以后,Kernel发送cookie校验而导致。

总结

TCP作为一个古老而又流行的协议,在演化了几十年后,其设计变得相当复杂。从而在出问题的时候变得难于分析,这时候就要reading the fucking source code!而笔者也正是写这篇博客而详细阅读源码的时候偶然间灵光一闪,找到了最近一个诡异问题的根因。这个诡异问题的分析过程将会在近期写出来分享给大家。

欢迎大家关注我公众号《解Bug之路》,里面有各种干货,还有大礼包相送哦!

相关推荐

详解 HTTPS、TLS、SSL、HTTP区别和关系

一、什么是HTTPS、TLS、SSLHTTPS,也称作HTTPoverTLS。TLS的前身是SSL,TLS1.0通常被标示为SSL3.1,TLS1.1为SSL3.2,TLS1.2为SSL...

锐安信SSL证书自动化运维系统:灵活管理SSL/TLS证书全生命周期

点击上方关注“锐成云分销”,云建站解决方案专家!域名、SSL证书、DNS、主机一站选齐在SSL/TLS证书的生命周期管理中,证书的各种操作方式是基础且核心的部分之一,更是保障用户数据传输加密的关键。这...

宝塔免费的 SSL/TLS 证书如何续签

申请之前,请确保域名已解析,如未解析会导致审核失败(包括根域名)宝塔SSL申请的是免费版TrustAsiaDVSSLCA-G5证书,仅支持单个域名申请有效期1年,不支持续签,到期后需要重新申...

HTTPS、HTTP、TLS/SSL工作及握手原理、PKI/CA密钥体系

一、HTTPS与HTTP介绍二、TLS/SSL工作原理三、TSL/SSL握手过程四、HTTPS性能优化五、PKI体系一、HTTPS与HTTP介绍1.Https(SecureHypetextTran...

什么是SSL证书卸载 SSL证书卸载有什么作用

SSL证书是数字证书的一种,安装部署的话可以对网站起到身份验证和数据加密的作用。网站部署SSL证书,相对就必然会有SSL证书卸载,那么SSL证书卸载是什么呢?SSL证书卸载有什么作用?随着SSL通信量...

让SSL/TLS协议流行起来:深度解读SSL/TLS实现1

一前言SSL/TLS协议是网络安全通信的重要基石,本系列将简单介绍SSL/TLS协议,主要关注SSL/TLS协议的安全性,特别是SSL规范的正确实现。本系列的文章大体分为3个部分:SSL/TLS协...

苹果、谷歌、微软等一致同意!SSL/TLS证书最长有效期锐减至47天

快科技4月14日消息,苹果此前向CA/B论坛(负责管理SSL/TLS证书的行业组织)提议,将所有证书有效期缩短至45天。日前CA/B论坛服务器证书工作组投票通过SC-081v3提案,最终决定将SSL/...

Android怎么设置端口转发,将访问本设备的端口转到另外一台设备

一、Android系统怎么设置端口转发,将访问本设备的端口转到另外一台设备?要设置端口转发,您需要先在Android设备上安装一个支持端口转发的应用程序。其中一个常用的应用是"Termux&#...

大神级产品:手机装 Linux 运行 Docker 如此简单

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:灵昱Termux作为一个强大的Android终端模拟器,能够运行多种Linux环境。然而,直接在Termux上运行Docker并不可行,需要...

关于H3C交换机的SSH功能配置方法(华三交换机ssh配置)

对于交换机的初步学习,作为初学者的我,还望诸位不吝赐教。若存在不足之处,烦请大家多提宝贵意见。同样身为初学者的我们,亦可携手共进,相互分享技术经验。一、本地用户配置(核心步骤)1.创建用户并设置密码...

Linux常用操作ssh(linux中的ssh命令)

ssh#p是小写ssh-p22user@hostsftp#连接sftp-P22root@host#将文件上传到服务器上:put[本地文件的地址][服务器上文件存储的位置]#将...

小白心得,如何使用SSH连接飞牛系统(fnos)?

一、背景作为一个刚接触飞牛系统的小白,在研究飞牛os的时候,发现很多功能都需要连接ssh,但是如何使用SSH连接飞牛系统成为入门飞牛os的一道坎。下面以自己的学习经历详细记录下过程吧。二、系统设置1、...

如何在 Windows 11 或 10 上使用 Winget 安装 OpenSSH

SSH(SecureShell)是大多数开发人员和系统管理员用来通过Linux远程连接托管服务器或任何云服务的工具,因为SSH在Linux中是内置的。然而,对于Windows呢?是的...

linux文件之ssh配置文件的含义与作用

ssh远程登录命令是操作系统(包括linux和window系统)下常用的操作命令,可以帮助用户,远程登录服务器系统,查看,操作系统相关信息。linux系统对于ssh命令有专门保存其相关配置的目录和文件...

害怕Linux SSH不安全?这几个小妙招安排上!

ssh是访问远程服务器最常用的方法之一,同时,其也是Linux服务器受到攻击的最常见的原因之一。不过别误会...我们并不是说ssh有什么安全漏洞,相反,它在设计上是一个非常安全的协议。但是安...

取消回复欢迎 发表评论: