使用 NVIDIA BlueField DPU 和 DPDK 开发应用程序
nanshan 2024-11-13 11:30 51 浏览 0 评论
数据中心转型
NVIDIA BlueField DPU (数据处理器)可用于网络功能加速。这种网络卸载可以用 DPDK ,也可以用 NVIDIA DOCA 软件框架。
在本系列中,我构建了一个应用并用两种方式进行了卸载:DPDK 和 NVIDIA DOCA SDK 。我将每个步骤记录为一个单独的代码补丁,并在每个系列中提供完整的步骤。这部分将向您展示如何用 DPDK 编程 BlueField DPU 。
用例
首先,我需要一个简单但有意义的用例来在 DPU 上部署应用程序。我选择了基于策略的路由( PBR )来根据第 3 层和第 4 层数据包属性将流量引导到不同的网关,覆盖(或补充) X86 主机选择的网关。现实世界中有各种原因需要这样做,包括以下示例:
· 将选定主机流量发送到外部防火墙以进行额外审核
· 增强 Anycast 服务器的负载平衡
· 应用 QoS
图 1 . 使用 PBR 将流量从主机引导到两个网关之一
我在 DPU (BF2-ARM)上使用 PBR 将流量从主机( server1-x86 )引导到两个网关 [leaf2, leaf3] 之一。叶交换机随后将流量转发给其本地连接的选播服务提供商 [server2, server3] 。
构建应用程序
第一个问题:我是写一个全新的应用程序,还是卸载一个现有的应用程序?
我决定卸载我最喜欢的开源路由软件栈 FRRouting ( FRR )的 PBR 功能。这使我能够扩展现有的代码库,并与现有的 sample apps 形成很好的对比。FRR 有一个支持多种数据平面插件的框架,可以轻松用 DPDK 和 DOCA 实现新的数据平面插件并集成到 FRR 。
图 2 . DPDK 和 DOCA 插件可以很容易地添加到 FRR中
DPU 应用程序原型
在本节中,我将介绍创建具有 DPU 硬件加速功能的应用程序所需的准备工作。
DPU 硬件
我有一个 x86 服务器并在上面安装了一块 BlueFied-2 DPU , 该 DPU 有两个 25G 上行链路和一个带有 8GB 内存的 ARM 处理器 。有关硬件安装的更多信息,请参阅 DOCA SDK 文档 。您也可以使用 DPU PocKit 来构建和引导你的系统环境.
我安装了 BlueField 启动流文件( BFB ),它为 DPU 提供了 Ubuntu 操作系统映像,并附带了 DOCA-1.2 和 DPDK-20.11.3 的库。
图 3 . Netdev Representors
使用 SR-IOV ,我在主机上为两个虚拟机创建了两个虚拟函数( VF )接口。
主机上的 PF 和 VF 分别映射到 DPU ARM 上的以下 netdev representors 。
表 1 .主机上 PF 和 VF 的映射
使用 DPDK testpmd 应用程序进行原型设计
首先,我使用 DPDK 的 testpmd 进行了我的用例的原型化设计,它位于 DPU 的 / opt / mellanox / 目录下。
包括 testpmd 在内的任何 DPDK 应用程序都必须设置 hugepages 。
(可选)保留配置,使其在 DPU 重新启动后仍然有效。
启动 testpmd 。
Testpmd 会消耗比较多的内存,默认情况下会分配 3.5 GB 。由于我不需要在 CPU 中处理数据流量,我把 total-mem 的值设定为 200M ,其中 total-mem = total-num-mbufs * mbuf-size (默认 mbuf-size 为 2048 字节)。我还使用了 flow-isolation 模式,因为我必须将 ARP 数据包发送到 DPU 上的内核网络堆栈来解析 PBR 的下一跳)。初始化完成后,-i选项使得 testpmd 进入交互式 shell 。
作为 testpmd 完成 rte_eal 初始化的一部分, mlx5_pci 设备被探测并成为可以被访问的 DPDK 端口。
您在这里看到的 DPDK 端口对应 PF / VF representor 和两个上行链路。
表 2 . DPDK 端口映射
流创建
接下来,通过定义 ingress port 、源 IP 、目标 IP 、协议和端口,我用 rte_flow 下发了PBR规则。除此之外,我还定义了对匹配数据包采取的 ACTION 。源 MAC 和目标 MAC 被重写, TTL 被递减,出口端口被设置为物理上行链路 p0 。
这条 PBR 规则从 VM1接收 DNS 流量,并将其发送到特定的 GW ( leaf2, server2 )。我还增加了一个计数器以便故障定位。
DPU 卸载可以工作在 Switch ( FDB )模式,也可以工作在 NIC 模式。在这个用例中,经过几次数据包修改后,我需要将流量从 X86 主机重定向到 25G 上行链路。所以从概念上讲,这里使用了 Switch ( FDB ) 模式,因此需要设置 rte_flow 的 transfer 属性。
流程验证
我从 VM1 发送了一些流量,看看它是否与我用 testpmd 创建的 flow 是否匹配,可以通过执行 query 命令来查看。
结果是匹配的,在 leaf2/server2 上可以看到这些流量且具有修改后的数据包头。因为被操作的流量是 DNS ,所以为了测试流量,我从 VM1 发送 DNS 请求。为了控制流量速率和其他数据包字段,我使用 mz 来生成测试流量。
另一个健全性检查是查看此流是否真的被卸载。有两种方法可以做到这一点:
· 在 Arm CPU 上使用 tcpdump 以确保内核不接收此类数据包。
· 检查硬件 eSwitch 是否有对应的流规则。
mlx_steering_dump 允许您查看硬件上已经下发成功的流规则。使用 git 下载并安装该工具。
使用 mlx_steering_dump_parser.py 脚本验证硬件中下发的流规则。
此命令打印出 testpmd 应用程序下发的所有流规则。我们可以看到硬件上设置的外部 头匹配信息和前面RTE_FLOW定义的匹配 [SIP = 172.20.0.8 , DIP = 172.30.0.8 , IP proto = UDP , UDP dport = 53] 是一致的。作为打印输出的一部分,流量计数器的值也被读取并被重置。
原型设计,作为应用程序设计思维过程的最后一步现在已经完成。我现在知道我可以在 DPDK 中建立一个 PBR 规则,把它安装在硬件中并对我们感兴趣的数据报文进行修改。现在在下一节中添加 DPDK 数据平面。
构建 DPDK 数据平面插件
在本节中,我将通过向 Zebra 添加一个 DPDK 数据平面插件,介绍 DPU 对 PBR进行 硬件加速的步骤。我将这些步骤分解为单独的代码提交,整个补丁集以 reference 的形式提供。
图 4 .基于策略的路由 DPDK 卸载工作流
开发环境
由于目标体系结构是 DPU Arm ,因此可以直接在 DPU Arm上构建、在 X86 CPU 上交叉编译或在云中构建。在这篇文章中,我直接在 DPU Arm 上进行编码和构建。
以 root 用户身份运行应用程序
FRR 通常作为非 root 用户运行。FRR 可以下载和上传整个互联网路由表;这可能会出什么问题?然而,几乎所有的 DPDK 应用程序都是以 root 用户身份运行, DPDK 库和驱动程序也都是基于这样设计的。
经过多次实验,并使用 root 用户选项重新编译 FRR, 我还是无法让 FRR 作为非 root 用户工作。这是可以接受的,因为我在一个安全的空间,即 DPU Arm 中运行 FRR 。
向 Zebra 添加新插件
Zebra 是 FRR 中的一个守护进程,负责整合路由协议守护进程的更新并构建转发表。Zebra 还有一个基础设施,可以将这些转发表推送到像 Linux 内核这样的数据平面。
将 DPDK 共享库链接到 zebra
FRR 有自己的构建系统,限制直接导入外部 make 文件。由于 pkg-config 的简单优雅,将相关库链接到 Zebra 很容易。
我找到了 libdpdk.pc 并将其添加到 PKG_CONFIG_PATH 值中:
FRR 有自己的构建系统,限制直接导入外部 make 文件。由于 pkg-config 的简单优雅,将相关库链接到 Zebra 很容易。
我找到了 libdpdk.pc 并将其添加到 PKG_CONFIG_PATH 值中:
我在 FRR makefile (configure.ac)中为 DPDK 添加了 pkg check-and-define 宏。
我将 DPDK libs和cflags抽象包含在zebra-dp-dpdk make 宏( zebra/subdir.am )中。
有了这些,我就有了构建插件所需的所有头文件和库。
初始化硬件
第一步是初始化硬件。
这将探测 PCIe 设备并填充 DPDK rte_eth_dev 数据库。
初始化端口
接下来设置硬件端口。
设置应用程序的端口映射
FRR 有自己的基于 Linux netdevs 表的接口(端口)表,该表使用 NetLink 更新填充,并使用 ifIndex 键值来索引。PBR 规则锚定到此表中的一个接口。要编程 PBR 数据平面条目,需要一个 Linux ifIndex 和 DPDK port-id 值之间的映射表。netdev 信息已经在 DPDK 驱动程序中可用,可以通过 rte_eth_dev_info_get 查询。
配置硬件端口
此外,所有端口都需要置于 flow-isolation 模式并启动。
Flow-isolation 模式将未命中数据包发送到内核网络堆栈,允许它处理 ARP 请求之类的事情。
使用 rte _流 API 编程 PBR 规则
PBR 规则现在需要用 rte_flow 来编写,下面是一个示例规则:
这些参数通过 rte_flow_attributes 、 rte_flow_item ( match ) 和 rte_flow_action 数据结构填充。
流属性
此数据结构用于指示 PBR 流用于分组重定向或 transfer flow 。
流匹配项
DPDK 为数据包头中的每一层使用 {key, mask} 匹配结构:以太网、 IP 、 UDP 等。
填充这些数据结构需要大量重复的代码。
流动作
DPDK 为每个 Action 使用单独的数据结构,然后允许您在创建流规则时以可变长度数组的形式提供所有 Actions 。有关 Actions 如下:
流验证和创建
作为可选项,您可以验证 rte_flow_attr、rte_flow_item 和 rte_flow_action 列表。
流验证通常用于检查底层 DPDK 驱动程序是否支持特定的流配置。流验证是一个可选步骤,在最后的代码中,您可以直接跳转到流创建。
Rte_flow 命令被锚定到输入端口。可以创建多个流条目组并将这些组链起来。即使流条目不存在链的第一个组中,也就是不在组 0 中,它仍然必须锚定到输入端口。group-0 存在性能限制。
流量插入率在 group-0 中受到限制。要绕过该限制,您可以在 group-0 中安装一个默认流,以“跳转到 group-1 ”,然后在 group-1 中创建流规则。
流删除
流创建 API 返回一个流指针,该指针必须被缓存以进行后续的流删除。
FRR-PBR 守护进程管理状态机来解析,添加或删除 PBR 流。因此,我不必使用 DPDK 的原生函数来老化 PBR 规则。
流量统计
在创建流时,我将计数操作附加到流。可用于查询流量统计信息和命中次数。
为了便于测试和验证,我将该统计显示插入了 FRR 的 vtysh CLI 。
测试应用程序
我以 root 用户的身份启动了 FRR ,并通过 /etc/frr/daemons 文件启用了新添加的 DPDK 插件:
DPDK-port 映射表的 FRR 接口已填充:
接下来,我将 PBR 规则配置为匹配来自 VM1 的 DNS 流量,并使用 frr.conf 将其重定向到 leaf2 。
我从 VM1 发送 DNS 查询到 anycast DNS 服务器。
匹配流,并使用修改后的数据包头将流量转发到目的地 leaf2/server2 。这可以通过连接到流的计数器和使用 mlx_steering_dump 做硬件转储来验证。
FRR 现在有一个功能齐全的 DPDK 数据平面插件,可以在 DPU 硬件上卸载 PBR 规则。
总结
这篇文章回顾了使用 DPDK RTE_FLOW库在 BlueField 上硬件加速 PBR 规则的 FRR 数据平面插件的创建。在下一篇文章中,我将带您了解 FRR DOCA 数据平面插件,并向您展示如何使用新的 DOCA_FLOW 库卸载 PBR 规则。
相关推荐
- 实战派 | Java项目中玩转Redis6.0客户端缓存
-
铺垫首先介绍一下今天要使用到的工具Lettuce,它是一个可伸缩线程安全的redis客户端。多个线程可以共享同一个RedisConnection,利用nio框架Netty来高效地管理多个连接。放眼望向...
- 轻松掌握redis缓存穿透、击穿、雪崩问题解决方案(20230529版)
-
1、缓存穿透所谓缓存穿透就是非法传输了一个在数据库中不存在的条件,导致查询redis和数据库中都没有,并且有大量的请求进来,就会导致对数据库产生压力,解决这一问题的方法如下:1、使用空缓存解决对查询到...
- Redis与本地缓存联手:多级缓存架构的奥秘
-
多级缓存(如Redis+本地缓存)是一种在系统架构中广泛应用的提高系统性能和响应速度的技术手段,它综合利用了不同类型缓存的优势,以下为你详细介绍:基本概念本地缓存:指的是在应用程序所在的服务器内...
- 腾讯云国际站:腾讯云服务器如何配置Redis缓存?
-
本文由【云老大】TG@yunlaoda360撰写一、安装Redis使用包管理器安装(推荐)在CentOS系统中,可以通过yum包管理器安装Redis:sudoyumupdate-...
- Spring Boot3 整合 Redis 实现数据缓存,你做对了吗?
-
你是否在开发互联网大厂后端项目时,遇到过系统响应速度慢的问题?当高并发请求涌入,数据库压力剧增,响应时间拉长,用户体验直线下降。相信不少后端开发同行都被这个问题困扰过。其实,通过在SpringBo...
- 【Redis】Redis应用问题-缓存穿透缓存击穿、缓存雪崩及解决方案
-
在我们使用redis时,也会存在一些问题,导致请求直接打到数据库上,导致数据库挂掉。下面我们来说说这些问题及解决方案。1、缓存穿透1.1场景一个请求进来后,先去redis进行查找,redis存在,则...
- Spring boot 整合Redis缓存你了解多少
-
在前一篇里面讲到了Redis缓存击穿、缓存穿透、缓存雪崩这三者区别,接下来我们讲解Springboot整合Redis中的一些知识点:之前遇到过,有的了四五年,甚至更长时间的后端Java开发,并且...
- 揭秘!Redis 缓存与数据库一致性问题的终极解决方案
-
在现代软件开发中,Redis作为一款高性能的缓存数据库,被广泛应用于提升系统的响应速度和吞吐量。然而,缓存与数据库之间的数据一致性问题,一直是开发者们面临的一大挑战。本文将深入探讨Redis缓存...
- 高并发下Spring Cache缓存穿透?我用Caffeine+Redis破局
-
一、什么是缓存穿透?缓存穿透是指查询一个根本不存在的数据,导致请求直接穿透缓存层到达数据库,可能压垮数据库的现象。在高并发场景下,这尤其危险。典型场景:恶意攻击:故意查询不存在的ID(如负数或超大数值...
- Redis缓存三剑客:穿透、雪崩、击穿—手把手教你解决
-
缓存穿透菜小弟:我先问问什么是缓存穿透?我听说是缓存查不到,直接去查数据库了。表哥:没错。缓存穿透是指查询一个缓存中不存在且数据库中也不存在的数据,导致每次请求都直接访问数据库的行为。这种行为会让缓存...
- Redis中缓存穿透问题与解决方法
-
缓存穿透问题概述在Redis作为缓存使用时,缓存穿透是常见问题。正常查询流程是先从Redis缓存获取数据,若有则直接使用;若没有则去数据库查询,查到后存入缓存。但当请求的数据在缓存和数据库中都...
- Redis客户端缓存的几种实现方式
-
前言:Redis作为当今最流行的内存数据库和缓存系统,被广泛应用于各类应用场景。然而,即使Redis本身性能卓越,在高并发场景下,应用于Redis服务器之间的网络通信仍可能成为性能瓶颈。所以客户端缓存...
- Nginx合集-常用功能指导
-
1)启动、重启以及停止nginx进入sbin目录之后,输入以下命令#启动nginx./nginx#指定配置文件启动nginx./nginx-c/usr/local/nginx/conf/n...
- 腾讯云国际站:腾讯云怎么提升服务器速度?
-
本文由【云老大】TG@yunlaoda360撰写升级服务器规格选择更高性能的CPU、内存和带宽,以提供更好的处理能力和网络性能。优化网络配置调整网络接口卡(NIC)驱动,优化TCP/IP参数...
- 雷霆一击服务器管理员教程
-
本文转载莱卡云游戏服务器雷霆一击管理员教程(搜索莱卡云面版可搜到)首先你需要给服务器设置管理员密码,默认是空的管理员密码在启动页面进行设置设置完成后你需要重启服务器才可生效加入游戏后,点击键盘左上角E...
你 发表评论:
欢迎- 一周热门
-
-
爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复
-
如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号
-
[常用工具] OpenCV_contrib库在windows下编译使用指南
-
WindowsServer2022|配置NTP服务器的命令
-
Ubuntu系统Daphne + Nginx + supervisor部署Django项目
-
WIN11 安装配置 linux 子系统 Ubuntu 图形界面 桌面系统
-
解决Linux终端中“-bash: nano: command not found”问题
-
Linux 中的文件描述符是什么?(linux 打开文件表 文件描述符)
-
NBA 2K25虚拟内存不足/爆内存/内存占用100% 一文速解
-
K3s禁用Service Load Balancer,解决获取浏览器IP不正确问题
-
- 最近发表
-
- 实战派 | Java项目中玩转Redis6.0客户端缓存
- 轻松掌握redis缓存穿透、击穿、雪崩问题解决方案(20230529版)
- Redis与本地缓存联手:多级缓存架构的奥秘
- 腾讯云国际站:腾讯云服务器如何配置Redis缓存?
- Spring Boot3 整合 Redis 实现数据缓存,你做对了吗?
- 【Redis】Redis应用问题-缓存穿透缓存击穿、缓存雪崩及解决方案
- Spring boot 整合Redis缓存你了解多少
- 揭秘!Redis 缓存与数据库一致性问题的终极解决方案
- 高并发下Spring Cache缓存穿透?我用Caffeine+Redis破局
- Redis缓存三剑客:穿透、雪崩、击穿—手把手教你解决
- 标签列表
-
- linux 查询端口号 (58)
- docker映射容器目录到宿主机 (66)
- 杀端口 (60)
- yum更换阿里源 (62)
- internet explorer 增强的安全配置已启用 (65)
- linux自动挂载 (56)
- 禁用selinux (55)
- sysv-rc-conf (69)
- ubuntu防火墙状态查看 (64)
- windows server 2022激活密钥 (56)
- 无法与服务器建立安全连接是什么意思 (74)
- 443/80端口被占用怎么解决 (56)
- ping无法访问目标主机怎么解决 (58)
- fdatasync (59)
- 405 not allowed (56)
- 免备案虚拟主机zxhost (55)
- linux根据pid查看进程 (60)
- dhcp工具 (62)
- mysql 1045 (57)
- 宝塔远程工具 (56)
- ssh服务器拒绝了密码 请再试一次 (56)
- ubuntu卸载docker (56)
- linux查看nginx状态 (63)
- tomcat 乱码 (76)
- 2008r2激活序列号 (65)