首页 > 汽车技术 > 正文

基于 NVIDIA DOCA 2.6 实现高性能和安全的 AI 云

2024-02-23 11:08:40·  来源:NVIDIA英伟达网络  
 

作为专为 NVIDIA® BlueField® 网络平台而设计的数据中心基础设施软件框架,NVIDIA® DOCA™ 使广大开发者能够利用其行业标准 API 在 NVIDIA BlueField 网络平台上快速创建应用程序和服务,并启用 NVIDIA BlueField DPU 和 NVIDIA BlueField SuperNIC 的强大功能,提供突破性的网络、安全和存储性能。


近日发布的 NVIDIA DOCA 2.6 引入了 NVIDIA BlueField 网络平台的新增功能和增强功能,可实现高性能和安全的 AI 云,从而大规模加速数据中心工作负载和 AI 应用。借助可编程拥塞控制(PCC)和数据路径加速(DPA),更新的 DOCA SDK 也为开发者提供了广泛的开发框架,并提供新增功能和增强功能。


专为 AI 云而设计的网络平台


NVIDIA® Spectrum-X™ 是适用于 AI 云“东西向”流量的以太网参考架构,其中主要包括 NVIDIA BlueField-3 SuperNIC 和 Spectrum-4 交换机。Spectrum-X 通过创新的高性能网络为 AI 云提供峰值性能,从而有效满足 AI 工作负载对 AI 云基础设施的性能需求。


最新的 DOCA 2.6 版本支持 Spectrum-X 参考架构 1.0,优化了 Spectrum-4 交换机和 BlueField-3 SuperNIC 的性能协同,不但为 AI 工作负载提供优化的无损 RoCEv2 和动态路由功能,而且支持零接触 RoCE 拥塞控制(ZTR-CC)和可编程的 DOCA-PCC,从而显著提高 AI 云的性能,并为租户提供确定和隔离的性能。


开发硬件加速的网络应用程序


DOCA Flow 是用于卸载和加速网络转向(Network Steering)的开发库,可以在软件定义网络(SDN)的服务中提供可编程的快速流水线(Pipeline),并通过采用 DOCA-CT 管道(Pipe)来加速连接跟踪和管理会话状态。


在 DOCA 2.6 版本中,DOCA-CT 通过简化流水线来提升效率,并支持 NAT64 来实现 IPv6 和 IPv4 之间的地址转换,从而使连接跟踪与 NAT 流水线相结合来获得更好的性能。同时,DOCA Flow 可以通过修改可选字段来扩展 Geneve 隧道,且通过启用 Geneve 来替代如 MPLS 等其他隧道方案。DOCA Flow 还支持将硬件哈希计算公开给软件,对于复杂的流水线可以对齐软硬件的哈希结果。


DOCA 服务新增功能


基于 BlueField 的分布式路由和 EVPN 服务


DOCA 基于主机的网络(HBN)服务 2.1 版本支持 EVPN 增强功能,可为大规模裸金属云构建无控制器的虚拟私有云(VPC)网络。同时,它支持 L3 EVPN 来实现对称的 VXLAN 路由,从而实现 L3 的多租户安全;支持本地 VRF 路由泄露(测试版),从而隔离租户以安全访问互联网和共享服务;支持多跳 eBGP 对等互连,从而适用于大规模 VXLAN EVPN 的部署;支持用于有状态访问控制列表(ACL)的 L3 接口绑定,从而实现对 L3 流量的过滤;支持其它面向 DPU 的接口,以便与其他服务进行集成。


计时即服务解决方案


DOCA Firefly 服务利用 BlueField SuperNIC 和 DPU 来加速时间同步。在 DOCA 2.6 版本中,它增加了时钟跳转时的时间检查功能,从而可以对伺服计时算法进行修复。DOCA Firefly 服务可以广泛的应用于电信、传媒娱乐、金融服务等行业,比如电信行业在 5G 移动通信部署的基于网络的时间同步,传媒娱乐行业基于虚幻引擎(Unreal Engine)的虚拟制作,以及金融服务行业满足 MiFID II 合规性的高频交易(HFT)。


更多其他更新


  • BlueField 平台增强功能

  • 平台安全 – UEFI 密码策略

  • 平台管理 – BMC 健壮性

  • BlueField 安装包简化升级 – 增加 BMC 和 eROT 固件


结束语


不同规模的 AI 工作负载和不同类型的 AI 应用程序需要不同的、复杂的网络。作为 AI 和加速计算领域的领导者,NVIDIA 提供针对 AI 进行优化的端到端网络平台及解决方案,实现以峰值效率有效运行的 AI 网络,从而提高 AI 云的性能。从加速计算全栈架构的角度,NVIDIA 将 AI 网络与 GPU 加速计算系统相结合,从硬件和软件进行技术互补和协同,提升全栈架构各层之间的运营效率,从而应对企业将 AI 嵌入现有应用和服务时所面临的基础设施运营和部署挑战。

分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号