【Sponsor】RDMA 容器网络下的大规模AI训练探索

随着Chat-GPT点燃了人们对于AI的热情和期待，各个厂商、开发者们开始日益关注AI领域，大模型的一次训练可能需要耗费数十天，因此，解决好在AI训练过程中的算力调度和网络通信，能提高训练的成功率，降低训练时间。本次分享中，首先介绍了大规模训练情况下可能会遇到的网络问题，其次，通过使用提供 RDMA 能力的 spiderpool kubernetes CNI插件，可以满足在各种大规模多机多卡分布式训练的 underlay 和 RDMA 网络要求，友好的支持ROCE 和 InfiniBand 场景，大大提高了分布式训练的通信效率。最后，我们探索了大模型在多个集群上训练的可行性，介绍了我们的多集群训练和多集群网络的方案。

Weizhou Lan

daocloud network cloud-native

Shanghai, China

Actions

View Speaker Profile

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.