NCCL源码解析②：Bootstrap网络连接的建立最新

来源：CSDN博客　2023-04-20 12:58:02

作者｜KIDGINBROOK更新｜潘丽晨上次介绍到rank0的机器生成了ncclUniqueId，并完成了机器的bootstrap网络和通信网络的初始化，这节接着看下所有节点间bootstrap的连接是如何建立的。

rank0节点执行ncclGetUniqueId生成ncclUniqueId，通过mpi将Id广播到所有节点，然后所有节点都会执行ncclCommInitRank，这里其他节点也会进行初始化bootstrap网络和通信网络的操作，然后会执行到ncclCommInitRankSync。

ncclResult_t ncclCommInitRankSync(ncclComm_t* newcomm, int nranks, ncclUniqueId commId, int myrank, int cudaDev) { ncclResult_t res; CUDACHECK(cudaSetDevice(cudaDev)); NCCLCHECKGOTO(commAlloc(newcomm, nranks, myrank), res, cleanup); NCCLCHECKGOTO(initTransportsRank(*newcomm, &commId), res, cleanup); NCCLCHECKGOTO(devCommSetup(*newcomm), res, cleanup); INFO(NCCL_INIT,"comm %p rank %d nranks %d cudaDev %d busId %x - Init COMPLETE", *newcomm, myrank, nranks, (*newcomm)->cudaDev, (*newcomm)->busId); return ncclSuccess;cleanup: if ((*newcomm) && (*newcomm)->bootstrap) bootstrapAbort((*newcomm)->bootstrap); *newcomm = NULL; return res;}

ncclComm_t是指向ncclComm的指针，ncclComm是一个大杂烩，包含了通信用到的所有上下文信息，里面的字段等用到的时候再介绍，然后通过commAlloc分配newcom，并且完成初始化，比如当前是哪个卡，对应的pcie busid是什么，然后执行initTransportsRank。

(相关资料图)

static ncclResult_t initTransportsRank(struct ncclComm* comm, ncclUniqueId* commId) { // We use 3 AllGathers // 1. { peerInfo, comm } // 2. ConnectTransport[nranks], ConnectValue[nranks] // 3. { nThreads, nrings, compCap, prev[MAXCHANNELS], next[MAXCHANNELS] } int rank = comm->rank; int nranks = comm->nRanks; uint64_t commHash = getHash(commId->internal, NCCL_UNIQUE_ID_BYTES); TRACE(NCCL_INIT, "comm %p, commHash %lx, rank %d nranks %d - BEGIN", comm, commHash, rank, nranks); NCCLCHECK(bootstrapInit(commId, rank, nranks, &comm->bootstrap)); // AllGather1 - begin struct { struct ncclPeerInfo peerInfo; struct ncclComm* comm; } *allGather1Data; NCCLCHECK(ncclCalloc(&allGather1Data, nranks)); allGather1Data[rank].comm = comm; struct ncclPeerInfo* myInfo = &allGather1Data[rank].peerInfo; NCCLCHECK(fillInfo(comm, myInfo, commHash)); NCCLCHECK(bootstrapAllGather(comm->bootstrap, allGather1Data, sizeof(*allGather1Data))); NCCLCHECK(ncclCalloc(&comm->peerInfo, nranks+1)); // Extra rank to represent CollNet root for (int i = 0; i < nranks; i++) { memcpy(comm->peerInfo+i, &allGather1Data[i].peerInfo, sizeof(struct ncclPeerInfo)); if ((i != rank) && (comm->peerInfo[i].hostHash == myInfo->hostHash) && (comm->peerInfo[i].busId == myInfo->busId)) { WARN("Duplicate GPU detected : rank %d and rank %d both on CUDA device %x", rank, i, myInfo->busId); return ncclInvalidUsage; } }

看下bootstrapInit：

ncclResult_t bootstrapInit(ncclUniqueId * id, int rank, int nranks, void** commState) { ncclNetHandle_t* netHandle = (ncclNetHandle_t*) id; bool idFromEnv = getenv("NCCL_COMM_ID") != NULL; struct extState* state; NCCLCHECK(ncclCalloc(&state, 1)); state->rank = rank; state->nranks = nranks; *commState = state; TRACE(NCCL_INIT, "rank %d nranks %d", rank, nranks); struct extInfo info = { 0 }; info.rank = rank; info.nranks = nranks; void *tmpSendComm, *tmpRecvComm; // Pass the remote address to listen via info if (idFromEnv) { memcpy(&info.extHandleListen, netHandle, sizeof(ncclNetHandle_t)); memcpy(&info.extHandleListenRoot, netHandle, sizeof(ncclNetHandle_t)); } // listen will return the local address via info (specify interface type "findSubnetIf") state->dev = idFromEnv ? findSubnetIf : 0; void* extBstrapListenCommRoot; NCCLCHECK(bootstrapNetListen(state->dev, &info.extHandleListen, &state->extBstrapListenComm)); NCCLCHECK(bootstrapNetListen(state->dev, &info.extHandleListenRoot, &extBstrapListenCommRoot)); // stagger connection times to avoid an overload of the root at very high rank counts if (nranks > 128) { long msec = rank; struct timespec tv; tv.tv_sec = msec / 1000; tv.tv_nsec = 1000000 * (msec % 1000); TRACE(NCCL_INIT, "rank %d delaying connection to root by %ld msec", rank, msec); (void) nanosleep(&tv, NULL); } // send info on my listening socket to root NCCLCHECK(bootstrapNetConnect(state->dev, netHandle, &tmpSendComm)); NCCLCHECK(bootstrapNetSend(tmpSendComm, &info, sizeof(info))); NCCLCHECK(bootstrapNetCloseSend(tmpSendComm)); // get info on my "next" rank in the bootstrap ring from root}

首先看下commState，即ncclComm的bootstrap，类型为extState。

struct extState { void* extBstrapListenComm; void* extBstrapRingRecvComm; void* extBstrapRingSendComm; ncclNetHandle_t* peerBstrapHandles; struct unexConn* unexpectedConnections; int rank; int nranks; int dev;};

其中extBstrapRingSendComm是当前节点连接next的socket连接，extBstrapRingRecvComm是当前节点和prev节点的socket连接，extBstrapListenComm是当前节点的监听socket，peerBstrapHandles是所有rank的ip port（对应extBstrapListenComm），dev默认为0，表示用第几个ip地址。

然后通过bootstrapNetListen创建extHandleListen和extHandleListenRoot两个bootstrap comm，如前文所述，bootstrap comm其实就是保存了fd，这里创建两个comm的原因是extHandleListen是rank之间实际使用的bootstrap连接，extHandleListenRoot是rank0节点和其他所有rank进行通信使用的连接。

static ncclResult_t bootstrapNetListen(int dev, ncclNetHandle_t* netHandle, void** listenComm)

bootstrapNetListen函数上节有介绍过，会获取到第dev个当前机器的ip，然后listen获取监听fd，将ip port写到nethandle，获取到的bootstrap comm写到listencomm。

然后将rank，nrank，extHandleListen和extHandleListenRoot写到extInfo里。

struct extInfo { int rank; int nranks; ncclNetHandle_t extHandleListenRoot; ncclNetHandle_t extHandleListen;};

netHandle为ncclUniqueId，即rank0的ip port，然后通过bootstrapNetConnect创建bootstrap send comm，类比bootstrapNetListen，bootstrapNetConnect就是建立到netHandle的socket连接，将socket写到sendComm里，这里dev并没有用到。

static ncclResult_t bootstrapNetConnect(int dev, ncclNetHandle_t* netHandle, void** sendComm)

然后通过bootstrapNetSend将extInfo发送出去，即发给rank0：

static ncclResult_t bootstrapNetSend(void* sendComm, void* data, int size) { struct bootstrapNetComm* comm = (struct bootstrapNetComm*)sendComm; NCCLCHECK(socketSend(comm->fd, &size, sizeof(int))); NCCLCHECK(socketSend(comm->fd, data, size)); return ncclSuccess;}

其中socketSend就是执行send接口发送数据。

然后通过bootstrapNetCloseSend关闭fd。

rank0收到数据后会做什么工作呢，回顾一下，rank0的节执行ncclGetUniqueId生成ncclUniqueId，其中在执行bootstrapCreateRoot的最后会启动一个线程执行bootstrapRoot。

static void *bootstrapRoot(void* listenComm) { struct extInfo info; ncclNetHandle_t *rankHandles = NULL; ncclNetHandle_t *rankHandlesRoot = NULL; // for initial rank <-> root information exchange ncclNetHandle_t zero = { 0 }; // for sanity checking void* tmpComm; ncclResult_t res; setFilesLimit(); TRACE(NCCL_INIT, "BEGIN"); /* Receive addresses from all ranks */ int nranks = 0, c = 0; do { NCCLCHECKGOTO(bootstrapNetAccept(listenComm, &tmpComm), res, out); NCCLCHECKGOTO(bootstrapNetRecv(tmpComm, &info, sizeof(info)), res, out); NCCLCHECKGOTO(bootstrapNetCloseRecv(tmpComm), res, out); if (c == 0) { nranks = info.nranks; NCCLCHECKGOTO(ncclCalloc(&rankHandles, nranks), res, out); NCCLCHECKGOTO(ncclCalloc(&rankHandlesRoot, nranks), res, out); } if (nranks != info.nranks) { WARN("Bootstrap Root : mismatch in rank count from procs %d : %d", nranks, info.nranks); goto out; } if (memcmp(&zero, &rankHandlesRoot[info.rank], sizeof(ncclNetHandle_t)) != 0) { WARN("Bootstrap Root : rank %d of %d ranks has already checked in", info.rank, nranks); goto out; } // Save the connection handle for that rank memcpy(rankHandlesRoot+info.rank, info.extHandleListenRoot, sizeof(ncclNetHandle_t)); memcpy(rankHandles+info.rank, info.extHandleListen, sizeof(ncclNetHandle_t)); ++c; TRACE(NCCL_INIT, "Received connect from rank %d total %d/%d", info.rank, c, nranks); } while (c < nranks); TRACE(NCCL_INIT, "COLLECTED ALL %d HANDLES", nranks); // Send the connect handle for the next rank in the AllGather ring for (int r=0; r

listenComm是上一个博文中rank0创建的监听fd，bootstrapNetAccept是从listenComm中获取一个新连接，使用新连接的fd创建recvcomm。

static ncclResult_t bootstrapNetAccept(void* listenComm, void** recvComm)

然后通过bootstrapNetRecv读取tmpComm的数据，即其他rank发送来的extInfo，然后保存其他rank的extHandleListen和extHandleListenRoot，这个时候rank0就获取到其他所有rank的ip和port了。获取完所有rank的info之后开始建环，将节点(r+1) % nranks的extHandleListen发送给节点r，就是说将节点r的next节点的nethandle发送给节点r。这里可以看出，每个节点创建了两个listen comm，其中rank0使用extHandleListenRoot进行通信，其他节点之间通过extHandleListen进行通信。

然后再回去接着看bootstrapInit。

ncclResult_t bootstrapInit(ncclUniqueId * id, int rank, int nranks, void** commState) { // get info on my "next" rank in the bootstrap ring from root ncclNetHandle_t extHandleNext; NCCLCHECK(bootstrapNetAccept(extBstrapListenCommRoot, &tmpRecvComm)); NCCLCHECK(bootstrapNetRecv(tmpRecvComm, &extHandleNext, sizeof(extHandleNext))); NCCLCHECK(bootstrapNetCloseRecv(tmpRecvComm)); NCCLCHECK(bootstrapNetCloseListen(extBstrapListenCommRoot)); NCCLCHECK(bootstrapNetConnect(state->dev, &extHandleNext, &state->extBstrapRingSendComm)); // Accept the connect request from the previous rank in the AllGather ring NCCLCHECK(bootstrapNetAccept(state->extBstrapListenComm, &state->extBstrapRingRecvComm)); // AllGather all listen handlers NCCLCHECK(ncclCalloc(&state->peerBstrapHandles, nranks)); memcpy(state->peerBstrapHandles+rank, info.extHandleListen, sizeof(ncclNetHandle_t)); NCCLCHECK(bootstrapAllGather(state, state->peerBstrapHandles, sizeof(ncclNetHandle_t))); TRACE(NCCL_INIT, "rank %d nranks %d - DONE", rank, nranks); return ncclSuccess;}

接着所有rank都会在extHandleListenRoot上接收新连接创建tmpRecvComm，然后接收到当前rank的next的ip，port；然后连接next创建bscomm到state->extBstrapRingSendComm，接收prev的连接创建bscomm到state->extBstrapRingRecvComm，到现在bootstrap网络连接就完全建立起来了，如下图：

最后gather所有rank的ip port，首先将自己的nethandle放到peerBstrapHandles的对应位置，如下所示。

然后执行bootstrapAllGather：

ncclResult_t bootstrapAllGather(void* commState, void* allData, int size) { struct extState* state = (struct extState*)commState; char* data = (char*)allData; int rank = state->rank; int nranks = state->nranks; TRACE(NCCL_INIT, "rank %d nranks %d size %d", rank, nranks, size); /* Simple ring based AllGather * At each step i receive data from (rank-i-1) from left * and send previous step"s data from (rank-i) to right */ for (int i=0; iextBstrapRingSendComm, data+sslice*size, size)); // Recv slice from the left NCCLCHECK(bootstrapNetRecv(state->extBstrapRingRecvComm, data+rslice*size, size)); } TRACE(NCCL_INIT, "rank %d nranks %d size %d - DONE", rank, nranks, size); return ncclSuccess;}

每一次将自己的data发送给对应的rank，然后接收其他rank发送过来的data，如下图。

第一步：

第二步：

到这里每个rank就都有了全局所有rank的ip port。

最后总结一下，本节主要创建了bootstrap环形网络连接，并保存到ncclComm里。

其他人都在看

“ChatGPT们”的淘金时代

大型语言模型的推理演算

GPT-4创造者：第二次改变AI浪潮的方向

ChatGPT作者Schulman：我们成功的秘密武器

比快更快，开源Stable Diffusion刷新作图速度

OneEmbedding:单卡训练TB级推荐模型不是梦

GLM训练加速：性能最高提升3倍，显存节省1/3

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

				
							
				
				
				
					推荐DIY文章
					
					 													
						
						
							热门：你却说花花世界不必当真是哪首歌 出自张敬轩演唱歌曲《吻得太逼真》 
						
												
						
						
							唇彩保质期一般是多久 如果唇彩已经开封一定要赶紧用完_全球速读 
						
												
						
						
							怎么用草编戒指 如何使用吸管环编 还有哪些材料可用 
						
												
						
						
							当前消息！冰墩墩预售时间回顾 每次预售2000件 价钱为88元一个 
						
												
						
						
							全球今亮点！九阳电压力锅内胆是什么材质 九阳电压力锅两种内胆的使用讲解 
						
												
						
						
							七言七字春联带横批大全 为大家整理七字春联 祝大家新年快乐 
						
						
					
				
				
				
					精彩新闻
					
																				热点评！路由器限速设置如何进行 购买和使用路由器的注意事项是什么 
													关于诺顿磁盘医生的介绍 是一款特别好的磁盘检测修复工具-世界热资讯 
													当前短讯！手机数据线连接电脑怎么找到qq文件 qq数据线该怎么用？ 
													touch苹果皮 TOUCH4采用了和4S一样的ios5.1系统吗 全球通讯 
													电视屏幕硬屏的好还是软屏的好:软屏容易损坏但散热效果好 天天热议 
													狙击精英v2配置分析 你能在精英V2重制版游戏中玩什么配置？-每日关注 
													环球速递！联想V450必须安装的驱动 联想的官网能下载哪些驱动程序 
													东方甄选旅游式带货，一场卖了1亿元 
													春色红梅香万树,富贵自坐锦帐中是什么生肖 一般都是指兔子吗 
													火车助手12306 将预订时间缩短10倍 也为学生抢票提供了极大的便利 
													今日观点!心动的信号4结局配对 以走到最后有人牵手成功吗 
													联想终结者B5介绍：是一款时尚的一体机电脑 体现了高品位 
													索爱k770i评测 是一款直板手机 使用M2作为存储卡进行扩展_全球观点 
													A288T及怎么样 搭配256MB运存和512MB内存表现如何-世界快播报 
													【世界速看料】手机网上银行如何开通 登录后可以进行哪些业务操作 
													平水韵总目速查 诗韵106韵中有上声15韵以及下声15韵 
													二十四小时播报：灰熊主帅湖人除詹眉外有很多武器 詹金斯莫兰特恢复的进展很顺利会在赛前决定他是否出战-今日热门 
													江南四姓的父系研究 姓氏在地域分布上都有什么特点-当前滚动 
													1秒等于多少毫秒 典型相机的最小曝光时间就是一毫秒吗_环球动态 
													如何申请appleid 其账户是苹果公司为旗下产品推出的认证系统 
													世界新消息丨爱上鲨鱼的人鱼中文歌词 该曲是电视剧《我的女孩》中的插曲 
													每日快讯!游戏王混沌力量卡组搭配 注意卡牌只有在比赛模式下才有用 
													521是什么节日代表什么意思 520主要是为女性设置的节日吗 
													羊刀是什么和什么合成的 英雄联盟中的羊刀指的是鬼索的狂暴之刃吗 
													微速讯：联想乐pad y1011解说 以其出色的综合性能进入了我们的视线 
													无氧铜和纯铜的区别 前者是指不含氧也不含任何脱氧剂残留物的纯铜 
													全球速讯：綦江怎么读和发音 綦江是重庆的一个县吗 拼音读什么？ 
													即时焦点：杜甫的一生简短概括 出生于公元712年 是唐代著名诗人 
													苹果ios 5.0.1固件下载大全 本更新包括以下功能改进及错误修复 
													环球热头条丨伏笔是什么意思：指的是文章前面部分是后面部分埋伏的线索 
													日本经典电影推荐 利用这些时间看一些老电影重温经典 
													同程网飞机票订单查询方法 同程旅游是否支持多平台登录 
													世界十大生物学家 安东尼·范·列文虎克是微生物学的先驱 
													wimax是什么技术:是全球微波互联接入 并有这五大优势 快消息 
													天天观察：欢欢喜喜过大年手抄报简单又漂亮 春节手抄报的好题目是什么 
													环球聚焦：特仑苏纯牛奶多少钱一箱 如果是偏远的地方 价格会在65左右 
													异形虫历险记攻略 这部游戏的冒险攻略问题全面解说 
													经典日本动画《光能勇士》:讲述了未来月球将被改造成适合人类居住的星球的故事 
													澳门蹦极塔:是世界第十座独立观光塔，也是世界塔联盟成员 环球快播报 
													一英寸等于多少毫米 介绍一些英制和公制单位的换算关系|焦点消息 
													世界播报:木香的功效与作用及食用方法 其是否可用于治疗脾胃气滞 
													每日速讯：1美元等于多少美分 100美分是一美元 并且它是最小的应用单位 
													奉化一日游免费景点 杭州自驾游一日游的周边景点推荐|全球快资讯 
													人口快速增长将改变房地产市场 
													吉他入门基础知识 吉他有六根弦 从低音到高音依次是这些 
													上海好玩的地方有哪些 外滩世界建筑博览会为什么是十大必去景点之一 
													安全快门计算公式 这是指手持稳定拍摄的快门速度吗 
													中国好声音毕夏现状 年纪轻轻就才华横溢 为什么他们现在消失了？_焦点快看 
													《赛博朋克2077》4K纹理包：小岛秀夫更清晰了！ 
													分时横盘选股公式 要想赚大钱并没有想象中那么容易 
													今头条！周大福黑珍珠吊坠价格 造型设计精致 珍珠吊坠款式时尚 
													象棋残局破解要领 在残局中的功能技能和运用都需注意什么 天天看热讯 
													全球热文：养羊的利润与成本解说 种羊购买成本和羊舍建设费需要多少 
													【环球快播报】数码相机数据恢复 相机内存卡照片删除了该怎么复原 
													天天精选！小米官网怎么抢手机 官网注册的时候都要填写什么信息 
													环球热点！舍弗勒携可持续交通解决方案亮相2023上海车展 
													当前关注：类恶魔城《渎神2》新宣传片释出 今年夏季上线 
													雅漾舒护活泉水50ml怎么样 使用这一款还能为肌肤降温 -环球聚焦 
													潘达利亚飞行解锁 首先玩家需要有60级 或者购买飞行坐骑|要闻 
													【世界播资讯】复眼是什么意思 是由无数个单眼组成的 就像蜻蜓和苍蝇的眼睛 
													李跃儿教育论坛怎么样 在此把我的读书笔记分享给你 
													焦点短讯！草字头高木的藁念什么你知道吗 让我们一起来了解下吧  
													头条：鱿鱼游戏大结局男主为啥回去 鱿鱼游戏真的结束了吗？ 
													冒险岛一朵玫瑰怎么得 冒险岛的口袋物品怎么装备？ 
													全球观热点：什么格式的视频最小最清晰 上传网络的视频怎样才能保证清晰度 
													【全球独家】世人若被明月累是什么意思 这句话出自明代学者钱复的哪首诗 
													全球快报:莫言的个人介绍 莫言获奖后的1500天里都发生了什么 
													了望的意思是什么有什么深意吗？在古汉语中是什么意思 
													中国有哪些传统民俗？农历正月十五晚上是中国传统的元宵节_环球快播报 
													走心厦门自由行攻略 厦门春天多雨夏天太热 最好是秋冬季前来_全球微动态 
													世界球精选！一个人的夜我的心应该放在哪里 这句歌词是什么意思？ 
													葳蕤繁祉延彼遐龄读音 什么叫“蓬勃兴旺，延其远龄”？主要用在哪里？ 每日播报 
													环球看热讯：网络视频监控系统拓扑图:作用是可以看清楚网络中各个节点之间的链接  
													快资讯丨免费视频聊天app哪个最好:抖音是目前最为火热的一款短视频社交软件  
													最新快讯!黄磊的《深夜食堂》豆瓣评分仅有2.3分 为什么上映后差评不断 
													索尼ps5 pro即将发布，ps5现已广泛发售_全球视讯 
													观焦点：班主任随笔感悟点滴:记忆是一朵无花的玫瑰，永远不会凋零  
													【世界速看料】脚著谢公屐的著读音 唐代大诗人李白的《梦里登天目山》还写了什么 
													全球快看：专业测智商的软件有哪些 忽略了的潜在优势由此发掘  
													519是什么日子 是我们一年一度的中国旅游日 值得期待
 
													卡西欧情侣手表新款 见证坚贞爱情的情侣对表都有什么 
													【环球新要闻】防辐射服十大排名哪个牌子好 十大品牌排名的具体名单如下 
													全球动态:怎么下载新浪视频到手机 可以复制链接打开浏览器下载吗 
													圣大保罗男包品牌大全 一个得体的钱包肯定是要天然皮质的 
													耐克腰包多少钱 这些款式都非常适合日常出门背和使用 世界热头条 
													2020电信宽带包年多少钱一年 电信宽带资费套餐都有什么 热讯 
													硝化细菌的作用 可以调节水中的微生物平衡 和消除氨的影响 
													企业客服系统软件大全盘点 哪家在线客服系统比较好  
													全球今热点：在线加密解密工具 用这个软件可以防止直接读取明文 
													【环球快播报】达芬奇厉害到什么程度 你知道镜像书写是达芬奇独特的书写习惯吗 
													K3003的缺点和优点一样明显 谈谈对K3003声音的整体理解 
													排名前100的英文歌终于找全了 枪炮与玫瑰的这首歌你有没有听过 环球观热点 
													自己怎样建博客网站 推荐开源程序emlog 适合新手前期学习-环球简讯 
													adizero跑鞋:Adizero Ghost和zero有什么不同 性能如何 环球观热点 
													索尼发布旗舰级双液晶4k hdr显示器-环球信息 
													平板电脑怎么连接网络 没有wifi平板电脑该怎么上网  
													天天即时看！保卫萝卜挑战8关攻略 其小丑属性技能介绍及小丑实力分析 
													笔记本小键盘怎么关 出现这些时建议您重新安装一下键盘的驱动 
													暖暖环游世界攻略韩国支线 省钱版S级搭配攻略来了 
													光驱自动弹出的原因:可能是光驱内部的触动感受器有问题