《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 業界動態 > GPU高效通信算法——Ring Allreduce

GPU高效通信算法——Ring Allreduce

2019-10-12

  今天介紹一種新的GPU多卡計算的通信優化算法——Ring Allreduce

  先來講一下常規的GPU多卡分布式計算的原理。

  第一點:我們知道GPU在矩陣并行化計算方面非常有優勢,所以適合深度學習的訓練。

  第二點:使用多個GPU卡訓練同一個深度學習任務就是分布式計算。

  第三點:在分布式計算過程中,需要對計算任務資源進行分片,通常的方式是將完整的網絡結構放到每一個GPU上,然后將訓練數據進行分片分發到不同的GPU卡上。

640 (2).JPEG

  于是GPU分布式計算的具體形式就比較清晰了,以上圖為例。GPU1~4卡負責網絡參數的訓練,每個卡上都布置了相同的深度學習網絡,每個卡都分配到不同的數據的minibatch。每張卡訓練結束后將網絡參數同步到GPU0,也就是Reducer這張卡上,然后再求參數變換的平均下發到每張計算卡,整個流程有點像mapreduce的原理。

  這里面就涉及到了兩個問題:

  問題一,每一輪的訓練迭代都需要所有卡都將數據同步完做一次Reduce才算結束。如果卡數比較少的情況下,其實影響不大,但是如果并行的卡很多的時候,就涉及到計算快的卡需要去等待計算慢的卡的情況,造成計算資源的浪費。

  問題二,每次迭代所有的計算GPU卡多需要針對全部的模型參數跟Reduce卡進行通信,如果參數的數據量大的時候,那么這種通信開銷也是非常龐大,而且這種開銷會隨著卡數的增加而線性增長。

  為了解決這樣的問題,就引入了一種通信算法Ring Allreduce,通過將GPU卡的通信模式拼接成一個環形,從而減少隨著卡數增加而帶來的資源消耗,如下圖所示:

640 (1).JPEG

  將GPU卡以環形通信之后,每張卡都有一個左手卡和右手卡,那么具體的模型參數是如何傳遞的呢,可以看下圖:

640.JPG

  因為每張卡上面的網絡結構是固定的,所以里面的參數結構相同。每次通信的過程中,只將參數send到右手邊的卡,然后從左手邊的卡receive數據。經過不斷地迭代,就會實現整個參數的同步,也就是reduce。

  形成以下這張圖的樣式:

640.webp (4).jpg

  通過Ring Allreduce的方式,基本上可以實現當GPU并行卡數的增加,實現計算性能的線性增長。

640.webp (3).jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 亚洲中文字幕久久精品无码喷水 | 奶特别大的三级日本电影| 亚洲人成伊人成综合网久久久| 精品国精品自拍自在线| 国产熟女一区二区三区五月婷| gay同性男男自免费播放| 日本成人不卡视频| 亚洲欧美日韩综合网导航| 美女内射无套日韩免费播放| 国产白嫩美女在线观看| a毛片视频免费观看影院| 故意打开双腿让翁公看| 亚洲av色影在线| 永久久久免费浮力影院| 又粗又硬又大又爽免费视频播放 | 国产在线不卡一区二区三区| 97精品伊人久久久大香线蕉| 成人影片麻豆国产影片免费观看| 久热中文字幕在线精品首页| 欧美黑人bbbbbbbbb| 六月婷婷中文字幕| 里番本子库全彩acg亚洲| 国产精品亚洲片在线花蝴蝶 | 朱竹清被吸乳羞羞漫画| 亚洲视频一区在线播放| 美女被奶乳羞羞漫画在线| 国产成人精品无码免费看| 9999热视频| 嫣嫣是女大生韩漫免费看| 久久久精品2019中文字幕之3| 欧美人与动性xxxxx杂性| 亚洲色偷偷色噜噜狠狠99| 精品福利视频一区二区三区| 国产国产人免费人成免费视频| 18禁男女爽爽爽午夜网站免费| 天天爽夜夜爽夜夜爽| 中国国产高清一级毛片| 日本强好片久久久久久aaa | 色噜噜亚洲男人的天堂| 国产成人女人毛片视频在线| 2022国产成人精品福利网站|