據微軟亞洲研究院發布,作為目前唯一被證明能夠將深度學模型擴展到萬億以上參數的方法,MoE 能讓模型學更多信息。
并為計算機視覺、語音識別、自然語言處理和機器翻譯系統等提供支持。
日前微軟亞洲研究院發布了一個高能 MoE 庫 ——Tutel,并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 網絡的 Azure NDm A100 v4 節點上進行了實驗。
讓我們來看一看,這個用于促進大規模 DNN 模型開發的高能 MoE 庫有哪些優勢?其表現又如何?
混合專家(Mixture-of-Experts,簡稱 MoE)是一種深度學模型架構,其計算成本與參數的數量呈次線關系,因此更容易擴展。
MoE 是目前唯一被證明能夠將深度學模型擴展到萬億以上參數的方法,它能讓模型學更多信息。
并為計算機視覺、語音識別、自然語言處理和機器翻譯系統等提供支持,從而以全新的方式為人類社會提供幫助。
微軟亞洲研究院發布了一個用于促進大規模 DNN 模型開發的高能 MoE 庫 ——Tutel,并針對已普遍使用的新 Azure NDm A100 v4 系列進行了高度優化。