新聞中心

EEPW首頁 > 設計應用 > Habana Gaudi加速器首次運用于Amazon EC2云

Habana Gaudi加速器首次運用于Amazon EC2云

作者:時間:2021-11-19來源:電子產品世界收藏


本文引用地址:http://www.recipesarchive.com/article/202111/429782.htm

“性價比提升高達40%”以及背后的數字

近日AWS宣布將推出采用Habana? Gaudi? AI加速器的Amazon EC2 DL1.24xlarge實例。這是AWS首個不基于GPU的AI訓練實例。

AWS首席執行官Andy Jassy在2020 re:Invent和AWS最近宣布實例應用的活動上,介紹了創建這一新型訓練實例類的初衷:“為終端客戶提供比目前這一代基于GPU的實例性價比提升40%的新實例。”

以下詳述Gaudi在常用計算機視覺和自然語言處理工作量方面具備的成本效益。

AWS針對EC2 DL1實例以及基于GPU的p4d、p3dn和p3實例發布了DL1按需每小時定價,終端用戶可以通過一種簡單的方法來自行評估性價比。采用Nvidia在NGC上以及Habana在軟件Vault中提供的最新TensorFlow Docker容器,并分別在不同實例上運行這些容器,可比較訓練吞吐量和每小時定價。

不同的模型提供的結果不同,而且Gaudi上目前也并非支持所有模型。在本次評估中,我們考慮的是兩種常用模型:ResNet-50和BERT-Large。

以下表格例舉在各種實例類型上訓練TensorFlow ResNet-50的訓練吞吐量、每小時定價和計算出的吞吐量/美元(即百萬張圖像/美元)。以p4d.24xlarge實例上設置的性價比為基準,我們可計算出對于此工作量,其他每種實例類型的相對值,以及DL1為目前使用基于GPU實例的EC2終端客戶所節省的相應成本百分比。

1637307942130052.png

(*) Habana于6月28日在基于GPU的AWS EC2實例上使用Nvidia深度學習AMI (Ubuntu 18.04) + Docker 21.06-tf1-py3所測得的結果,請訪問:https://ngc.nvidia.com/catalog/containers/nvidia.tensorflow
模型:https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/Classification/ConvNets/resnet50v1.5
您測得的性能結果可能會有所不同。
(**) Habana在AWS EC2 DL1.24xlarge實例上使用在Habana的Vault中集成了SynapseAI 1.0.1-81 Tensorflow 2.5.1容器的DLAMI所測得的結果,模型:https://github.com/HabanaAI/Model-References/tree/master/TensorFlow/computer_vision/Resnets/resnet_keras。基于在以下網址發布的定價:https://aws.amazon.com/ec2/pricing/on-demand
您測得的性能結果可能會有所不同。

根據Habana對各種EC2實例的測試結果以及Amazon發布的定價,我們發現,相比p4d實例,DL1能節省44%的ResNet-50訓練成本。對于p3dn最終用戶,ResNet-50的訓練成本可節省69%。

Habana認識到MLPerf性能基準測試的重要性,用戶可以查找我們在6月份發布的針對8個基于Gaudi的系統進行基準測試的1.0提交結果 - 與DL1.24xlarge非常類似。在此次MLPerf提交結果中,Habana并沒有應用數據封裝或層融合等額外的軟件優化功能來提高性能。我們的目標是提交的結果與參考代碼最接近,并能代表客戶使用目前的SynapseAI? TensorFlow軟件可以獲得的即時可用性能。因此,客戶能輕松對模型進行小幅調整(更改數據、切換層等),同時保持性能相差無幾。在TensorFlow上測得的MLPerf TTT結果與我們早期客戶現在看到的訓練吞吐量相似。

雖然每個實例的絕對吞吐量有所下降,但基于Gaudi的EC2 DL1定價遠低于p4d。這是怎么做到的呢?盡管基于16nm和HBM2的Gaudi封裝的晶體管數量不如基于7nm和HBM2e的A100 GPU那么多,但Gaudi的架構以效率為宗旨進行了全新設計,相較于GPU架構,Gaudi架構的資源利用率更高,包含的系統組件更少。結果,系統成本下降,從而為最終用戶提供更低價格。

在語言模型中,Gaudi與GPU的性價比提升幅度不如視覺模型,相比p4d,成本節省了10%,相比p3dn,成本節省了54%。BERT-Large是目前常用的一種模型,我們使用第1階段中的吞吐量來代表用戶可以自行測量的性能。下面是在實際EC2實例上使用Nvidia的NGC中以及Habana的Vault和GitHub中發布的最新即時可用容器和模型超參數針對TensorFlow所測得的結果。

1637307966391115.png

(*) Habana于6月28日在基于GPU的AWS EC2實例上使用Nvidia深度學習AMI (Ubuntu 18.04) + Docker 21.06-tf1-py3所測得的結果,請訪問:https://ngc.nvidia.com/catalog/containers/nvidia.tensorflow/tags
模型:https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT
您測得的性能結果可能會有所不同。
(**) Habana在AWS EC2 DL1.24xlarge實例上使用在Habana的Vault中集成了SynapseAI 1.0.1-81 Tensorflow 2.5.1容器的DLAMI所測得的結果,模型:https://github.com/HabanaAI/Model-References/tree/master/TensorFlow/nlp/bert
發布的定價:https://aws.amazon.com/ec2/pricing/on-demand
您測得的性能結果可能會有所不同。

Habana提交的MLPerf BERT結果代表了客戶通過目前的SynapseAI? TensorFlow軟件可獲得的即時可用性能。因此,客戶可能輕松對模型進行小幅調整,同時保持性能相差無幾。

NVIDIA在MLPerf BERT提交結果中采用了一系列優化功能,這些功能在其已發布的軟件中未提供,也很難用于一般用途。例如,他們將整個multi-head attention block融合到單一內核中。如果客戶希望對長序列使用不同的attention,他們將不得不更改內核,否則會導致性能下降。NVIDIA還使用了在其標準軟件分發中未提供的自定義數據加載技術。

將A100與DL1在NGC提供的最新Tensorflow AMI(基于21.06-tf1-py3 NGC Docker容器)上的BERT性能進行對比,從中可以看出就算是對于BERT也能節省成本。Habana計劃下個月向MLPerf提交對BERT實施軟件優化后的結果,其中將證明相比5月份的提交結果,性能有顯著提高。

Gaudi的價值主張立足于性價比和易用性。Habana提供的架構選項旨在提升效率,不會讓終端用戶遷移到Gaudi的工作產生困難。

如果您有興趣了解提前獲得Gaudi訪問權限的開發人員對Gaudi和DL1的看法,請參閱Habana專題介紹Amazon EC2 DL1實例的產品頁面,其中引述了Seagate、Riskfuel、Leidos 等公司相關人員的想法。

“我們預計,搭載Habana Gaudi加速器的Amazon EC2 DL1實例所具備的顯著性價比優勢,在未來很可能會成為AWS計算集群的有力補充,”Seagate高級分析部運營與技術高級分析工程總監Darrell Louder表示:“隨著Habana Labs的不斷發展,支持的運營商覆蓋范圍越來越大,有潛力擴展來支持更多的企業用例,從而進一步節省成本。”

“AI和深度學習是我們機器視覺能力的核心,有助于客戶在我們服務的各個行業中做出更好的決策。為了提高準確性,數據集變得越來越大,越來越復雜,因此需要更大、更復雜的模型。這就推動了提高計算性價比的需求,”Fractal集團首席執行官Srikanth Velamakanni說:“與基于GPU的EC2實例相比,新的Amazon EC2 DL1實例承諾能顯著降低訓練成本。我們預計,對于廣泛的客戶來說,這一優點將使云端的AI模型訓練無論在成本競爭力還是可訪問性方面都較以往有大幅提升。”

Leidos衛生與公共服務部首席技術官Chetan Paul表示:“目前我們支持推動醫療保健進步的眾多技術中,其中一項技術是使用機器學習和深度學習基于醫學成像數據對疾病進行診斷。我們的海量數據集需要及時、高效的訓練,為苦心鉆研一些最亟待解決的醫學謎題的研究人員提供幫助。由于Leidos及其客戶需要對深度學習模型進行快速簡單而又經濟高效的訓練,我們很高興與英特爾和AWS攜手,共同踏上基于Habana Gaudi AI處理器的Amazon EC2 DL1實例的發展之旅。使用DL1實例后,我們預計模型訓練速度和效率都會有所提升,進而降低研發風險和成本。”

Riskfuel首席執行官Ryan Ferguson表示:“有兩個因素吸引我們采用基于Habana Gaudi AI加速器的Amazon EC2 DL1實例。一是我們希望確保銀行和保險業客戶可以運行利用了最新硬件的Riskfuel模型。幸運的是,我們發現將模型遷移到DL1實例非常簡單 — 實際上,只需更改幾行代碼即可。二是訓練成本在我們的支出中占主要部分,高達40%的性價比提升承諾對我們的利潤有著潛在的實質性好處。”

如今,我們的參考模型存儲庫中有20種高需求模型,我們已經制定了路線圖,計劃對這些模型以及軟件功能進行擴展。您也可以在Habana的GitHub上查看對所有人開放的該路線圖。

開發者之旅始于SynapseAI? SDK。SDK的詳細信息在此不再贅述。SynapseAI?軟件產品組合旨在促進基于Habana Gaudi加速器的高性能深度學習訓練。它包括Habana圖形編譯器和運行時、TPC內核庫、固件和驅動程序以及開發人員工具,如用于自定義內核開發的Habana分析器和TPC SDK。

SynapseAI與TensorFlow和PyTorch框架相集成。與Gaudi PyTorch集成相比,TensorFlow集成更加成熟,因為后者的開發時間比前者晚了半年。

因此,相較于Habana在TensorFlow模型的表現,Habana 在PyTorch模型上的性能略低(吞吐量和訓練時間)。我們在SynapseAI用戶指南中以及GitHub上的參考模型中記錄了已知限制。此外,我們還在Habana開發人員網站上發布了參考模型的性能結果。Habana團隊致力于在后續發行版中不斷提升易用性和性能。

我們十分清楚,在進一步開發軟件和模型覆蓋范圍方面還有很多工作要做,我們將依靠數據研究人員和開發人員來探索Gaudi,并向我們提供相應的反饋和請求。我們期待通過開發人員站點和GitHub,對于云端(通過 Amazon EC2 DL1 實例)和本地使用Gaudi的問題與DL社區進行互動。

下一步,我們在軟件方面還有很多工作要做,與此同時 — Habana 正在開發下一代Gaudi2 AI處理器,新一代處理器將Gaudi架構從16nm提升到7nm,進一步提高了性價比,造福于終端客戶,同時保持相同的架構,并充分利用我們利用Gaudi構建的相同SynapseAI軟件和生態系統。

目前,Habana團隊對通過基于Gaudi的Amazon EC2 DL1實例,為AI提供AWS云中最具成本效益的訓練感到滿意。我們對AI傾注的關注和努力甚于以往任何時候,我們持續全情投入AI發展。



關鍵詞:

評論


相關推薦

技術專區

關閉
中文天堂最新版在线www-bt天堂网www天堂-电影天堂 欧美在线香蕉在线视频
#耿直真香哥黑化卖惨# 我要我们在一起 外交部回应拜登重申不支持台独 男子写80页PPT拯救爱情却离婚 动物世界 中国共产党第三个历史决议全文发布 林丹世界排名被正式移除 国足最新出线概率0.08% #耿直真香哥黑化卖惨# 国际人士热议中共十九届六中全会 #耿直真香哥黑化卖惨# 周冠宇成为中国首位F1车手 大连一密接者擅自点外卖聚餐被调查 胡锡进谈中美元首会晤 动保组织向上饶信州区申请信息公开 扫黑风暴 北京冬奥火炬宣传片获金花环奖 意大利错失直接晋级世界杯资格 寻梦环游记 我要我们在一起 五个扑水的少年 男子写80页PPT拯救爱情却离婚 许家印为恒大注入超70亿续命资金 中美元首会谈重点内容 胡锡进谈中美元首会晤 大连一密接者擅自点外卖聚餐被调查 中美元首是否达成新共识?中方回应 国足最新出线概率0.08% 入殓师 得知母亲出事男子在地铁痛哭 红色通缉令 24岁救人牺牲消防员获批为烈士 美人鱼 胡锡进谈中美元首会晤 嘉南传 动物世界 苏宁易购回应破产传闻 #耿直真香哥黑化卖惨# 沙丘 许家印为恒大注入超70亿续命资金 大连一密接者擅自点外卖聚餐被调查 中美元首是否达成新共识?中方回应 俄方回应卫星碎片危及国际空间站 24岁救人牺牲消防员获批为烈士 星际穿越 林丹世界排名被正式移除 中美元首是否达成新共识?中方回应 中美元首是否达成新共识?中方回应 男子写80页PPT拯救爱情却离婚 林丹世界排名被正式移除 中美元首会谈重点内容 两个女人 红色通缉令 美人鱼 国足战澳大利亚大名单:4归化在列 罗永浩吐槽苹果文案没文化 24岁救人牺牲消防员获批为烈士 外交部回应拜登重申不支持台独 房价上涨城市创七年新低 拐点来了? 苏宁易购回应破产传闻 大连现超级传播者26人在同一传播链 罗永浩吐槽苹果文案没文化 动物世界 房价上涨城市创七年新低 拐点来了? 动保组织向上饶信州区申请信息公开 国足战澳大利亚大名单:4归化在列 你好李焕英 林丹世界排名被正式移除 得知母亲出事男子在地铁痛哭 动保组织向上饶信州区申请信息公开 意大利错失直接晋级世界杯资格
乡宁县| 峡江县| 轮台县| 南通市| 安义县| 丽江市| 邓州市| 长垣县| 曲阜市| 沈阳市| 贞丰县| 乡宁县| 特克斯县| 油尖旺区| 绩溪县| 泸水县| 交口县| 沂源县| 乌海市| 岳池县| 萝北县| 丹寨县| 稻城县| 监利县|