亚洲熟妇av一区二区三区,久久久久久精品观看sss,免费观看四虎精品国产永久,国产成人精品一区二三区熟女,天堂网在线最新版www资源网

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

當(dāng)“人工智能步入落地之年” AI 不再是概念,而是全面進(jìn)入到企業(yè)的戰(zhàn)略規(guī)劃之中。算力作為人工智能應(yīng)用的平臺和基礎(chǔ),它的發(fā)展推動了整個人工智能系統(tǒng)的發(fā)展和快速演進(jìn),成為人工智能的最核心要素。

隨著科技的不斷發(fā)展,獲取算力的方式和途徑越來越豐富,就目前而言,公有云和數(shù)據(jù)中心(私有云)已經(jīng)成為兩大主流的算力獲取方式。不過,在實際的部署和應(yīng)用中,它們對于中小型AI開發(fā)團(tuán)隊來說都存在著很多問題。比如,中小型 AI 開發(fā)團(tuán)隊的 AI 模型訓(xùn)練往往是階段性的,而階段性訪問公有云需要按次收取算力費用,如此累積算下來將是一筆不菲的投入,相比之下,一次性購買一臺 GPU 工作站會更加劃算。而建立私有的數(shù)據(jù)中心,不僅需要批量購置 GPU 服務(wù)器,還需要搭建標(biāo)準(zhǔn)機(jī)房、高帶寬網(wǎng)絡(luò)部署,與此同時更需要增加專業(yè)IT維護(hù)人員的工作負(fù)荷,這對于中小型AI開發(fā)團(tuán)隊來說相當(dāng)奢侈。

從中小型AI開發(fā)團(tuán)隊的使用場景和使用需求中不難發(fā)現(xiàn),降本增效是他們衡量一款解決方案是否合適的重要因素之一。這意味著算力設(shè)備需要在保障團(tuán)隊算力需求,可以共享使用的同時,還要做到簡單部署易操作,省時省力省空間。也因此,數(shù)據(jù)科學(xué)工作站的出現(xiàn),可以很好地滿足這些切實需求。

數(shù)據(jù)科學(xué)工作站是 PC 形態(tài)的桌面超級計算機(jī),相較于 PC ,它支持雙路 Intel? 至強(qiáng)?鉑金/金牌等系列的處理器和主板芯片海量內(nèi)存、大容量 SATA 硬盤以及多塊 NVIDIA ?高端 RTX? 專業(yè)級顯卡等,可以滿足算法訓(xùn)練等 AI 工作流程中所需要的強(qiáng)大算力需求以及圖形應(yīng)用中的海量浮點運算和 3D 渲染工作等對硬件的苛刻要求。

數(shù)據(jù)科學(xué)工作站與公有云或數(shù)據(jù)中心相比,不僅性價比高,更容易部署,而且噪音低,可以讓中小型AI開發(fā)團(tuán)隊直接在辦公區(qū)內(nèi)進(jìn)行協(xié)同開發(fā)。

惠普最近升級的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站以其強(qiáng)大的性能表現(xiàn),穩(wěn)定可靠的安全性,以及全方位的系統(tǒng)和軟件支持,在專業(yè)領(lǐng)域工作環(huán)境下,為使用者提供了絕佳的高性能計算解決方案。

同時,惠普最新還推出了一款基于 Docker Kubernetes 的人工智能容器云平臺HP AI開發(fā)平臺。該平臺能夠?qū)崿F(xiàn)異構(gòu)資源的高效管理、調(diào)度和監(jiān)控,提供了從模型開發(fā)、訓(xùn)練到部署的完整流程和工具,廣泛適用于教育、科研、金融、醫(yī)療、能源各個行業(yè),能極大降低人工智能進(jìn)入門檻,提高人工智能創(chuàng)新和研發(fā)的效率。

為了讓中小型AI開發(fā)團(tuán)隊更切實更全面地認(rèn)識 HP Z8 G4 數(shù)據(jù)科學(xué)工作站以及 HP AI 開發(fā)平臺在團(tuán)隊協(xié)作開發(fā)中的價值,智東西公開課AI教研團(tuán)隊聯(lián)合兩位 Kaggle Grandmaster 模擬現(xiàn)實開發(fā),對 HP AI 開發(fā)平臺的功能應(yīng)用,及其在 HP Z8 G4 數(shù)據(jù)科學(xué)工作站上的使用體驗兩個方面進(jìn)行了深入評測和項目實驗。

智東西公開課AI教研團(tuán)隊主要承擔(dān)在 HP Z8 G4 數(shù)據(jù)科學(xué)工作站中安裝 HP AI 開發(fā)平臺,并且作為管理員進(jìn)行資源管理。兩位 Kaggle Grandmaster 將基于我們分配的資源,協(xié)同完成基于數(shù)據(jù)集 CASIA-SURF 的人臉活體檢測,以及基于數(shù)據(jù)集 STS-B 的自然語言文本分類這兩項實驗。

兩位 Kaggle GrandMaster 分別是關(guān)注自然語言處理領(lǐng)域的算法工程師吳遠(yuǎn)皓和從事醫(yī)療AI算法研發(fā)工作的算法工程師沈濤。吳遠(yuǎn)皓已參加超過20場Kaggle競賽,獲得8枚金牌,并于2019年成為 Kaggle Competitions Grandmaster ,全球最高排名第36位。沈濤在機(jī)器學(xué)習(xí)競賽平臺 Kaggle 上共得到11塊金牌,獲得了 Kaggle Grandmaster 稱號,全球最高排名第8位。

在進(jìn)入正文介紹 HP AI 開發(fā)平臺的功能及實驗之前,我們先來了解一下本次使用的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站的核心參數(shù),如下:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表0.0.1

再給大家看看3塊 NVIDIA A5000 顯卡安裝好之后的實際展示。下圖中的“三條金色模塊”即為 NVIDIA A5000 顯卡。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表0.0.2

下圖是 HP Z8 G4 數(shù)據(jù)科學(xué)工作站實際工作的展示:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表0.0.3

1、HP AI 開發(fā)平臺功能全解

本章節(jié)將為大家展示 HP AI 開發(fā)平臺的安裝過程和架構(gòu)組成,并重點介紹其為開發(fā)者所提供的模型訓(xùn)練、數(shù)據(jù)存儲、任務(wù)鏡像,以及向管理者所提供的用戶權(quán)限、監(jiān)控中心、系統(tǒng)設(shè)置等特色功能。

下面進(jìn)入 HP AI 開發(fā)平臺的安裝。HP AI 開發(fā)平臺的安裝包是適用于 Unix 系統(tǒng)和類 Unix 系統(tǒng)的.run 格式文件,整個安裝過程分三步,十分簡單:

第一步,在 Ubuntu 系統(tǒng)的終端中,輸入:
“sudo bash AI_HP -Evaluation-4.5.1-HP-63045-offline.run”即可進(jìn)行安裝。

第二步,成功安裝完成后,會顯示:
“Please visit htp://192.168.88.80:5678 to continue installation.”。此時瀏覽器輸入網(wǎng)址后會看到平臺的環(huán)境正在初始化。

第三步,平臺環(huán)境初始化完成后,會自動跳轉(zhuǎn)到 HP AI 開發(fā)平臺的登錄界面,此時輸入賬號密碼即可完成登錄。下圖為 HP AI 開發(fā)平臺的首頁展示。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.0.1

1、平臺架構(gòu)

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.1.1

1.1、基礎(chǔ)設(shè)施層

基礎(chǔ)設(shè)施層以X86的服務(wù)器、專業(yè)工作站為載體,可通過 GPU、CPU 等提供高性能加速計算,支持 TCP/IP,InfiniBand 高速網(wǎng)絡(luò)互聯(lián),以及 NFS 和 GlusterFS 兩種類型的存儲格式。

1.2、資源調(diào)度層

采用容器化技術(shù)管理底層資源,并利用 Kubernetes(K8s)技術(shù)進(jìn)行容器編排調(diào)度。

1.3、應(yīng)用服務(wù)層

應(yīng)用服務(wù)層支持主流的 TensorFlow、Caffe、PyTorch 和 MxNet 等主流的機(jī)器學(xué)習(xí)框架,以及完整的機(jī)器學(xué)習(xí)所需的處理流程,實現(xiàn)資源操作自動化。

1.4、業(yè)務(wù)領(lǐng)域?qū)?/span>

通過支持自然語言處理、圖像識別和語音識別等任務(wù),可以滿足金融、教育、醫(yī)療、制造等行業(yè)場景的 AI 開發(fā)需求。

2、特色功能

2.1、模型訓(xùn)練

2.1.1、任務(wù)列表

任務(wù)管理界面,有“任務(wù)訓(xùn)練”、“交互式開發(fā)”、“可視化”、“模型部署”等四個功能頁。管理員用戶可以查看和管理所有用戶的訓(xùn)練任務(wù),包括任務(wù)訓(xùn)練任務(wù)、交互式開發(fā)任務(wù)、可視化任務(wù)、模型部署任務(wù)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.1

查看任務(wù)

可以看到所有用戶的所有任務(wù)的簡要配置信息,如任務(wù)名稱、所屬用戶、任務(wù)的執(zhí)行器、所屬分區(qū)、資源配額、創(chuàng)建時間等。點擊“任務(wù)訓(xùn)練”、“交互式開發(fā)”、“可視化”、“模型部署”來展示不同類型的任務(wù)。

比如在交互式任務(wù) “interactive14871” 中,可以分別看到任務(wù)節(jié)點、用戶名、執(zhí)行器、分區(qū)名稱、資源配置、任務(wù)優(yōu)先級、運行狀態(tài)、創(chuàng)建時間、空閑時間等。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.2

點擊“詳情”可以進(jìn)一步查看任務(wù)的基本信息、資源配置、應(yīng)用信息和狀態(tài)等。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.3

刪除任務(wù)

點擊“刪除”按鈕即可刪除正在運行中的任務(wù)。

需要注意的是在“任務(wù)訓(xùn)練”中的任務(wù),點擊“刪除”按鈕,只會刪除正在運行中的訓(xùn)練任務(wù),記錄無法被刪除,記錄不會占用 CPU、GPU、內(nèi)存等資源,其他類型任務(wù)刪除后不保留記錄。

查詢用戶任務(wù)

在界面右側(cè)輸入框中輸入要查找的用戶名,回車進(jìn)行查找。

2.1.2、任務(wù)統(tǒng)計

管理員可對 HP AI 開發(fā)平臺中各分區(qū)任務(wù)進(jìn)行統(tǒng)計。查看分區(qū)中已計劃、已完成、運行中、暫停中的任務(wù)數(shù)量以及任務(wù)的資源占用信息?!叭蝿?wù)統(tǒng)計”可以幫助管理員了解各分區(qū)中用戶在一段時間內(nèi)使用任務(wù)訓(xùn)練的使用情況。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表1.2.4

根據(jù)日期統(tǒng)計任務(wù)

管理員可選擇指定日期,統(tǒng)計指定日期時間到當(dāng)前時間的任務(wù)數(shù)量及任務(wù)資源占用情況。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.5

2.1.3、任務(wù)隊列

點擊左側(cè)菜單“任務(wù)隊列”,進(jìn)入任務(wù)隊列界面,分別顯示優(yōu)先級為“高”、“普通”、“低”三種優(yōu)先級任務(wù)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表1.2.6

2.2、數(shù)據(jù)存儲

HP AI 開發(fā)平臺支持基于 NFS 的分布式存儲方式,滿足用戶對數(shù)據(jù)的安全和性能要求。豐富的數(shù)據(jù)管理、分享功能極大方便了用戶的使用。

2.2.1、數(shù)據(jù)卷

管理員可以創(chuàng)建 NFS 卷,對卷進(jìn)行管理操作,查看卷的使用情況。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表1.2.7

查看“NFS”卷列表

可以看到 NFS 數(shù)據(jù)卷列表及每個數(shù)據(jù)卷的服務(wù)器地址、共享目錄、掛載權(quán)限、狀態(tài)及描述狀態(tài)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.8

創(chuàng)建 NFS 卷

點擊“創(chuàng)建 NFS 卷”按鈕,進(jìn)入NFS卷創(chuàng)建界面。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.9

NFS 名詞參數(shù)解釋

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.10

查看卷使用情況

管理員用戶在數(shù)據(jù)卷列表頁面點擊卷名稱后,該數(shù)據(jù)卷的總使用情況和各用戶使用情況均會顯示在此頁面。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.11

2.2.2、公共數(shù)據(jù)

公共數(shù)據(jù)即擁有 HP AI 開發(fā)平臺用戶都可以訪問的數(shù)據(jù),管理員可以上傳公共數(shù)據(jù),并對公共數(shù)據(jù)進(jìn)行管理,普通用戶只有復(fù)制到用戶私有數(shù)據(jù)和下載權(quán)限。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.12

創(chuàng)建目錄

用戶可以在“公共數(shù)據(jù)”頁面點擊“創(chuàng)建目錄”來創(chuàng)建自己的目錄。名稱不能包含以下字符”, ‘|’, ‘*’, ‘?’, ‘,’,’/’,’ ‘, 長度在1~50個字符,創(chuàng)建成功會有相應(yīng)提示。否則創(chuàng)建失敗。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.13

上傳數(shù)據(jù)

將本地文件上傳到“公共數(shù)據(jù)”中。適合小文件的上傳。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.14

刷新

若對文件進(jìn)行了增刪修改操作,點擊“刷新”按鈕更新文件狀態(tài)及屬性。

文件列表:文件及文件夾管理

針對文件列表里面的每一個文件及文件夾,都有相應(yīng)的管理功能,如重命名、下載、復(fù)制、查看文件大小、刪除等,針對文件還有在線查看功能,方便管理員進(jìn)行管理操作。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.15

2.3、任務(wù)鏡像

2.3.1、公共鏡像

由管理員上傳的鏡像為公共鏡像,用戶都可以看到并且可以在創(chuàng)建任務(wù)時使用。管理員在“下載鏡像”中下載的鏡像和上傳的鏡像均在此界面管理。此界面中管理員可對公共鏡像進(jìn)行設(shè)置刪除、二次更新制作鏡像及查看鏡像詳細(xì)信息等操作。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.16

上傳鏡像

管理員用戶在鏡像倉庫頁面,也可以上傳公共鏡像。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

2.3.2、鏡像倉庫

管理員在鏡像倉庫頁面,可以查看各用戶的私有鏡像,或上傳公共鏡像

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

查看鏡像倉庫

上傳鏡像

管理員用戶在鏡像倉庫頁面,也可以上傳公共鏡像。

查看鏡像倉庫

在鏡像倉庫列表中,點擊任意用戶名,即可進(jìn)入用戶的鏡像倉庫中查看用戶的私有鏡像。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.19

2.3.3、下載鏡像

點擊“下載鏡像”,進(jìn)入以下界面,該界面有 “ Docker Hub ”、“ HP 機(jī)器學(xué)習(xí)鏡像”和 “NVIDIA鏡像” 三個功能頁面。用戶可根據(jù)自己需要的鏡像環(huán)境去 Docker 官方鏡像倉庫Docker Hub、HP 機(jī)器學(xué)習(xí)鏡像倉庫和 NVIDIA 鏡像倉庫下載指定鏡像。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.20

HP 機(jī)器學(xué)習(xí)鏡像

此功能頁預(yù)留了官方制作好的鏡像,包括 Caffe、Cuda、OpenVINO、PyTorch、TensorFlow-gpu 等11個鏡像系統(tǒng)。每個鏡像版本完整,并和官方機(jī)器學(xué)習(xí)框架 Release 保持一致,用戶可直接使用。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.21

NVIDIA 鏡像

允許用戶查看 NGC 鏡像列表,下載使用 NGC 上 NVIDIA 提供的鏡像。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.22

2.4、用戶權(quán)限

2.4.1、用戶

點擊左側(cè)菜單“用戶權(quán)限-用戶”,進(jìn)入用戶管理界面。管理員用戶可以對用戶創(chuàng)建、刪除、編輯以及配置分區(qū)、存儲卷和資源配額等,對用戶的 CPU 、 GPU 、 Mem 和存儲配額進(jìn)行設(shè)定,限定用戶能使用的資源數(shù)量。用戶的數(shù)據(jù)存儲空間相互隔離,每個用戶只能訪問各自空間中的數(shù)據(jù),無法越界訪問未授權(quán)的數(shù)據(jù)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.23

查看用戶

在用戶管理界面,可以查看每個用戶的手機(jī)號碼、郵箱地址、創(chuàng)建時間、創(chuàng)建人、修改時間、修改人、綁定的分區(qū)以及用戶組名。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表1.2.24

點擊“操作”按鈕 -> 查看數(shù)據(jù)卷與配額,可以查看用戶的資源配額限定情況。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.25

點擊“查看關(guān)聯(lián)角色”。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.26

點擊“修改用戶信息”,可對已有用戶的手機(jī)號、郵箱、用戶組、分區(qū)和配額進(jìn)行修

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.27

點擊“重置密碼”,可重置用戶密碼。管理員可以通過兩種方式重置用戶密碼。一種是系統(tǒng)自動生成密碼。如使用這種方式重置密碼,管理員只需點擊“重置密碼”按鈕即可在界面上看到新密碼;另一種重置密碼方式為管理員手動修改密碼,只需輸入兩遍新密碼,并點擊“提交”按鈕,即可修改此用戶的密碼。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


表 1.2.28

點擊“刪除”,可刪除用戶。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

2.4.2、用戶組

修改默認(rèn)配額

管理員用戶可以點擊用戶列表頁面上的“修改默認(rèn)配額”按鈕,來修改創(chuàng)建用戶時默認(rèn)的可使用資源配額。如 CPU 、 GPU 、內(nèi)存、存儲和任務(wù)數(shù)量的默認(rèn)配額。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.30

創(chuàng)建用戶

點擊“創(chuàng)建用戶”按鈕,進(jìn)入“創(chuàng)建用戶”界面后,需要填寫用戶的基本信息和配置用戶組、數(shù)據(jù)卷、分區(qū)等參數(shù)。CPU 、GPU 、內(nèi)存、存儲等參數(shù)默認(rèn)使用默認(rèn)配額中的配置。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.38

2.4.2、用戶組

管理員用戶在用戶組頁面,可以查看、創(chuàng)建和刪除用戶組。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.32

查看用戶組

點擊“查看關(guān)聯(lián)角色”,顯示該用戶組的所有角色。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.33

點擊“查看該組用戶”,顯示該用戶組的所有用戶。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.34

創(chuàng)建用戶組

管理員在用戶組列表頁面,點擊“創(chuàng)建用戶組”按鈕進(jìn)入創(chuàng)建用戶組界面,輸入用戶組名(用戶組名長度1-20個字符,不能包含字符”, ‘|’, ‘*’, ‘?’, ‘,’,’/’。),選擇不同模塊的權(quán)限,最后點擊“提交”按鈕創(chuàng)建新的用戶組。點擊“取消”按鈕取消創(chuàng)建用戶組,回到用戶組列表頁面。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.35

各個功能模塊不同角色的權(quán)限參照下表:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.36

2.5、監(jiān)控中心

2.5.1、儀表盤

儀表盤提供了多維度和多層次的監(jiān)控信息,使系統(tǒng)使用透明、可追蹤。管理員用戶在左側(cè)菜單欄中選擇儀表盤,即可查看節(jié)點和分區(qū)的資源使用情況。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

節(jié)點查看

點擊節(jié)點頁面的“查看”,可以針對某個節(jié)點監(jiān)控信息進(jìn)行查看。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.38

分區(qū)查看

點擊分區(qū)頁面的“查看”,可以針對某個分區(qū)監(jiān)控信息進(jìn)行查看。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

1、資源創(chuàng)建與分配

2.5.2、監(jiān)控報表

在當(dāng)前界面可以選擇 HP AI 開發(fā)平臺的節(jié)點、分區(qū)等選項來監(jiān)控資源利用情況呈現(xiàn)可視化圖表。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.40

2.5.3、實時信息

在當(dāng)前界面可以選擇 HP AI 開發(fā)平臺 GPU 用途分布、GPU 使用概況、GPU 使用分布等可視化圖表。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.41

管理員可以查看 GPU 的用途分布統(tǒng)計(任務(wù)訓(xùn)練、交互式使用、可視化、空閑使用)。

管理員可以查看 GPU 的分區(qū)使用統(tǒng)計(總共使用,每個分區(qū)使用)。

管理員可以查看 GPU 的用戶使用統(tǒng)計(總共使用,每個用戶使用)。

管理員可以查看節(jié)點 GPU 使用概況(總數(shù)、空閑、已占用),以及每一塊 GPU 卡的使用率和顯存使用率。

2.5.4、歷史統(tǒng)計

在當(dāng)前界面可以查看 HP AI 開發(fā)平臺用戶資源使用統(tǒng)計圖表。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.42

2.6、系統(tǒng)設(shè)置

GPU 配置

在當(dāng)前界面可以選擇 HP AI 開發(fā)平臺 GPU 類型、切片數(shù)量。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.43

輸入切片數(shù)量,點擊“確認(rèn)”后,即可為 GPU 切片。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 1.2.44

2、實驗:人臉活體檢測和自然語言文本分類

在本章節(jié),智東西公開課AI教研團(tuán)隊將作為管理員,分配不同的賬戶資源給到兩位 Kaggle Grandmaster 進(jìn)行模型開發(fā)實驗,并在平臺后端監(jiān)測相應(yīng)的資源使用情況和反饋。

1、資源創(chuàng)建與分配

1.1、創(chuàng)建分區(qū) kaggle

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

圖表 2.1.1

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.1.2

1.2、創(chuàng)建用戶組 viewers

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

圖表 2.1.3

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.1.4

1.3、創(chuàng)建用戶 master1、master2

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.1.5

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.1.6

2、實驗一:基于數(shù)據(jù)集 CASIA-SURF 的人臉活體檢測

2.1、實驗說明

該部分實驗由 Kaggle Grandmaster 沈濤完成。

人臉活體檢測是人臉識別過程中的一個重要環(huán)節(jié)。它對人臉識別過程存在照片、視頻、面具、頭套、頭模等欺騙手段進(jìn)行檢測,對于身份驗證的安全性尤為重要。從技術(shù)發(fā)展上,人臉活體檢測可以簡單地分為兩大類:傳統(tǒng)的人工特征模式識別方法和近年來興起的深度學(xué)習(xí)方法。目前,深度學(xué)習(xí)方法在識別準(zhǔn)確性上已有較大優(yōu)勢。

很多人臉識別系統(tǒng)利用可見光人臉圖像進(jìn)行活體檢測,識別性能易受到光照條件的影響。

同時,基于可見光光譜的識別方式也很難應(yīng)對常見的偽造攻擊。使用多模態(tài)數(shù)據(jù)進(jìn)行活體檢測建模,能有效緩解這些問題。融合多種成像設(shè)備的圖像信息,比如可見光,近紅外和深度圖像等,既能提升模型的識別性能,也能減少光照條件對性能的干擾。

本次實驗,我們使用 HP AI 開發(fā)平臺,搭建并訓(xùn)練深度學(xué)習(xí)模型,用于人臉活體檢測。數(shù)據(jù)集采用了 CASIA-SURF 集合。該數(shù)據(jù)集含有人臉可見光圖,近紅外和深度圖三種模態(tài)信息,包含了1000個個體樣本的21000段視頻。采集設(shè)備是英特爾的 RealSense 立體相機(jī)。

模型結(jié)構(gòu)方面,我們會實驗多種不同架構(gòu),包括 CNN 類型的架構(gòu) FaceBagNet 模型, MLP 類的架構(gòu),(如 VisionPermutator,MLPMixer 等),還有近期非常熱門的Vision Transformer(ViT)模型。并且比對這些模型在該任務(wù)上的性能。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.2.1

2.2、實驗流程

2.2.1、環(huán)境配置

(1)進(jìn)入實驗平臺,新建交互任務(wù) Terminal,選擇合適的鏡像,需要包含實驗所需的軟件庫( PyTorch ,OpenCV 等)。實驗平臺首頁,展示了目前的資源狀態(tài):正在執(zhí)行的任務(wù)數(shù)量,可分配的資源等。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表2.2.2

(2)左側(cè)欄選擇“模型開發(fā)”-“交互式開發(fā)”,并且點擊紅色框指定的新建按鈕。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表2.2.3

(3)進(jìn)一步選擇 Terminal,設(shè)置密碼(用于后續(xù) ssh 登陸),選擇內(nèi)存大小,CPU,GPU數(shù)量。根據(jù)實驗需要設(shè)置。我們選取內(nèi)存 32G ,16核 CPU,和一顆 A5000 型號的 GPU 用于本次實驗。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表2.2.4

(4)最下方可以選擇本地實驗使用的鏡像環(huán)境,該平臺提供了公用的基礎(chǔ)鏡像,我們也可以配置自己的私有鏡像環(huán)境。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表2.2.5

(5)創(chuàng)建成功后,會顯示正在運行的應(yīng)用。此時可以用過命令“ssh -p 25875 root@192.168.88.80”遠(yuǎn)程連接進(jìn)行創(chuàng)建好的環(huán)境。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表2.2.6

2.2.2、實驗運行

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

如圖所示,模型已經(jīng)開始訓(xùn)練,單卡 A5000下,訓(xùn)練效率很高,一個 epoch 只需要不到一分鐘的時間。同時 GPU 的占用率一直業(yè)保持在80-90%。模型的 log 文件和最終的模型文件都會存儲在對應(yīng)的 Models 路徑下。在訓(xùn)練開始時,終端開始打印 log ,訓(xùn)練過程中 GPU 的占用率在80-90%。

2.3、實驗結(jié)果

為了有效對比多個模型的性能,我們使用該平臺訓(xùn)練了多個不同結(jié)構(gòu),不同參數(shù)的模型。我們在驗證集合上測試了模型性能,使用了 ACER(Average ClassificationError Rate )指標(biāo)。指標(biāo)越低,說明模型性能越好。

下表展示了單一模態(tài)下,各個模型的性能比較。整體上看,使用深度圖數(shù)據(jù)的模型,會顯著優(yōu)于其他兩種單一模態(tài)模型。FaceBagNet ,ConvMixer 和 MLPMixer 都有比較好的性能。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

同時我們測試了三種 patch size 下,兩種多模態(tài)建模模型的性能, FaceBagNetFusion 的效果在各個參數(shù)下都顯著優(yōu)于ViT模型。相比于表表2.2.7中的數(shù)據(jù),多模態(tài)建模的結(jié)果均優(yōu)于單一模態(tài)的建模結(jié)果。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

圖表2.2.8

2.4、實驗感受

Q1:你在本次實驗中訓(xùn)練了多個不同結(jié)構(gòu)和不同參數(shù)的模型,管理員分配給你的2/3分區(qū)資源是否滿足了訓(xùn)練要求?

沈濤:我的實驗主要是依賴 GPU 算力,對 CPU 和內(nèi)存的需求相對較少。NVIDIA A5000 GPU 的單卡訓(xùn)練效率已經(jīng)足夠高,如果使用混合精度訓(xùn)練等技術(shù),效率會進(jìn)一步提升。

Q2:你在本次實驗中進(jìn)行了私有鏡像的上傳,是否順暢?鏡像使用中有沒有遇到兼容性或不穩(wěn)定等問題?

沈濤:我以公共鏡像為基礎(chǔ)制作了私有鏡像。具體來說,我先申請了基于基礎(chǔ)鏡像的命令行的交互任務(wù),并在任務(wù)中安裝了我所需的工作環(huán)境,并將環(huán)境保存為新的私有鏡像,后續(xù)可以直接使用。整個使用過程比較順暢,沒有出現(xiàn)問題。

Q3:HP AI 開發(fā)平臺提供的是 Web 端 GUI 交互界面,基于你的使用感受,你認(rèn)為是否能夠降低普通開發(fā)者的使用門檻和難度?

沈濤:上述Q2中的私有鏡像保存操作就是在 GUI 交互界面完成的,這一點就比較方便,對于普通開發(fā)者,省去了 Docker 命令行操作,降低了使用門檻。同時,整個計算資源利用率的實時展示,任務(wù)的申請,都可以通過比較簡單地交互可以完成,整體上便捷一些。

Q4:對比公有云、數(shù)據(jù)中心和本地 PC ,你覺得通過工作站進(jìn)行模型訓(xùn)練的優(yōu)勢有哪些?

沈濤:相比于公有云,數(shù)據(jù)中心,使用工作站進(jìn)行模型訓(xùn)練會在使用上更加便捷,數(shù)據(jù)模型都在工作站本地,減少了來回傳輸?shù)倪^程,使用上也會更加穩(wěn)定。相比于本地 PC ,工作站的計算性能會更強(qiáng),散熱會更好,能支持長時間的高負(fù)荷工作。

Q5:對于中小型 AI 開發(fā)團(tuán)隊來說,工作站 HP AI 開發(fā)平臺的算力提供和管理方式是否是一個不錯的選擇?

沈濤:對于非大規(guī)模 AI 模型(需要大規(guī)模分布式訓(xùn)練)的開發(fā),該方式已經(jīng)能夠滿足正常開發(fā)需求。

3、實驗二:基于基于數(shù)據(jù)集 STS-B 的自然語言文本分類

3.1、實驗說明

該部分實驗由 Kaggle Grandmaster 吳遠(yuǎn)皓完成。

本次實驗通過經(jīng)典的自然語言文本分類數(shù)據(jù)集 STS-B 來體驗 HP AI 開發(fā)平臺。

STS-B 數(shù)據(jù)集包含8628個英語句子對,其中訓(xùn)練集5749條,驗證集1500條,測試集1379條,數(shù)據(jù)集文本來源于報紙、論壇和圖片題注。該數(shù)據(jù)集也是 The General Language Understanding Evaluation (GLUE)benchmark 的一個子任務(wù)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.3.1

實驗?zāi)康氖悄P托枰o出兩個句子的相似性度量,任務(wù)的評價指標(biāo)是 Pearson 相關(guān)系數(shù)。

3.2 、實驗流程

3.2.1、環(huán)境配置

登錄 HP AI 開發(fā)平臺,在“模型訓(xùn)練”-“交互式開發(fā)”中,創(chuàng)建 Terminal 類型的開發(fā)環(huán)境,同時可以直接在“公共鏡像”中選擇我們需要的環(huán)境。其實際使用體驗相當(dāng)于一臺遠(yuǎn)程服務(wù)器或本地 Docker。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.3.2

創(chuàng)建成功后,會顯示正在運行的應(yīng)用。此時可以用過命令“ ssh -p 25457 root@192.168.88.80 ”遠(yuǎn)程連接進(jìn)行創(chuàng)建好的環(huán)境。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.3.3

此時可以用過命令“ ssh -p 25457 root@192.168.88.80 ”遠(yuǎn)程連接進(jìn)行創(chuàng)建好的環(huán)境。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.3.4

3.2.2、實驗運行

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

3.3 、實驗結(jié)果

本次實驗選用常用預(yù)訓(xùn)練模型工具包 Transformers ,選擇的模型為谷歌開發(fā)的小型 BERT 模型 google/bert_uncased_L-2_H-128_A-2 。該模型隱層維度128,注意力頭數(shù)量為2,Transformer 層數(shù)也為2,模型大小只有不到17Mb ,是個精簡的小模型。單從實驗結(jié)果可以看出,模型在 STS-B 數(shù)據(jù)集上也取得了不錯的結(jié)果(目前榜單第一名是體積大好幾倍的 ERNIE ,其結(jié)果為0.93)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.3.5

3.4 、實驗感受

Q1:基于本次實驗中的分區(qū)資源,你在很短的時間內(nèi)就完成了基于數(shù)據(jù)集STS-B的自然語言文本分類模型的訓(xùn)練,對此你怎么看?

吳遠(yuǎn)皓:HP AI 開發(fā)平臺的各環(huán)境間互不影響,任務(wù)展示清晰透明,在多人共享資源的場景下能夠既保證開發(fā)效率,又顯著提高資源的利用效率。

Q2:HP AI開發(fā)平臺提供的是 Web 端 GUI 交互界面,請談?wù)勀愕氖褂酶惺堋?/span>

吳遠(yuǎn)皓:GUI 界面非常人性化,能夠有效完成資源的組織、管理與隔離。

Q3:在完成此次實驗后,你如何評價 HP AI 開發(fā)平臺?

吳遠(yuǎn)皓:通過體驗我們發(fā)現(xiàn),HP AI 開發(fā)平臺對使用者非常友好,是計算資源管理的有力工具。

Q4:對比公有云、數(shù)據(jù)中心和本地 PC,您覺得通過工作站進(jìn)行模型訓(xùn)練的優(yōu)勢有哪些?

吳遠(yuǎn)皓:這幾個不太能比較。對于中小團(tuán)隊來說公有云有傳輸數(shù)據(jù)的成本,數(shù)據(jù)中心的搭建和運營成本太高,而本次 PC 的性能可能達(dá)不到要求,所以為團(tuán)隊配備一個共用的工作站是一種既靈活又高效的方案。

Q5:對于中小型 AI 開發(fā)團(tuán)隊來說,工作站 HP AI 開發(fā)平臺的算力提供和管理方式是否是一個不錯的選擇?

吳遠(yuǎn)皓:是的,可以發(fā)揮硬件的最大效能,提高利用率。

4、管理員后臺展示

前端用戶在通過 HP AI 開發(fā)平臺進(jìn)行模型訓(xùn)練過程中,管理員可以在后臺直觀的看到資源的使用反饋。比如在前面兩個實驗過程中,管理員可以在后臺看到以下內(nèi)容。

4.1、任務(wù)列表

在 “任務(wù)列表” 里面,我們可以看到 master1 和 master2 創(chuàng)建的任務(wù)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.4.1

4.2、任務(wù)鏡像

在“任務(wù)鏡像”里面,管理員可以看到 master1 和 master2 所使用的鏡像系統(tǒng)。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.4.2

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.4.3

4.3、監(jiān)控中心

儀表盤

管理員可以看到在實驗期間,節(jié)點和分區(qū)的 CPU、GPU、內(nèi)存、網(wǎng)絡(luò)等參數(shù)的整體使用情況:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

節(jié)點使用情況:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.4.5

分區(qū)使用情況:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.4.6

監(jiān)控報表

資源使用情況:

在這里默認(rèn)會選擇一周內(nèi)的資源監(jiān)控數(shù)據(jù)進(jìn)行展示,同時也可以選擇動態(tài)展示數(shù)據(jù)變化

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

節(jié)點使用情況:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

分區(qū)使用情況:

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

實時信息

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.4.7

歷史統(tǒng)計

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))


圖表 2.4.8

5、多用戶使用

在 “ GPU設(shè)置” 里面,GPU 可以切片的數(shù)量選項為1、2、4、8。也就是說每塊 NVIDIA RTX A5000 的 GPU 算力可以平均分為1、2、4、8份,HP Z8 G4 數(shù)據(jù)科學(xué)工作站共有3塊 GPU,最多可將算力平均分為24份,可同時給24個開發(fā)者提供算力支持。

HP AI開發(fā)平臺測評:多用戶協(xié)同開發(fā)模型和算力資源管理有力工具(hph開發(fā))

3、總結(jié)

通過本次專業(yè)性測試,我們可以看到,配備了3塊 NVIDIA A5000 GPU 的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站在 HP AI 開發(fā)平臺的配合下,不僅便于管理員對工作站的 GPU 資源進(jìn)行管理,更能滿足兩位 Kaggle Grandmaster 的算力需求,保障模型協(xié)同訓(xùn)練的順暢進(jìn)行。

HP AI 開發(fā)平臺是一款封裝了人工智能所需系統(tǒng)和底層操作的容器云平臺,在數(shù)據(jù)中心或公有云中同樣可以進(jìn)行單獨的部署。不過,工作站產(chǎn)品特有的靜音,易部署和高性價比,讓 HP Z8 G4 數(shù)據(jù)科學(xué)工作站 HP AI 開發(fā)平臺的整體解決方案在中小企業(yè)辦公場景中的應(yīng)用優(yōu)勢非常顯著。

對于有同等需求的中小型 AI 開發(fā)團(tuán)隊來說,搭載2-4塊 GPU 的 HP Z8 G4 數(shù)據(jù)科學(xué)工作站,配合 HP AI 開發(fā)平臺的資源管理,就可以很輕松的構(gòu)建出一個性價比極高的高性能計算解決和管理方案。因此,工作站 HP AI 開發(fā)平臺解決方案可以在幫助中小企業(yè)團(tuán)隊節(jié)省成本的同時,可以發(fā)揮出硬件的最大效能,提高資源利用率,成為多用戶協(xié)同開發(fā)和資源管理的有利工具。

總體來說,HP AI 開發(fā)平臺在資源管理和鏡像訂制兩方面都有著獨到的優(yōu)勢。

其中,在資源管理方面有三大核心優(yōu)勢:

(1)按需分配、自動釋放:在任務(wù)提交后,HP AI 開發(fā)平臺可以按照實際需求動態(tài)分配資源,限制任務(wù)無法超額使用資源,保證資源分配的公平性;與此同時,它還可以支持任務(wù)排隊機(jī)制,在任務(wù)運行完畢后自動釋放資源,讓隊列中任務(wù)自動運行;

(2)優(yōu)先搶占:針對不同的優(yōu)先級需求,系統(tǒng)可以按照從高到低順序進(jìn)行任務(wù)調(diào)度,同時支持對隊列中任務(wù)的優(yōu)先級調(diào)整和插隊,滿足緊急任務(wù)的使用需求;

(3)GPU 細(xì)粒度切分:系統(tǒng)可以根據(jù) GPU 卡的算力,支持對 GPU 卡進(jìn)行細(xì)粒度的切分;同時支持多個任務(wù)共享同一張 GPU 卡,充分提高 GPU 卡使用效率,提高任務(wù)密度和吞吐量。

另外,在鏡像訂制方面 HP AI 開發(fā)平臺有四大關(guān)鍵點:

(1)機(jī)器學(xué)習(xí)鏡像庫:可提供豐富的 TensorFlow 、PyTorch 、MxNet 和 Caffe 鏡像,且版本完整,并和官方機(jī)器學(xué)習(xí)框架 release 保持一致,用戶可以下載并導(dǎo)入使用;

(2)NGC 鏡像:允許用戶查看 NGC 鏡像列表,下載使用 NGC 上 NVIDIA ?提供的鏡像;

(3)自由訂制:針對用戶對鏡像的內(nèi)容需求豐富且不統(tǒng)一,訂制化要求高等情況,系統(tǒng)可允許用戶通過 Docker Exec 連接并配置鏡像環(huán)境;該方式適用于所有鏡像,無需鏡像中配置 ssh 服務(wù)

(4)鏡像分享:允許管理員提升私有鏡像為公有鏡像、支持用戶私有鏡像的分享,提高鏡像獲取的效率、減少存儲空間要求。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。