loading

Resources

06Jul 2018

發佈:Cloudera Data Science Workbench Release 1.4

2018 年05 月22日
作者:Wim Stoop (@TheWimster)
原文:Cloudrea
 

 

Cloudera Data Science Workbench (CDSW)協助企業實現大規模執行安全的協作式資料科學的目標,並加速交付新的資料產品。組織可以利用CDSW加快研究與實驗的速度、可以輕鬆有把握地部署各式模型,並能夠藉助更廣大的Cloudera平台來降低資料科學專案的風險與成本。

CDSW 1.4 如今擴大了平台的適用範圍,從研究乃至生產均涵蓋在內。兩項重要的新功能「實驗」(Experiments) 與「模型」(Models),可協助資料科學家利用統一的工作流程來建構、訓練和部署模型;而增強的安全功能則將使用者管理自動化。

實驗。資料科學家用迭代方式發展模型時,他們通常利用資料集、特徵、程式庫和演算法來進行實驗,並會調整超參數。每一項變更都可能對所產生的模型造成巨大影響,但是一般均無記錄,所以難以複製重現一個特定的結果並予以解釋。這樣的狀況導致研究與協同作業過程中浪費不少時間和精力,更糟糕的是可能帶來合規風險。

藉由「實驗」功能,資料科學家可以用批次作業的方式執行下列任務:

  • 建立模型程式碼、相依性和組態參數的快照,這些都是訓練模型的必要元素

  • 在隔離的容器中建置並執行訓練

  • 追蹤模型的各項指標、效能以及使用者指定的任何模型成品

 

使用者現在可以檢查並比較他們之前的訓練過程,判定哪個模型表現最佳,然後繼續接下來的步驟,例如部署最佳模型。

模型。資料科學家經常使用各種Python/R 開放原始碼套件來發展模型。其困難在於這些模型必須應付不同的利益關係人之需求。不過,部署模型上線通常需要重新編寫程式碼,這個過程耗時又容易犯錯,此外還需要複雜的DevOps 知識。此外,要追蹤或是還原已部署的模型,對於資料科學家以及合規產品而言,都必須克服艱鉅的版本控制難題。

藉由「模型」功能,資料科學家只需要選擇一個專案檔案中的Python 或R 函式,接著Cloudera Data Science Workbench 便會:

  • 建立模型程式碼、已儲存模型參數和相依性的快照

  • 利用經過訓練的模型和提供使用的程式碼建置一個不可變更的可執行容器

  • 新增一個REST 端點,它會自動接受與函式特徵碼相符的輸入參數,並會回傳一個與函式之回傳類型相符的資料結構

  • 儲存所建置的模型容器,連同中繼資料,例如建置者或部署者

  • 部署並啟動特定數量的模型API 複本,自動平衡負載

  • 讓使用者記錄、測試和共用模型

 

chuttersnap-255210

簡化使用者管理。之前的CDSW 版本提供LDAP 和SAML 驗證但是允許每一位使用者登入,結果導致使用者數量任意擴大以及非必要性的授權耗用。指派CDSW 管理員是工具裡的手動功能。

1.4 版提供指派LDAP 與SAML 群組的使用者和管理員之功能。透過自動同步化,登入或管理CDSW 的能力取決於群組的成員資格;您原本在使用的授權系統現在將授權功能集中管理。

CDSW Release 1.4 支援CDH 5.14 以及CDH 6.0。除了雲端選項以外,客戶現在搭配Oracle Linux 7.4 可以在公司內部部署(Oracle Big Data Appliance)。完整的詳細資訊請參閱線上版本說明。要看看新功能的操作情形,請參加2018 年6 月13 日的網路研討會

CDSW Release 1.4 在今年夏季上市之前,您可以到這裡下載並試用目前的1.3 版。

進一步瞭解Cloudera Data Science Workbench如何讓您的資料科學團隊提升生產力。

Back to list.
Prev
SOP - 封閉網路環境中安裝設定 CDH
SOP - 封閉網路環境中安裝設定 CDH
Next
Cloudera 轉型,對資料科學、分析與雲端著墨更深
Cloudera 轉型,對資料科學、分析與雲端著墨更深