loading

Resources

06Jul 2018

Cloudera 轉型,對資料科學、分析與雲端著墨更深

作者:Doug Henschen,單位:Constellation Research

2018 年4 月18 日-- 20:50 GMT (04:50 GMT+08:00) 

主題:巨量資料分析

影片:雲端開支激增但是客戶擔心被「套牢」

 

Cloudera 有意成為機器學習的領導者,顛覆並改造傳統分析,同時藉由客戶移轉至雲端的計劃獲利。

這是非常可靠的計劃?稍後我會解釋原因?但是投資者仍然在4 月3 日給予該公司當頭棒喝,因為它下一季度的盈利指引低於預期。雖然在2018 年1 月31 日結束的會計年度回報50% 的增長率,其後Cloudera 的股價仍慘跌40%。

並請閱讀:Optimising the smart office: A marriage of technology and people| IBM: Our in-memory computing breakthrough will cut cost of training AI

 

根據Cloudera 在4 月9 日至4 月10 日舉行的分析師與有影響力者大會上公開的陳述,它已經完成重組並提升了與客戶對話的性質,從與科技長進行技術對談提升為高階主管與各業務線推介數位轉型。那樣的變化,他們表示,雖然短期內成長會變慢(但仍然有兩位數),但是高階主管認為此一轉型是長期發展必不可缺。雲端競爭白熱化的前景似乎令投資者頗為吃驚,但接下來我會告訴您為什麼Cloudera 預計能留住企業級客戶且獲得他們青睞。

 

從平台開始

Cloudera SDX

Cloudera 的自我定位是企業平台公司,而且它知道企業客戶想要選擇混合式和多種雲端的方案。Cloudera 現在提供的選擇包括內部部署的裸機、私有雲、基礎架構即服務的公有雲,乃至最近才推出的Cloudera Altus 公有雲服務,在Amazon Web Services (AWS) 和Microsoft Azure 上均可使用。

 

當然,AWS 和Google Cloud Platform 並不會支援所有這些部署模式,而Microsoft、IBM 和Oracle 則是僅在自己的雲端上提供支援。Cloudera 主要的差異化優勢,就是它的Shared Data Experience。使用SDX 的客戶享有定義和共用資料存取與安全、資料治理、資料生命週期管理和部署管理及效能控制的功能,在所有任何部署模式上均可使用。這是有效支援混合式與多雲端部署的關鍵。作為根基的SDX 是共用資料/中繼資料目錄,各種部署模式以及雲端和內部部署儲存選項均適用,無論是Cloudera HDFS 或Kudu 叢集或AWS S3 或Azure Data Lake 物件儲存庫。

並請閱讀:11 products to make your conference rooms smarter and easier to use| Deep Learning: The interest is more than latent

從簡易性、彈性和成本的角度來看,公有雲服務例如AWS Elastic MapReduce 可能聽起來很有吸引力,但Cloudera 表示精明如企業客戶應該知道,要運用他們的資料,並不是使用一種雲端服務那麼簡單。事實上,要讓各種服務、儲存與運算方式之變體開始運行、連線並協調運作,會是相當繁複的工作。而且,當所有每小時計量器開始運作,所有的服務集合起來,費用可能高得嚇人。許多企業已經發現,那些穩定且可預測的大型工作負載若在公司內部處理,將能達成極高的成本效益。若是他們想要雲端的彈性,也許可以採用虛擬化私有雲的做法,而不要再回頭使用裸機。

 

Cloudera 相信SDX 至少有四項優點是精打細算型客戶無法抗拒的:

  • 一次定義,多次部署:凡資料存取與安全、資料治理、資料生命週期及效能管理與服務水平制度和政策,IT 只需定義一次,即可套用到所有部署模型上。所有工作負載共用相同的被管理的資料,不必移動資料或建立副本和孤立資料供不同使用案例使用。
  • 抽象化與簡化:使用者用自助方式存取資源,不需要瞭解資料存取、部署、生命週期管理等複雜的底層架構。政策與控管會確實控制誰可以看見什麼、哪些工作負載在哪裡執行以及如何管理和分派資源,既要享有自由彈性,又要保證服務水平。
  • 選擇眾多,享受彈性:SDX 提供多種部署選項,就它如何滿足安全、效能、治理、擴充性和成本要求而言,它給予企業更多選擇和更大彈性,更勝僅有雲端的供應商。
  • 避免套牢:即使已經定調朝公有雲發展,SDX 仍給企業提供多種選項,可在不同公有雲之間移動工作負載並透過交涉爭取更有利的交易,因為他們知道如果何時要更換供應商,均不必重新建置應用程式。

 

SDX 之我見

Shared Data Experience 極具吸引力,但是眼前它僅有四分之三成為現實,仍有四分之一是未來願景。共用目錄是Hive 和Hadoop 為主,所以Cloudera 正設法擴大該目錄和資料中樞的範圍。Altus 服務一般供資料工程使用,但到了最近它推出了(AWS 適用的) 試用版,可進行分析方案部署以及在雲端維持與管理SDX。Azure 平台適用的Cloudera Analytics 及SDX 服務預計在今年後旬正式發佈。Altus Data Science 已經在開發中,也在努力研發在私有雲部署Altus 服務的產品化方式。眼下的私有雲部署完全由客戶自行管理。簡言之,號稱涵蓋所有選項的豪語有些言過其實,但是發展方向卻不含糊。

 

機器學習、分析與雲端

Cloudera 非常著重這三個發展領域,所以它去年在每個領域指派了一位總經理並重新安排專門的產品發展、產品管理、銷售與盈虧責任。在Cloudera 分析師與有影響力者大會上,與會者聆聽每一位新任總經理的簡報:Fast Forward Labs 創辦人Hilary Mason 談機器學習、Xplain.io 聯合創辦人Anupam Singh 談分析,以及Oracle 和VMware 資深老手Vikram Makhija 談雲端。

Cloudera ML Platform

 

機器學習的領頭羊

機器學習策略可協助客戶發展並擁有運用機器學習、深度學習和進階分析方法的能力。那是「教客戶釣魚」,利用其所有資料、所選的演算法以及在所選的部署模式中執行工作負載。(這正是丹麥一家跨國銀行的高階主管所需的支援,詳情請參閱我最近的《Danske Bank Fights Fraud with Machine Learning and AI》個案研究報告。)

並請閱讀:3 ways the 'smart office' will change the future of work| The UK's 100,000 Genome Project reaches the halfway stage

Cloudera 去年收購了Mason 的研究與諮詢公司Fast Forward Labs,期望協助客戶解決要在哪裡和如何應用機器學習方法方面的疑惑。Fast Forward 團隊為企業提供專門的應用研究(是實務而非學術)、策略建議和可行性研究,協助他們瞭解自己是否解決對的問題、設定切合實際的目標以及收集正確的資料。

就技術而言,Cloudera 的機器學習策略之基礎,就是讓SDX 與Cloudera Data Science Workbench (CDSW) 結合。SDX 解決了IT 對於部署、安全性和治理方面的擔憂,而CDSW 則協助資料科學家用自助方式存取資料和管理工作負載,用R、Python 或Scala 編寫程式碼以及使用他們所選的分析、機器學習和深度學習程式庫。

 

Cloudera 機器學習之我見

這也是一個踏實的願景,但是仍有許多環節和細節尚未實現。如稍早前提到的,Altus Data Science 已經依計劃開發中(並不是試用版),私有雲和Kubernetes 支援也一樣。發展計劃亦包含模型管理與自動化功能,這是企業在模型開發與部署生命週期的每個階段均需要的功能,可協助他們擴大建模工作的規模。Azure Machine Learning 與AWS SageMaker 就是居領先地位的其中兩項產品。

我確實欣賞Cloudera 開放門戶接受任何架構,並與使用DSW編寫程式碼的資料科學家劃清界線,且將視覺、分析師等級的資料科學交給同類最佳的合作夥伴如Dataiku、DataRobot、H2O 和RapidMiner 負責。

 

顛覆傳統分析

我很意外Cloudera 大部份的收入來自分析,在該公司2018 會計年度共3 億6700 萬美元的總收入中,超過1 億元是分析帶來的收入。有人對於Cloudera 的印象可能停留在大型的非結構性資料。事實上它的業務極大程度著重顛覆資料倉儲的現狀,並藉由結合Impala 查詢引擎、Kudu 表格庫(用於串流和低延遲應用程式) 以及Apache Spark 上的Hive,啟用以SQL 為主的新應用程式。

Cloudera 分析高階主管表示他們在資料倉儲最佳化與整合專用資料超市(在Netezza 和其他老舊平台上) 方面大顯身手,而現在均認為資料超市是昂貴的孤島資料,需要備援的基礎架構和許多資料副本。Cloudera 表示,只要在SDX 建立管理、安全、治理及存取的控管與政策,IT 不必移動或複製資料即可支援無數多種分析應用程式。其中可能涵蓋AWS S3 buckets、Azure Data Lakes、HDFS、Kudu 或上述所有的資料。

並請閱讀:Symantec: Establish security procedures for the 'inevitable' smart office| MicroStrategy 10.11 ups the front-end ante

最新消息是Cloudera 將會為DBA 類型提供他們在資料倉儲環境中慣用的所有效能微調與成本型分析選項。Cloudera 已經提供Analytic Workbench (亦稱為HUE) 供SQL 查詢編輯使用。年中則會推出統合式效能分析與建議環境。這個套裝解決方案目前代號是Workload 360,將為移轉、最佳化和擴展工作負載提供全面指南。為了提供雲端服務,這個專案結合Navigator Optimizer (從Xplain.io 收購的工具) 及從Altus 引進的工作負載分析功能。您可以把它想像成資料倉儲的大腦,協助公司簡化移轉、遵守SLA、修正滯後的查詢以及主動避免應用程式故障。

 

分析之我見

在任務繁重的資料倉儲環境中,工作負載管理工具必不可缺,所以推動分析促進效能的做法是正確的。由於最近正推動自主資料管理,且以Oracle 最為積極,我本來希望聽到更多工作負載自動化的計劃。

Cloudera 也沒有詳細說明Hive 和Spark 在分析性和串流工作負載上發揮哪些作用,但是我猜想他們一定相當重要。我亦與一些汲取超額的關聯性資料庫容量來支援低延遲查詢,而不是倚賴Impala、Hive 或是另一個Kudu 叢集的Cloudera 客戶聊過(閱讀〈Ultra Mobile Takes an Affordable Approach to Agile Analytics〉)。Hive、Spark 和傳統資料庫服務或容量是務實且講究節約成本的選項,可能無法為Cloudera 分析帶來額外的收入,但是它卻是給客戶提供許多選項的開放平台。

Cloudera Altus PaaS

 

 

利用雲端獲利

如上文所述,SDX 與不斷擴增的Altus 產品組合是Cloudera 雲端計劃的核心。有一些元件尚未到位或仍然缺乏,我們已聽說很多。我認為SDX 極有吸引力,而且它已經協助客戶在混合式情境中有效執行無數個資料工程與分析工作負載。不過,論及實務,許多公司無法如此精打細算,所以一切從簡,必須做出二元選擇:X 資料和使用案例放在公司內部,而Y 資料和使用案例在雲端。畢竟,Cloudera 其中一位客戶討論小組的客人承認避免雲端套牢的重要性;儘管如此,他說他的公司正在權衡使用Google Cloud Platform 原生服務時「簡易性」與資料/應用程式可攜性的取捨。

 

Cloudera 雲端之我見

要運用使用所有資料帶來的威力,就不能採取二元思維,因為它可能導致重疊、冗餘的狀況,還必須移動和複製資料。儘管如此,可能有人認為在公司內部處理X 並在雲端處理Y 是比較簡單且明顯的做法,尤其是在應用程式、安全性或組織層面有自然界限者。Cloudera 必須實踐其雲端願景、發展一套健全的自動化策略並利用許許多多客戶範例向企業證明,SDX 是更簡單且成本效益更高的方法,也比二元思維更能促進創新。

Back to list.
Prev
發佈:Cloudera Data Science Workbench Release 1.4
發佈:Cloudera Data Science Workbench Release 1.4
Next
線上環境對 Apache Hive 和 HDFS 執行 Cloudera Backup and Disaster Re-covery 之考量事項
線上環境對 Apache Hive 和 HDFS 執行 Cloudera Backup and Disaster Re-covery 之考量事項