loading

Resources

08Feb 2019

Cloudera DataFlow (CDF) 簡介

2019 年 2 月 4 日

撰寫:Cloudera

類別:Cloudera 新聞

原文:Introducing Cloudera DataFlow (CDF)

 

在去年底,Hortonworks 與 Cloudera 兩廠合併的消息震撼了業界,並讓Cloudera 重獲新生。合併後的公司力圖成為企業資料雲端的領導者,並提供涵蓋邊緣乃至人工智慧的豐富產品。這次的合併包含其中一個前景最受看好的技術領域,已展現相當高的成長潛力,而且預期會繼續大幅成長,它就是稱為 Hortonworks DataFlow (HDF)的流動資料(Data-in-Motion) 平台。它是一項重要功能,能夠滿足合併後客戶群在即時串流架構和物聯網(IoT) 方面的需求。HDF 已經是非常成功的產品,擁有數百位客戶,包括 ClearSenseTrimbleHilton 等。

所以,在新版Cloudera 中HDF 有什麼不同? 客戶應該有什麼樣的預期? 好消息是,HDF 對我們公司以及客戶仍然保有策略重要性。所以HDF 現在以Cloudera DataFlow (CDF) 身份重出江湖。 

什麼是Cloudera DataFlow?

Cloudera DataFlow (CDF) 是一個可擴充的即時串流資料平台,它會收集、庋用和分析資料,好讓客戶可以瞭解重要的獨到分析,藉此取得可立即採取行動的情報。它能克服流動資料所面臨的挑戰,例如即時串流處理、資料溯源,以及提取來自物聯網裝置和其他串流來源的資料。完全採用開放原始碼技術建構的CDF 讓您為客戶提供更好的體驗、提高營運效率,以及在所有策略性數位計劃上保持競爭優勢。

隨著串流架構和數位轉型計劃的崛起已成普遍態勢,企業苦無資料管理的綜合性工具來處理極大量迅速變動的串流資料。CDF 作為端對端的串流資料平台,是管理從邊緣直至企業的資料之不二解決方案。它可以收集邊緣資料、提取資料、轉換、庋用(curation)、資料強化(data enrichment)、內容路由、處理物聯網規模的多個串流,以及即時進行分析以取得可據以行動的情報。CDF 可以在通用的架構中完成這些任務,並提供統一的安全性、支配和管理。

CDF 平台的主要層面包括:

  • 邊緣資料管理- 在邊緣裝置中或其附近設置數百個MiNiFi 代理程式,以便進行邊緣資料收集、內容過濾和路由等。這樣一來,您便可以執行複雜、分散式的使用案例,例如連接全國各地數百家零售商店,或是從消費者邊緣的數千個實用感測器擷取資料。有鑑於我們的客戶利益、產業趨勢和市場潛力,這將是我們極重要的投資領域。
  • 流程管理 – 採用無程式碼的方法來建立視覺流程,以便建立可輕鬆採用拖曳方式操作的複雜的資料提取/ 轉換作業。CDF 擁有Apache NiFi 及其260 多個預製處理器的技術支援,讓您可以用簡單又輕鬆的方式執行超大規模、大數量和高速的資料提取使用案例。
  • 串流處理– 使用最先進的分散式串流處理系統  Apache Kafka 管理和處理多個即時資料串流。每秒處理數百萬則即時訊息並饋入資料湖泊中或是用於立即串流分析。
  • 串流分析– 使用先進的技術例如彙編、定時開啟新視窗、內容過濾等來即時分析數百萬條資料串流,以便產生重要的深入分析和可據以行動的情報,以供預測性和指示性分析使用。CDF 是唯一提供三種不同的串流分析解決方案Apache Storm、Kafka Streams 和Apache Spark Streaming 的串流平台。
  • 企業服務– 利用一套通用的企業服務,讓整個Cloudera DataFlow 平台達成統一的安全性、支配性和單一登入。這樣會讓平台體驗更加豐富,因為相同一套服務能讓元件之間的互通性順暢無阻。

為何選擇Cloudera DataFlow?

CDF 適合非常多種用途,如Customer 360、資料中心(內部部署和雲端) 之間的資料移動、從即時串流來源提取資料、提取和處理記錄資料、串流分析等。CDF 也適合各式各樣的物聯網專用使用案例,例如預測性維護、資產追蹤、病患監控、公用程式監控、智慧城市等。CDF 是市場上唯一的綜合性串流資料平台,完全採用開放原始碼,而且提供三種串流分析引擎作選擇。CDF 是市場上針對串流資料提供開箱可用的資料溯源之唯一平台。藉助極為強大的社群奧援,Apache NiFi 利用260 多個預製處理器支援CDF 的流程管理功能,供資料來源連線能力、提取、轉換和內容路由使用。

要瞭解Cloudera DataFlow 更多,請參加我們的下一場網路研討會,就在2019 年2 月13 日。

Dinesh Chandrasekhar (@AppInt4All) 是一位技術傳教士、思想領導及經驗豐富的產品行銷人員,在業界已經超過24 年的工作經驗。他擁有出色的業績記錄,憑藉產品發行前和發行後活動採取明確的GTM 策略,將新的整合/行動/物聯網/巨量資料產品推出市場。Dinesh 在企業軟體和SaaS 產品領域擁有豐富的工作經驗,為擁有複雜架構的客戶提供尖端的解決方案。他擁有六標準差綠帶資格認證,是Software AG、CA Technologies 和IBM 等公司數位轉型的擁戴者。Dinesh 的專業領域包括物聯網、應用程式/資料整合、BPM、分析、B2B、API 管理、微服務和行動能力。他對多個產業垂直市場的使用案例十分在行,如零售、製造、公用事業和醫療。他是多產的演講人、部落格作家和週末程式設計師。他目前在Cloudera 服務,管理流動資料產品線。他對於新的技術趨勢十分著迷,包括區塊鏈和深度學習。Dinesh 擁有Santa Clara University 的MBA 學位和University of Madras 電腦應用學系的碩士學位。

 

 

Back to list.
Prev
使用原生數學函式庫加速 Spark 機器學習應用程式
使用原生數學函式庫加速 Spark 機器學習應用程式