loading

Resources

30Jul 2018

Cloudera 5.15 新功能: 簡化自助分析資料庫的最終使用者資料目錄

2018 年6 月19 日

作者:Romain Rigaux

原文:Cloudrea

類別:分析資料庫CDH雲端Cloudera NavigatorHueImpala

 

自助商業智慧與探索性分析是執行Cloudera 分析資料庫解決方案的客戶較常見的使用案例。在去年,我們做了重大改進,為SQL 開發人員提供更簡單的使用者體驗,讓他們利用Hue 作為SQL 開發工作台,在進行日常的自助商業智慧任務和工作負載時能提高生產力。

在最近發佈的 Cloudera 5.15中,我們持續改善Hue 的查詢體驗,著重讓資料更容易搜索以及共用查詢的參數化。此外,我們繼續增加非常多的改良功能和修正,讓使用更順暢,以及方便從彈性較差的舊有工具轉換。

繼續閱讀即可瞭解這次新發佈版本有哪些改良功能,前往demo.gethue.com可享一鍵試用。

 

資料目錄探索

在輸入任何查詢來獲得深入分析以前,使用者必須找到正確的資料集來進行探索。Cloudera 5.11便推出了資料目錄(Data Catalog) 搜尋功能,之後每一版本均不斷有所改良。

您可以使用介面頂部橫列輸入任何文字來搜尋SQL 表格和欄位名稱及自訂標籤。您也可以利用儲存查詢的功能加速處理重複的查詢。要在數千個表格中迅速找出某個表格,或是搜尋已經在分析特定資料集的現有查詢時,這項功能尤為實用。

最新的改良功能包括透過「顯示更多」連結直接提供更多搜尋結果。既有的標籤只需要輸入「tags:」即可進行facet 查詢,讓探索程序加速完成。

以下是一些搜尋範例:

  • usage →任何表格的名稱、描述或標籤與「usage」相符者均回傳結果。
  • type:view customer →搜尋名為「customer」的視圖
  • tax* tags:finance →列出所有以「tax」開頭且有「finance」標籤的表格和視窗

搜尋叢集中所有可用的查詢或資料

列出所有可能的標籤進行篩選。同樣適用於「類型」(types)

 

所有 SQL 中繼資料的統整與快取

表格列表及其欄位顯示在介面的不同區塊。這些資料的來源各不相同,而且擷取這些資料的成本高昂。在這個新版本中,所有 Hue 介面元件會快取和再利用這些資訊。由於來源各異,例如 Apache Hive、Cloudera Navigator、Cloudera Optimizer,回傳的中繼資料儲存在單一物件中,所以能更輕鬆、快速地顯示,而不必擔心底層的技術詳細資料。

除了自 5.11 便具備的編輯任何 SQL 物件 (例如表格、視圖和欄位) 標籤之功能以外,現在也可以編輯表格描述。最終使用者可以自行記錄中繼資料,這在之前是不可能的,因為直接編輯 Hive 備註必須具備 Sentry 管理員權限,而在安全的叢集中並不賦予一般使用者這樣的權限。
 
顯示所有已快取和統整的通用資料,使用體驗更流暢

 

 
SQL 編輯器變數
 
在查詢資料和搜尋結果之後,使用者最常使用的一項功能,便是把查詢與其他協作者分享。透過參數化,可以更輕鬆分享這些查詢,如前一篇 5.14 部落格文章所詳述。
例如 select * from web_logs where country_code = “${country_code=CA, FR, US}”
 
 
現在,在編輯模式中,這項功能更加簡易。因為有 Hue 的 SQL 剖析器實作 95% Impala 和 Hive 的語法,編輯器能夠知道哪些欄位與變數有關聯,而且一鍵即可取得數值樣本或是行事曆小工具。取決於其類型 (例如字串或日期),這是自動完成的作業,而且可以加速編輯,因為不需要輸入。
 
按一下變數的名稱會快顯其內容

若變數是日期或時間戳記,使用者會看到介面親切的行事曆

 

除了這些改進以外,上游文件也重新排版,而且改善搜尋功能。

我們希望新版的分析資料庫介面讓自助資料探索和分析更簡單快速。若您有任何問題或回饋,請在這裡、社群論壇或透過@gethue留言!

Back to list.
Prev
線上環境對 Apache Hive 和 HDFS 執行 Cloudera Backup and Disaster Re-covery 之考量事項
線上環境對 Apache Hive 和 HDFS 執行 Cloudera Backup and Disaster Re-covery 之考量事項
Next
主導用改造的方式部署 Cloudera EDH 叢集 - 第二部
主導用改造的方式部署 Cloudera EDH 叢集 - 第二部