loading

Resources

02May 2018

Cloudera 5.14 新功能:改進查詢協助功能以及自助式分析資料庫整合 ADLS

2018 年02 月13日
作者:Romain Rigaux
原文:Cloudrea
 
 
執行Cloudera 的分析資料庫解決方案的客戶之中,最常見的使用案例就是自助式商業智慧與探索性分析。在過去一年,我們達成非常顯著的進展,為SQL 開發人員提供更加強大的使用者體驗,並且提高他們日常執行自助式商業智慧任務與工作流程之工作效率。因為利用Hue 作為SQL 開發工作檯,平台使用率以及分析使用案例的數量均不斷增長,其中數千位每週使用Hue 的使用者執行數百萬條查詢。
 
我們發佈了最新的Cloudera 5.14,不斷改進Hue 的查詢體驗,不但加速疑難排解,還有獨特的查詢協助功能防止惡意查詢。我們也擴大了雲端整合的內涵,讓使用者可直接在ADLS、AWS、S3、HDFS 和Apache Kudu 中查找和探索資料。繼續閱讀瞭解相關詳情,並在demo.gethue.com一鍵試用。
 

展示使用案例:自助服務Customer 360

此案例能幫助我們綜覽分析資料庫之能力以及Cloudera 5.14 之改良功能。在此一自助服務分析Customer 360 場景中編輯器經常查詢儲存在雲端和Apache Kudu表格中的信用卡交易資料。該展示案例利用資料目錄(Data Catalog) 搜尋和標記以及Query Assistant。
 
 
 

分析資料庫

資料目錄搜尋

在輸入任何查詢來獲取深入分析之前,使用者必須搜尋並探索正確的資料集。資料目錄搜尋是 Cloudera 5.11 引進的功能,且它不斷改進其可用性。這項功能位在介面的頂部欄位,可以輸入任何文字搜尋 SQL 表格、欄位、標籤和已儲存的查詢。要從數千個表格中快速查找出一個表格,或是搜尋已經在分析特定資料集的既有查詢時,這個功能特別實用。
搜尋的範例包括:
  • table:customer → 查找客戶表格
  • table:tax* tags:finance → 列出所有以稅務開頭並標記「finance」的表格
Data Catalog Search
 
 

語法檢查工具

找到資料之後,要寫出正確的查詢有時並不容易。以下是有助於撰寫查詢的一些改良方法。
編輯器提供接近100% 的Apache Impala和Hive 語法,可以快速輸入SQL 查詢。這個版本引進了語法檢查工具,會標示出錯誤的語法或不存在的SQL 物件。它也會建議簡單的修正方法。這些警告可提高輸入查詢的效率,因為在提交查詢之間會先進行目視檢查。
 
Example of a wrong FROM syntax highlighted on line 2
2 行標示出錯誤的FROM 語法之範例
 
Another one showing suggestions
另一個則提出建議
 
Where globalname is a non-existing column
ere globalname 是不存在的欄位
 

風險警示及建議

 
Cloudera 5.12 引進了風險警示與常用數值,協助SQL 使用者加速撰寫更有效的查詢。現在,編輯器內直接提供如何修正警示狀況的建議。按一下風險警示便會顯示一連串的建議,然後再按一下,該查詢便會自動修改為更加安全或效能更好的內容。
 
一則風險警示的範例,指出查詢某個表格時沒有指定任何分割區來限制所輸入資料的大小
Clicking on
 
按一下「新增過濾條件」,便會顯示一系列常見的過濾條件值,可直接注入SQL 查詢中
 

Impala Query Browser

在查找到資料並寫下查詢之後,工作尚未完成。疑難排解失敗或是長時間執行的查詢也是影響工作流程效率的重要因素。
 
 
Image of the built-in query information without leaving the Editor page and context
圖像顯示未離開編輯器頁面和環境的內建查詢資訊
 
 
新的Impala Query Browser 提供內建的查詢疑難排解功能,尤其是關於這些重要指標的查詢。
 

設定檔

顯示設定檔讓您詳細瞭解查詢的實際執行情況。這個視圖可用來分析不同營運商之間的資料交換以及IO (磁碟、網路、CPU) 的效能。您可以使用設定檔重新安排資料的位置(在磁碟上、在記憶體中、不同的分割區或檔案格式)。
 

計劃

查詢計劃是用圖形方式呈現的濃縮版摘要報告。它會即時更新。
 
Visual representation of the operations of a query
用圖像表現一項查詢之運作。
 

記憶體耗用量

要判斷您的查詢的可用記憶體是否充足,請利用它提供的記憶體設定檔,內含查詢執行期間記憶體使用量的資訊。
更多細節請閱讀此部落格文章
 

變數

您現在可使用編輯器定義變數的預設值,所以複製/貼上或製作報告還是很簡單。典型的使用案例是共用資料目錄的一組查詢,讓其他團隊可以再利用相關知識並加以改進。
 
Editing country_code
 
所提供的數值清單,讓您輕鬆把變數設為參數以利製作報告,而報告則可交由更廣大的使用者群再利用。
 
List of country_code values
 
您甚至可以把數值替換成其他文字:
 

Solr 儀表板自動完成

不但是 SQL 使用者能夠有效率地查找和分析資料,而且平台也支援互動式 Apache Solr 搜尋,將文字搜尋功能與商業智慧和分析工作流程結合。
 
Solr 是為動態儀表板提供技術支援的引擎。Solr 的長項之一,是可以極迅速存取資料的相符數值,即使在超大型資料集中亦然。在此一版本中,搜尋列的自動完成功能會隨著您一邊輸入一邊過濾,用互動方式找出相符的數值。
 
  Live filtering of a list of thousand of wine types 
關細節請參閱部落格文章
 
 

雲端

有越來越多人選擇使用雲端來支援分析工作負載,例如資料準備以及資料倉儲。無論資料存放在哪裡,Hue 皆可以在HDFS、Kudu、AWS S3,以及現在的Microsoft Azure ADLS 檔案系統之間探索、查詢和共享其結果。
 
 
 
 
特別是,它提供各種功能提升雲端的資料分析效率:
  • 在檔案瀏覽器中探索ADLS
  • 在ADLS 直接建立Hive 表格
  • 把查詢結果儲存到ADLS
Hue file browsers
 
整合功能隨插即用很方便。
1. ADLS 憑證加入到 Cloudera Manager
 Adding ADLS credentials in CM 
 
2.接著 ADLS 連接程式會自動設定叢集元件,如 ImpalaHiveHue:
ADLS connector auto configure
 
 
相關細節請參閱此部落格文章
我們希望這個新版的分析資料庫介面能協助您更輕鬆和快速地自行查找和分析資料。若有任何疑問或意見回饋,請在這裡、社群論壇上或透過@gethue留言!
Back to list.
Prev
利用 Cloudera 建立生產建議系統
利用 Cloudera 建立生產建議系統
Next
Cloudera 如何使用開放原始碼
Cloudera 如何使用開放原始碼