AWS寧夏區(qū)域上線兩項新服務:AWS Glue和Amazon Athena
3月24日,AWS今天宣布,AWS Glue、Amazon Athena在由西云數據運營的AWS中國(寧夏)區(qū)域正式上線。
AWS Glue全新的ETL服務
據介紹,AWS Glue是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用于分析。由于AWS Glue是無服務器服務,客戶在執(zhí)行ETL任務時,只需要為他們所消耗的計算資源付費。
客戶在使用數據湖架構實現數據分析解決方案時,通常有75%的時間花在數據集成任務上,需要從各種數據源提取數據,對其進行規(guī)范化,并將其加載到數據存儲中。AWS Glue消除了ETL作業(yè)基礎設施方面的所有重復勞動,讓Amazon S3數據湖中的數據集可以被發(fā)現、可用于查詢和分析,極大地縮短分析項目中做ETL和數據編目階段的時間,讓ETL變得很容易。
具體而言,AWS Glue在從客戶選擇的數據源把數據爬取出來之后,會自動識別數據格式和模式(schema),構建統(tǒng)一的數據目錄,并為客戶提供所選數據的中央視圖。這使得客戶很容易跨越各種數據存儲,檢索和管理所有數據,而不必手動搬運它們。當客戶從數據目錄中標識出數據源(例如一個數據庫表) 和數據目標 (例如一個數據倉庫) 時,AWS Glue將匹配相應的模式,生成可定制、可重用、可移植、可共享的數據轉換代碼。開發(fā)人員可以調度任意數量的ETL作業(yè),AWS Glue則會管理其余的工作,根據客戶ETL工作負載自動啟用或關閉計算資源。通過簡化創(chuàng)建ETL作業(yè)的過程,AWS Glue讓客戶可以構建可伸縮、可靠的數據準備平臺。這些平臺可以跨越數千個ETL作業(yè),具有內置的依賴性解析、調度、資源管理和監(jiān)控功能。
據了解,目前包括德比軟件、嘉云數據、殼木軟件和趣加等在內的諸多中國客戶都在使用AWS Glue解決復雜的數據挑戰(zhàn)。
Amazon Athena全新的即用即付交互式查詢服務
據介紹,Amazon Athena是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕松分析Amazon Simple Storage Service (Amazon S3) 中的數據。由于Athena是一種無服務器服務,因此客戶不需要管理基礎設施,而且只為他們運行的查詢付費。Athena可以自動擴展,并行執(zhí)行查詢,所以即便是大型數據集和復雜的查詢,也能很快獲得查詢結果。
具體而言,AWS提供了諸如Amazon Redshift和Amazon Elastic MapReduce (Amazon EMR) 等分析服務,讓各種規(guī)模的公司都可以實現PB級數據的分析。通過Amazon Redshift,客戶可以對大規(guī)模的結構化數據執(zhí)行復雜的查詢,并獲得超高速的性能。對于非結構化數據,Amazon EMR使用流行的分布式框架,例如Apache Spark、Presto、Hive和Pig,橫跨多個可動態(tài)伸縮的集群,處理和分析大量數據,快速又經濟。雖然這些服務是可伸縮的,而且足夠強大到可以處理大且復雜的大數據應用,但是,許多客戶也希望能夠很快地查詢Amazon S3上的數據,例如web日志、點擊流、原始日志文件等,而無需開啟、配置和管理Hadoop集群或數據倉庫?,F在,使用Athena分析Amazon S3中的數據就像編寫SQL查詢一樣簡單。Athena使用完整支持標準SQL的Presto,可以處理各種標準數據格式,包括CSV、JSON、ORC和Parquet。因為Athena使用多個可用區(qū)的計算資源執(zhí)行查詢,而且使用Amazon S3作為底層數據存儲,所以它具有高可用性和持久性,數據冗余存儲在多處基礎設施中,并且是每處基礎設施上的多個設備上。
據悉,憑借快速、易用、經濟和靈活的特性,Amazon Athena已經獲得茄子快傳、大宇無限、匯量科技、殼木軟件等諸多中國客戶的信賴。





