IoT、智慧裝置、雲端應用程式和社交所產生的資料量呈指數成長。無論資料採用何種格式或存放在哪個位置,您都需要以最少的時間獲得洞察,輕鬆且經濟高效地分析所有這些資料。
Amazon Redshift 支援資料湖架構,可讓您查詢資料倉儲、資料湖和操作資料庫中的資料,以取得更快、更深入的洞見。使用現代資料架構,您可以開放檔案格式,將資料存放在 Amazon S3 資料湖中。這可讓您輕鬆地將此類資料提供給其他分析和機器學習工具使用,而不是將資料鎖定在新位置中。
使用 Amazon Redshift 現代資料架構,您可以︰
- 輕鬆查詢資料湖中的資料,並將資料以開放格式寫回資料湖。
- 使用熟悉的 SQL 語句來組合並處理所有資料存放區中的資料。
- 對操作資料庫中的即時資料執行查詢,無需任何資料載入和 ETL 管道。
功能
Amazon Redshift 現代資料架構由下列功能提供支援:
Amazon Redshift Spectrum
直接在 Amazon S3 資料湖中查詢開放格式資料,而不需載入資料或複製您的基礎設施。使用 Amazon Redshift Spectrum 功能,您可以查詢開放的檔案格式,例如 Apache Parquet、ORC、JSON、Avro 和 CSV。遵循此逐步教學以開始使用。
資料湖匯出
使用 Data Lake Export 將 Amazon Redshift 查詢的結果以開放檔案格式 (Apache Parquet) 直接儲存至您的 S3 資料湖。您可以使用 Amazon Redshift Spectrum 功能及其他 AWS 服務 (例如適用於機器學習的 Sagemaker,以及適用於 ETL 操作的 EMR),接著分析此資料。觀看此 5 分鐘影片以開始使用。
「我們利用許多 AWS 和第三方分析工具,而且很高興看到 Amazon Redshift 繼續採用我們已經用於自有解決方案的各種相同資料轉換模式。從 2017 年起,我們已利用 Redshift Spectrum 控管 Amazon Redshift 在資料湖中查詢開放資料格式的功能,而現在利用新的 Redshift 資料湖匯出功能,即可方便地將資料寫回資料湖。這全都以一致快速的效能進行,甚至是在最高查詢負載的情況下進行。我們期待利用整合式大數據堆疊的協同作用,推動跨更多 Amazon Redshift 叢集的資料共用,而且以更低的成本為我們的遊戲衍生出更多價值。」
Warner Bros 分析行銷營運技術總監 Kurt Larson。分析