Amazon DataZone: Otomatiskan Penemuan Data

Ikhtisar

Hapus waktu dari entri manual atribut data dalam katalog data, yang juga menimbulkan potensi kesalahan. Hasilkan konteks bisnis dan rekomendasikan analisis untuk set data, yang meningkatkan hasil penemuan data. Pahami asal data Anda, dan sumber yang akan terdampak oleh perubahan. Data yang lebih banyak dan lebih kaya dalam katalog data bisnis juga meningkatkan pengalaman pencarian. Kurangi waktu Anda dalam mencari dan menggunakan data dari berminggu-minggu menjadi beberapa hari.

Page Topics

Fitur Utama

Fitur Utama

Katalog data bisnis Amazon DataZone bertindak sebagai registri organisasi gabungan tempat metadata teknis dapat diterbitkan sebagai aset, dan Anda dapat menambahkan konteks bisnis yang diperkaya. Anda dapat membuat data agar menampilkan konteks bisnis sehingga semua pengguna Anda dapat menemukan, memahami, dan memercayai data dengan cepat dan mudah.

Otomatiskan penambahan deskripsi dan nama bisnis ke data, yang membantu Anda memahami konteks dengan mudah dan membantu Anda menghindari berurusan dengan nama-nama teknis yang samar. Otomatisasi ini ditenagai oleh model bahasa besar (LLM) untuk meningkatkan akurasi dan konsistensi. 

Pencarian berfaset bekerja di atas katalog data bisnis untuk membantu konsumen dan produsen data menemukan aset data menggunakan informasi struktural yang familier, seperti nama tabel dan kolom, serta istilah bisnis.

Untuk setiap set data, buat daftar kolom yang paling berharga dan kemungkinan penggunaan analitik. 

Dengan statistik kualitas data di Amazone DataZone, konsumen data dapat melihat metrik kualitas data dari kualitas data AWS Glue atau sistem pihak ketiga. Konsumen data dapat memercayai sumber data yang mereka gunakan untuk mengambil keputusan, dan memiliki konteks kualitas data saat mereka mencari aset. Produsen dan tim IT juga dapat menggunakan API untuk menggabungkan statistik kualitas data dari sistem pihak ketiga ke dalam portal terpadu di luar konsol. Produsen data dapat memasukkan hasil kualitas data AWS Glue sesuai jadwal untuk memastikan bahwa skornya terbaru, bahkan ketika data terus berubah.

Memahami pergerakan data dari waktu ke waktu. Silsilah data dapat meningkatkan kepercayaan dan literasi data organisasi dengan membantu konsumen data memahami tempat data berasal, cara data berubah, dan penggunaannya. Anda dapat mengurangi waktu yang dihabiskan untuk memetakan aset data dan hubungannya, memecahkan masalah dan mengembangkan pipeline, serta menegaskan praktik tata kelola data.

Kelompokkan aset data ke dalam paket yang ditentukan (produk data) yang disesuaikan untuk kasus penggunaan bisnis tertentu untuk menyederhanakan pengatalogan dan memungkinkan konsumen data menemukan dan berlangganan data dengan mudah. Produsen data dapat melakukan kurasi koleksi aset yang relevan, menambahkan konteks bisnis, serta memublikasikannya sebagai unit produk data. Hal ini menyederhanakan proses bagi konsumen data untuk menemukan semua aset data yang diperlukan untuk kasus penggunaan tertentu. Konsumen dapat berlangganan semua aset dalam produk data melalui satu alur kerja persetujuan. Produsen data dapat mengelola siklus hidup produk, termasuk mengedit koleksi aset, membatalkan penerbitan, menghapusnya, dan mempertahankan langganan. Amazon DataZone juga menawarkan dukungan API untuk alur kerja produk data, yang memfasilitasi integrasi dan otomatisasi.

Kasus penggunaan

Kurangi waktu Anda untuk mendapatkan wawasan dengan menemukan data yang tepat, dalam konteks yang tepat. Data hanya dapat dipercaya jika konsisten, akurat, lengkap, tepat waktu, dapat dilacak, dan memiliki skor kualitas data yang transparan. Dengan kepemilikan terdistribusi, setiap departemen atau tim analitik mempertahankan keaslian aset sehingga konsumen data tahu bahwa mereka menggunakan data yang tepat.

Bangun katalog data bisnis dengan perayapan aset Anda dan membawa metadata teknis (bukan data aktual) untuk memperkaya konteks bisnis. Konteks bisnis dapat diperkaya dengan glosarium dan istilah standar. Anda juga dapat menyesuaikan metadata tambahan dengan formulir metadata.

Menggunakan data yang tepat membutuhkan pemahaman konteks data. Amazon DataZone membantu membangun konteks tersebut untuk semua data yang dikatalogkan dengan glosarium dan formulir metadata. Sekarang, pemilik data dapat berbagi informasi sebanyak mungkin untuk mengatur konteks data bagi konsumen data guna menemukan, memahami, lalu berlangganan data. Skor kualitas data membantu konsumen data memahami apakah aset data sesuai dengan tujuannya.

Kurangi waktu yang dihabiskan untuk memetakan aset data dan hubungannya, memecahkan masalah dan mengembangkan pipeline, serta menegaskan praktik tata kelola data. Melalui pengalaman grafis, konsumen data memahami asal aset. Produsen data dapat menilai efek perubahan pada tabel atau kolom dengan memahami sistem atau konsumen data yang menggunakan data (analisis dampak). Produsen data juga dapat memecahkan masalah data dengan meninjau snapshot silsilah aset data untuk menemukan sumber kesalahan. Amazon DataZone memvisualisasikan silsilah data yang ditangkap dari peristiwa OpenLineage, sebuah standar terbuka untuk pengumpulan silsilah, tetapi juga dapat menangkap pemetaan silsilah kustom. Silsilah membantu produsen data untuk memasukkan silsilah data serta berbagi data, yang meningkatkan kepercayaan pada sumber data.

Video

AWS re:Invent 2023 - Cara membuat katalog bisnis dengan Amazone DataZone (21:37)
AWS re:Invent 2023 - Memahami data Anda dengan konteks bisnis (55:40)

FAQ

Informasi apa yang terdapat dalam katalog data bisnis Amazon DataZone?

Dalam katalog data bisnis Amazon DataZone, metadata bisnis menyediakan informasi yang disusun atau digunakan oleh pebisnis dan memberikan konteks pada data organisasi. Hal ini dapat mencakup informasi berikut:

  • Kepemilikan: Organisasi modern yang berpusat pada data menggunakan proses pengelolaan data terdistribusi tempat lini bisnis (LOB) bertanggung jawab untuk mengelola data mereka sendiri. Katalog melacak kepemilikan tersebut sehingga pihak yang tertarik dapat menemukan dan meminta akses ke data sebagai bagian dari tugas bisnis mereka.
  • Klasifikasi: Penemuan data adalah tugas utama yang dapat didukung oleh metadata bisnis. Penemuan data menggunakan ontologi dan taksonomi perusahaan yang ditentukan secara terpusat untuk mengklasifikasikan sumber data serta memungkinkan Anda menemukan objek data yang relevan.
  • Hubungan: Anda dapat menggunakan katalog data Amazone DataZone untuk menambahkan informasi hubungan sebagai metadata. Seperti skema set data teknis, katalog data bisnis menunjukkan hubungan antara objek dalam katalog, seperti hubungan antara basis data, set data, dan kolomnya.
  • Skema: Rekomendasi AI untuk deskripsi dapat menggunakan skema teknis dan bisnis untuk menghasilkan deskripsi dan penggunaan data yang direkomendasikan.
  • Asal dan konsumsi: Analisis dampak dan silsilah data, serta pemetaan kustom dari OpenLineage, ditautkan ke dalam katalog data bisnis.

Apa yang dapat saya katalogkan dengan Amazone DataZone?

Amazon DataZone mendukung aset data yang diterbitkan langsung dari Katalog Data AWS Glue dan Amazon Redshift. Kedua sumber ini dapat digunakan untuk membuat katalog data di lokasi berikut:

  • Danau data Amazon Simple Storage Service (Amazon S3)
  • Banyak basis data yang dibuat khusus AWS seperti Amazon Relational Database Service (Amazon RDS) melalui perayap AWS Glue
  • Lebih dari 100 konektor Amazon AppFlow, untuk membawa data dari aplikasi pihak ketiga, seperti Snowflake, Salesforce, dan Google Analytics