Apa itu Persiapan Data?
Persiapan data adalah proses menyiapkan data mentah sehingga layak untuk diproses dan dianalisis lebih lanjut. Langkah-langkah utama mencakup pengumpulan, pembersihan, dan pelabelan data mentah ke dalam bentuk yang cocok untuk algoritma machine learning (ML), kemudian menjelajahi dan memvisualisasikan data. Persiapan data dapat memerlukan waktu hingga 80% dari waktu yang digunakan untuk proyek ML. Penggunaan alat persiapan data khusus penting untuk mengoptimalkan proses ini.
Apa hubungan antara ML dan persiapan data?
Data mengalir melalui organisasi yang belum pernah ada sebelumnya, datang dari segala hal mulai dari ponsel cerdas hingga kota pintar baik sebagai data terstruktur maupun data tidak terstruktur (gambar, dokumen, data geospasial, dan banyak lagi). Data tidak terstruktur membentuk 80% dari data saat ini. ML tidak hanya dapat menganalisis data terstruktur, tetapi juga menemukan pola dalam data tidak terstruktur. ML adalah proses di mana komputer belajar menafsirkan data serta membuat keputusan dan rekomendasi berdasarkan data tersebut. Selama proses pembelajaran¬—kemudian ketika digunakan untuk membuat prediksi—data yang salah, bias, atau tidak lengkap dapat mengakibatkan prediksi yang tidak akurat.
Mengapa persiapan data penting untuk ML?
Data memenuhi ML. Pemanfaatan data ini untuk menemukan kembali bisnis Anda, meskipun menantang, sangat penting untuk tetap relevan sekarang dan pada masa depan. Inilah kelangsungan hidup bagi mereka yang memiliki paling banyak informasi, dan mereka yang dapat menempatkan data mereka untuk bekerja lebih baik, keputusan yang lebih tepat akan merespons lebih cepat terhadap kejadian tak terduga dan menghadirkan peluang baru. Proses yang penting namun melelahkan ini merupakan prasyarat untuk membangun model dan analitik ML yang akurat, dan ini adalah bagian yang paling memakan waktu dari sebuah proyek ML. Untuk meminimalkan investasi waktu ini, ilmuwan data dapat menggunakan alat yang membantu mengotomatiskan persiapan data dengan berbagai cara.
Bagaimana Anda mempersiapkan data Anda?
Persiapan data mengikuti serangkaian langkah yang dimulai dengan mengumpulkan data yang benar, diikuti dengan pembersihan, pelabelan, kemudian validasi dan visualisasi.
Pengumpulan data
Pengumpulan data adalah proses mengumpulkan semua data yang diperlukan untuk ML. Pengumpulan data bisa membosankan karena data berada di banyak sumber data, termasuk di laptop, di gudang data, di cloud, di dalam aplikasi, dan di perangkat. Menemukan cara untuk terhubung ke sumber data yang berbeda dapat menjadi tantangan. Volume data juga meningkat secara eksponensial, sehingga ada banyak data yang harus dicari. Selain itu, data memiliki format dan tipe yang sangat berbeda tergantung sumbernya. Misalnya, data video dan data tabular tidak mudah digunakan bersama-sama.
Pembersihan data
Pembersihan data akan memperbaiki kesalahan dan mengisi data yang hilang sebagai langkah untuk memastikan kualitas data. Setelah memiliki data yang bersih, Anda perlu mengubahnya menjadi format yang konsisten dan dapat dibaca. Proses ini dapat mencakup perubahan format bidang seperti tanggal dan mata uang, modifikasi konvensi penamaan, serta perbaikan nilai dan satuan ukuran sehingga konsisten.
Pelabelan data
Pelabelan data adalah proses mengidentifikasi data mentah (gambar, file teks, video, dll.) serta menambahkan satu atau beberapa label yang bermakna dan informatif untuk memberikan konteks agar model ML dapat belajar darinya. Misalnya, label mungkin menunjukkan apakah foto berisi burung atau mobil, kata-kata apa yang diucapkan dalam rekaman audio, atau apakah sinar-x menemukan ketidakteraturan. Pelabelan data diperlukan untuk berbagai kasus penggunaan, termasuk penglihatan komputer, pemrosesan bahasa alami, dan pengenalan ucapan.
Validasi dan visualisasi
Setelah data dibersihkan dan diberi label, tim ML sering kali menjelajahi data untuk memastikan data sudah benar dan siap untuk ML. Visualisasi seperti histogram, plot sebar, plot kotak dan garis, plot garis, dan diagram batang adalah alat yang berguna untuk mengonfirmasi kebenaran data. Selain itu, visualisasi juga membantu tim ilmu data menyelesaikan analisis data eksplorasi. Proses ini menggunakan visualisasi untuk menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi. Analisis data eksplorasi tidak memerlukan pemodelan formal; sebagai gantinya, tim ilmu data dapat menggunakan visualisasi untuk menguraikan data.
Bagaimana AWS dapat membantu?
Alat persiapan data Amazon SageMaker membantu organisasi mendapatkan wawasan dari data terstruktur dan tidak terstruktur. Misalnya, Anda dapat menggunakan Amazon SageMaker Data Wrangler untuk menyederhanakan persiapan data terstruktur dengan visualisasi data bawaan melalui antarmuka visual tanpa kode. SageMaker Data Wrangler berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat dengan cepat menormalkan, mengubah, dan menggabungkan fitur tanpa harus menulis kode apa pun. Anda juga dapat membawa transformasi kustom Anda dengan Python atau Apache Spark, jika diinginkan. Untuk data tidak terstruktur, Anda memerlukan set data berlabel besar dan berkualitas tinggi. Dengan Amazon SageMaker Ground Truth Plus, Anda dapat membangun set data pelatihan ML berkualitas tinggi sekaligus mengurangi biaya pelabelan data hingga 40% tanpa harus membangun aplikasi pelabelan atau mengelola tenaga kerja pelabelan Anda sendiri.
Bagi analis atau pengguna bisnis yang lebih suka menyiapkan data di dalam notebook, Anda dapat menelusuri, menemukan, dan terhubung secara visual ke lingkungan pemrosesan data Spark yang berjalan di Amazon EMR dari notebook Amazon SageMaker Studio Anda dengan beberapa klik. Setelah terhubung, Anda dapat secara interaktif membuat kueri, menjelajahi, dan memvisualisasikan data, serta menjalankan tugas Spark menggunakan bahasa pilihan Anda (SQL, Python, atau Scala) untuk membangun persiapan data dan alur kerja ML yang lengkap.