Apa Itu Pembersihan Data?
Pembersihan data adalah proses penting untuk menyiapkan data mentah bagi aplikasi machine learning (ML) dan kecerdasan bisnis (BI). Data mentah mungkin berisi banyak kesalahan, yang dapat memengaruhi keakuratan model ML dan menyebabkan salah prediksi, serta dampak bisnis yang negatif.
Langkah-langkah utama pembersihan data, meliputi memodifikasi dan menghapus bidang data yang salah dan tidak lengkap, mengidentifikasi dan menghapus informasi duplikat dan data yang tidak terkait, serta mengoreksi format, nilai yang hilang, dan kesalahan ejaan.
Mengapa Pembersihan Data Penting?
Saat perusahaan menggunakan data untuk mendorong pengambilan keputusan, mereka perlu menggunakan data yang relevan, lengkap, dan akurat. Namun, set data sering mengandung kesalahan yang harus dihilangkan sebelum analisis. Kesalahan tersebut mungkin termasuk kesalahan format, seperti salah menulis tanggal, moneter, dan unit ukuran lain yang dapat secara signifikan memengaruhi prediksi. Outlier menjadi perhatian khusus karena selalu mencondongkan hasil. Kesalahan data lain yang biasa ditemukan meliputi titik data yang rusak, informasi yang hilang, dan kesalahan ketik. Data bersih dapat membantu mencapai model ML yang sangat akurat.
Data yang bersih dan akurat sangat penting untuk melatih model ML, karena menggunakan set data pelatihan yang buruk dapat menghasilkan kesalahan prediksi dalam model yang dilakukan deployment. Inilah alasan utama para ilmuwan data menghabiskan sebagian besar waktu mereka untuk menyiapkan data untuk ML.
Bagaimana Cara Memvalidasi Bahwa Data Anda Bersih?
Proses pembersihan data memerlukan beberapa langkah untuk mengidentifikasi dan memperbaiki entri masalah. Langkah pertama adalah menganalisis data untuk mengidentifikasi kesalahan. Langkah ini dapat melibatkan penggunaan alat analisis kualitatif yang menggunakan aturan, pola, dan batasan untuk mengidentifikasi nilai yang tidak valid. Langkah selanjutnya adalah menghapus atau memperbaiki kesalahan.
Langkah-langkah pembersihan data yang umum dilakukan meliputi pemulihan:
- Data duplikat: Buang informasi duplikat
- Data yang tidak relevan: Identifikasi bidang kritis untuk analisis tertentu dan buang data yang tidak relevan dari analisis
- Outlier: Outlier dapat secara dramatis memengaruhi performa model, jadi identifikasikan outlier dan tentukan tindakan yang tepat
- Data yang hilang: Tandai dan buang atau hubungkan data yang hilang
- Kesalahan struktural: Perbaiki kesalahan ketik dan ketidakkonsistenan lainnya, serta buat data sesuai dengan pola atau konvensi umum
Cara AWS Dapat Membantu dalam Pembersihan Data
Amazon SageMaker Data Wrangler adalah fitur dari Amazon SageMaker yang memungkinkan Anda menyiapkan data untuk ML dengan cepat dan mudah. Dengan Amazon SageMaker Data Wrangler, Anda dapat menyelesaikan setiap langkah alur kerja dari persiapan data, meliputi pemilihan data, pembersihan, eksplorasi, deteksi bias, dan visualisasi dari satu antarmuka visual.
Dengan menggunakan alat pemilihan data dari SageMaker Data Wrangler, Anda dapat memilih data yang Anda inginkan dari berbagai sumber data dan mengimpornya dengan satu klik. Setelah data diimpor, Anda dapat menggunakan kualitas data dan laporan wawasan untuk memverifikasi kualitas data secara otomatis dan mendeteksi kelainan, seperti baris rangkap dan kebocoran target. SageMaker Data Wrangler berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat dengan cepat menormalkan, mengubah, dan menggabungkan fitur tanpa harus menulis kode apa pun.
Untuk memulai SageMaker Data Wrangler, jelajahi tutorial.