Data Cleaning atau Pembersihan data atau data menggosok adalah tindakan mendeteksi dan memperbaiki (atau menghapus) record korup atau tidak akurat dari mengatur catatan, tabel, atau database. Yang digunakan terutama di database, istilah ini mengacu pada identifikasi tidak lengkap, tidak benar, tidak tepat, tidak relevan dll bagian data dan kemudian mengganti, memodifikasi atau menghapus data ini kotor.
Setelah membersihkan, kumpulan data akan konsisten dengan data sejenis lainnya dalam sistem set. Inkonsistensi dideteksi atau dihapus mungkin awalnya disebabkan oleh data yang berbeda definisi kamus dari entitas yang sama di toko berbeda, mungkin telah disebabkan oleh kesalahan pengguna masuk, atau mungkin telah rusak dalam transmisi atau penyimpanan. pembersihan data berbeda dari validasi data dalam validasi yang hampir selalu berarti data ditolak dari sistem pada entri dan dilakukan pada waktu masuk, bukan pada batch data.
Proses pembersihan data aktual mungkin melibatkan menghapus kesalahan ketik atau memvalidasi dan nilai-nilai koreksi terhadap daftar dikenal entitas. validasi mungkin ketat (seperti menolak semua alamat yang tidak memiliki kode pos yang valid) atau fuzzy (seperti mengoreksi catatan bahwa secara parsial sesuai dengan yang ada, catatan diketahui).
Baca selengkapnya di Visilubai
No comments:
Post a Comment