Wednesday, 28 December 2016

Tujuh Langkah Anda harus tahu tentang data Scrubbing



Ketika melakukan sebuah proyek evaluasi informasi, kita sering mengklaim bahwa 80% dari inisiatif dihabiskan untuk pembersihan data. Saya telah dibersihkan penawaran besar dataset dan juga telah menjadi cukup mahir dalam hal itu. Pengalaman ini telah menunjukkan saya
Informasi pembersihan memakan waktu. Bahkan jika Anda melakukan pekerjaan yang buruk itu, tentu akan masih memerlukan banyak waktu. Meskipun demikian, hanya membutuhkan waktu sedikit lebih lama untuk melakukan tugas yang sangat besar. Jadi penting untuk fokus pada melakukan pekerjaan yang baik harga hp vivo.
Sebuah dibersihkan up data set adalah sangat penting untuk keberhasilan evaluasi yang sebenarnya. Ini mengurangi saat ini dan meningkatkan akurasi analisis ini.
Karena itu, ketika saya memberikan penawaran harga, saya biasanya mengalokasikan 1/3 sampai 1/2 dari waktu keseluruhan untuk pembersihan data. Meskipun ini adalah saat banyak kurang dari 80%, beberapa pelanggan masih menganggap itu terlalu banyak. Sebagai salah satu pelanggan mengatakan, "Aku terutama berpikir tentang evaluasi, perkiraan, dan beberapa visualisasi yang berguna. Sulit bagi saya untuk melihat mengapa saya ingin berinvestasi setengah dari rencana pengeluaran saya informasi membersihkan."
Mengapa begitu penting untuk data yang rapi baik?
Ada tiga alasan yang sangat sedikit:
1. Tanpa informasi yang dibersihkan, Anda juga tidak bisa melakukan analisis Anda inginkan atau dibutuhkan waktu cara lama karena Anda terus-menerus akan menghadapi masalah data. Sebagai contoh, dapat Anda bayangkan menjalankan regresi linear di mana umpan balik ini kebanyakan numerik namun dicampur dengan kepribadian di sana-sini? Misalkan ketika Anda melakukan analisis pengelompokan, Anda menemukan salah satu variabel kategoris memiliki derajat menyebabkan dengan cara yang berbeda tetapi menunjukkan titik yang sama, seperti "bertindak" dan juga "ACC" atau "polis asuransi jiwa" dan juga "asuransi jiwa. ".
2. Tanpa informasi yang dibersihkan, kemungkinan besar untuk mendapatkan hasil analisis yang salah. Sebagai contoh, katakanlah Anda berniat untuk menjalankan regresi linear serta variabel respon Anda adalah numerik dengan worths unik seperti "999" untuk menunjukkan missings, namun Anda tidak memeriksa dan juga merawat mereka informasi Anda prosedur pembersihan. Ketika Anda menjalankan desain, Anda akan berakhir dengan hasil yang salah.
3. Sebuah proses pembersihan data yang signifikan bisa menyarankan perangkat tambahan dalam pengumpulan data, yang tentunya akan membuat pengumpulan data serta analisis informasi tambahan dimasukkan.

No comments:

Post a Comment