Data adalah sumber kehidupan setiap perusahaan, dan dalam pengaturan pembelajaran mesin, data dihasilkan dari beberapa sumber. Pembersihan data sangat penting agar setelan pembelajaran mesin berfungsi dengan benar. Tapi bagaimana Anda melakukan pembersihan data? Show
Dalam tutorial ini, Anda akan mempelajari apa itu pembersihan data dan cara membersihkan data dengan alat Python sehingga Anda dapat menikmati data yang segar dan bersih PrasyaratTutorial ini akan menjadi demonstrasi langsung. Jika Anda ingin mengikuti, pastikan Anda memiliki yang berikut ini
Terkait. Bagaimana Anda Memasang Python 3. 6?
Mengimpor Pembersihan Data Pustaka Python PandasPython memiliki beberapa pustaka bawaan untuk membantu pembersihan data. Dua pustaka paling populer adalah panda dan numpy, tetapi Anda akan menggunakan panda untuk tutorial ini. Pustaka panda memungkinkan Anda bekerja dengan bingkai data panda untuk analisis dan manipulasi data Sebelum Anda dapat melakukan pembersihan data dengan panda Python, impor perpustakaan panda dan dataset Anda (file CSV) terlebih dahulu Terkait. Python 101. Cara Mengelola dan Membaca CSV dengan Python Luncurkan JupyterLab Anda, lalu seret dan jatuhkan kumpulan data Pokemon ke JupyterLab Anda Sekarang, jalankan perintah di bawah ini secara berurutan untuk membaca kumpulan data dan menampilkan pratinjau data, sehingga Anda dapat memeriksa apakah ada kesalahan impor Mengimpor pokemon. csv ke JupyterLabMenghapus Spasi Putih di Kumpulan DataSekarang setelah Anda mengimpor kumpulan data, Anda dapat mulai membersihkan data. Ada banyak cara untuk membersihkan kumpulan data Anda, seperti menghapus spasi putih. Spasi putih tidak perlu meningkatkan ukuran kumpulan data Anda di database Anda dan menjadikan pencarian data duplikat sebagai tantangan 1. Periksa kumpulan data Anda jika ada spasi putih seperti yang Anda lihat di kolom Nama, Jenis, dan Kelemahan di bawah. Anda akan menghapus bagian data yang tidak relevan ini secara sistematis Melihat Spasi Putih di Kumpulan Data2. Salin dan tempel kode berikut ke shell kode Anda, dan tekan tombol Shift+Enter untuk mengeksekusi kode. Kode di bawah meneruskan nama kolom ke fungsi 3 untuk menghapus spasi kosong di depan dan di belakang dalam kumpulan data AndaTerkait. Memulai. Fungsi Python untuk Pemula _3. Terakhir, periksa lagi kumpulan data Anda untuk mengonfirmasi bahwa spasi putih telah hilang seperti yang di bawah ini Memverifikasi Spasi Putih DihapusMenghapus Nilai DuplikatSpasi putih bukan satu-satunya yang perlu Anda perhatikan dalam kumpulan data. Dengan banyak sekali data dalam kumpulan data Anda, Anda mungkin melewatkan beberapa duplikat. Jadi bagaimana proses mendeteksi dan menghapus duplikat? Setiap entri dalam kumpulan data Anda harus memiliki data unik di bawah kolom Nama. Tapi seperti yang Anda lihat di bawah, Blastoise memiliki dua entri, satu di baris 10 dan satu lagi di baris 11. Karena kolom Tinggi hanya boleh berisi angka, Anda akan menghapus entri di baris 11, yang memiliki teks kelebihan inci di kolom Tingginya Meninjau Duplikat dalam Kumpulan DataJalankan perintah berikut untuk menghapus duplikat pertama 4dan pertahankan kejadian terakhir ( 5)
Seperti yang Anda lihat di bawah, duplikat pada baris 10 sekarang hilang, jadi Anda tidak perlu khawatir untuk memperbaiki kelebihan string "inci" itu lagi. Memverifikasi Duplikat DihapusMengisi Nilai yang HilangSejauh ini, Anda telah menangani penghapusan data berlebih (spasi putih dan duplikat), tetapi bagaimana dengan data yang hilang?
1. Jalankan perintah _7 di bawah ini untuk memeriksa nilai yang hilang dalam kumpulan data Anda _Ada total 151 entri dalam kumpulan data. Dalam output yang ditunjukkan di bawah ini, Anda dapat mengetahui bahwa tiga kolom adalah data yang hilang. Baik kolom Tinggi dan Berat memiliki 150 entri, dan kolom Jenis hanya memiliki 149 entri Menemukan data yang hilang2. Selanjutnya, jalankan perintah berikut untuk menampilkan semua entri dengan setidaknya satu ( 8) data yang hilang 9
Perhatikan di bawah bahwa kolom Tinggi, Berat, dan Jenis memiliki nilai Bukan Angka (NaN). Nilai NaN menunjukkan kolom memiliki data kosong atau hilang Pada output di bawah ini, Anda dapat melihat data Tinggi dan Berat Golbat hilang yang akan Anda isi pada langkah selanjutnya, jadi pastikan untuk mencatat nomor entri Golbat (42) Menemukan entri dengan data yang hilang3. Cari informasi Golbat di situs web Pokémon di browser web Anda. Pada data Golbat di bawah ini, Anda dapat melihat nilai Tingginya adalah 5′ 03″ (63 inci), sedangkan nilai Beratnya adalah 121. 3 pon. Catat nilai tinggi dan berat untuk mengisi data yang hilang untuk Golbat di dataset Anda nilai tinggi dan berat untuk mengisi data yang hilang untuk Golbat di dataset AndaSekarang, jalankan perintah berikut untuk mengisi data Golbat yang hilang di dataset Anda
5. Jalankan perintah _0 di bawah ini, di mana 1 adalah nomor ID entri, untuk mencantumkan data entri dan memeriksa nilai kosong 2
Di bawah ini, Anda dapat melihat bahwa data Golbat sudah diisi dengan lengkap Melihat Data Entri
6. Terakhir, ulangi langkah yang sama (tiga sampai lima) untuk mengisi data yang hilang untuk entri lainnya Memperbaiki Kesalahan PemformatanAlih-alih data yang hilang, skenario tipikal lainnya dalam kumpulan data adalah kesalahan pemformatan. Catatan yang tidak akurat bisa sangat menyebalkan, tetapi jangan khawatir, Anda masih bisa memperbaikinya Mungkin Anda memiliki entri dalam kumpulan data Anda dengan kata-kata yang dipisahkan oleh tanda hubung seperti di bawah, bukan koma dan spasi. Jika demikian, menjalankan perintah _3 dan ________1______3 akan berhasil1. Jalankan perintah di bawah ini untuk melihat tampilan data di kerangka data Anda. Ganti _5 dengan nomor entri data dengan kesalahan pemformatan Menampilkan Data Entri Tertentu2 Selanjutnya, jalankan perintah di bawah ini untuk mengganti tanda hubung dengan koma ( 6) di kolom Kelemahan entri data ( 7)
3. Jalankan kembali perintah _8 seperti yang Anda lakukan pada langkah pertama untuk memeriksa apakah ada tanda hubung dalam data
Seperti yang Anda lihat di bawah, output menunjukkan koma sekarang memisahkan kata-kata Mengganti tanda hubung dengan koma spasiMemperbaiki Kata-kata yang Salah EjaSelain kesalahan pemformatan, kata yang salah eja dalam kumpulan data juga dapat mempersulit analisis data. Kabar baiknya adalah Anda dapat menggunakan beberapa pustaka Python pemeriksa ejaan yang sudah jadi. Tetapi karena Anda sudah menginstal panda, Anda tidak perlu khawatir untuk menginstal yang lain 1. Jalankan perintah berikut untuk mencantumkan semua kata unik 9 di kolom 0. Ganti _0 jika Anda lebih suka mencantumkan kata-kata unik dari kolom lain _0Seperti yang Anda lihat di bawah, ada dua kata yang salah eja (Posion dan Fie) yang seharusnya adalah “Poison” dan “Fire. ” Sekarang Anda dapat menelusuri kumpulan data, menemukan baris mana yang salah mengeja kata, dan memperbaikinya Menemukan Kata-kata yang Salah EjaJalankan perintah di bawah ini untuk menampilkan semua baris yang 2kata 3 dari kolom 0. Argumen regex disetel ke false ( 5) untuk memperlakukan string ( 3) sebagai string literal dan bukan ekspresi reguler _1Pada keluaran berikut, ada empat baris (Arbok(24), Nidorina(30), Nidoqueen(30) dan Nidoran(32)), yang memiliki kata salah eja Posisi di kolom Jenis Melihat Kata yang Salah Eja3. Sekarang, jalankan perintah di bawah ini untuk mengganti 3 untuk semua entri di kolom 0 dengan kata 9 _2Mengganti Kata yang Salah Eja "Posion" dengan "Poison"Jika penggantian berhasil, Anda akan melihat bahwa Anda telah mengoreksi kata yang salah eja dari "Posion" menjadi "Poison" di nomor entri 24 dan 30-32 Memverifikasi Kata-kata yang Salah Eja Telah Dikoreksi4. Terakhir, ulangi langkah-langkah tersebut (dua hingga tiga) untuk mengoreksi kata-kata lain yang salah eja KesimpulanDalam tutorial ini, Anda telah mempelajari cara melakukan pembersihan data dengan Python dalam banyak cara untuk berbagai kasus penggunaan. Anda juga menyadari bahwa panda, perpustakaan Python yang populer, berada tepat di sudut untuk memungkinkan Anda menghemat waktu membersihkan data Dengan pengetahuan yang baru ditemukan ini, mengapa tidak mempelajari lebih lanjut tentang teknik panda praktis di Python untuk manipulasi data? Benci iklan? Jelajahi Buku Panduan ATALainnya dari ATA Learning & Partners
|