Pustaka python mana yang digunakan untuk pembersihan data?

Data adalah sumber kehidupan setiap perusahaan, dan dalam pengaturan pembelajaran mesin, data dihasilkan dari beberapa sumber. Pembersihan data sangat penting agar setelan pembelajaran mesin berfungsi dengan benar. Tapi bagaimana Anda melakukan pembersihan data?

Dalam tutorial ini, Anda akan mempelajari apa itu pembersihan data dan cara membersihkan data dengan alat Python sehingga Anda dapat menikmati data yang segar dan bersih

Prasyarat

Tutorial ini akan menjadi demonstrasi langsung. Jika Anda ingin mengikuti, pastikan Anda memiliki yang berikut ini

  • Mesin Window atau Linux – Tutorial ini menggunakan Windows 10 21H1 Build 19043
  • Jupyter Lab (versi 3. 12. 1 digunakan dalam tutorial ini) dan Python 3 atau lebih tinggi

Terkait. Bagaimana Anda Memasang Python 3. 6?

  • Unduh kumpulan data Pokemon untuk digunakan untuk demo

Mengimpor Pembersihan Data Pustaka Python Pandas

Python memiliki beberapa pustaka bawaan untuk membantu pembersihan data. Dua pustaka paling populer adalah panda dan numpy, tetapi Anda akan menggunakan panda untuk tutorial ini. Pustaka panda memungkinkan Anda bekerja dengan bingkai data panda untuk analisis dan manipulasi data

Sebelum Anda dapat melakukan pembersihan data dengan panda Python, impor perpustakaan panda dan dataset Anda (file CSV) terlebih dahulu

Terkait. Python 101. Cara Mengelola dan Membaca CSV dengan Python

Luncurkan JupyterLab Anda, lalu seret dan jatuhkan kumpulan data Pokemon ke JupyterLab Anda

Sekarang, jalankan perintah di bawah ini secara berurutan untuk membaca kumpulan data dan menampilkan pratinjau data, sehingga Anda dapat memeriksa apakah ada kesalahan impor

# Import the pandas library and set pd as the standard way 
# to reference pandas.
import pandas as pd
# Read the data from the dataset into your pandas dataframe.
data = pd.read_csv("pokemon.csv")
# Display a preview of the data.
data.head()

Pustaka python mana yang digunakan untuk pembersihan data?
Mengimpor pokemon. csv ke JupyterLab

Menghapus Spasi Putih di Kumpulan Data

Sekarang setelah Anda mengimpor kumpulan data, Anda dapat mulai membersihkan data. Ada banyak cara untuk membersihkan kumpulan data Anda, seperti menghapus spasi putih. Spasi putih tidak perlu meningkatkan ukuran kumpulan data Anda di database Anda dan menjadikan pencarian data duplikat sebagai tantangan

1. Periksa kumpulan data Anda jika ada spasi putih seperti yang Anda lihat di kolom Nama, Jenis, dan Kelemahan di bawah. Anda akan menghapus bagian data yang tidak relevan ini secara sistematis

Pustaka python mana yang digunakan untuk pembersihan data?
Melihat Spasi Putih di Kumpulan Data

2. Salin dan tempel kode berikut ke shell kode Anda, dan tekan tombol Shift+Enter untuk mengeksekusi kode. Kode di bawah meneruskan nama kolom ke fungsi

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
3 untuk menghapus spasi kosong di depan dan di belakang dalam kumpulan data Anda

Terkait. Memulai. Fungsi Python untuk Pemula

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
_

3. Terakhir, periksa lagi kumpulan data Anda untuk mengonfirmasi bahwa spasi putih telah hilang seperti yang di bawah ini

Pustaka python mana yang digunakan untuk pembersihan data?
Memverifikasi Spasi Putih Dihapus

Menghapus Nilai Duplikat

Spasi putih bukan satu-satunya yang perlu Anda perhatikan dalam kumpulan data. Dengan banyak sekali data dalam kumpulan data Anda, Anda mungkin melewatkan beberapa duplikat. Jadi bagaimana proses mendeteksi dan menghapus duplikat?

Setiap entri dalam kumpulan data Anda harus memiliki data unik di bawah kolom Nama. Tapi seperti yang Anda lihat di bawah, Blastoise memiliki dua entri, satu di baris 10 dan satu lagi di baris 11. Karena kolom Tinggi hanya boleh berisi angka, Anda akan menghapus entri di baris 11, yang memiliki teks kelebihan inci di kolom Tingginya

Pustaka python mana yang digunakan untuk pembersihan data?
Meninjau Duplikat dalam Kumpulan Data

Jalankan perintah berikut untuk menghapus duplikat pertama

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
4dan pertahankan kejadian terakhir (
# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
5)

data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)

Seperti yang Anda lihat di bawah, duplikat pada baris 10 sekarang hilang, jadi Anda tidak perlu khawatir untuk memperbaiki kelebihan string "inci" itu lagi.

Pustaka python mana yang digunakan untuk pembersihan data?
Memverifikasi Duplikat Dihapus

Mengisi Nilai yang Hilang

Sejauh ini, Anda telah menangani penghapusan data berlebih (spasi putih dan duplikat), tetapi bagaimana dengan data yang hilang?

Dari titik ini, mengisi data yang hilang sangatlah penting, atau Anda akan mendapatkan kesalahan saat menjalankan perintah di bagian berikut

1. Jalankan perintah

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
_7 di bawah ini untuk memeriksa nilai yang hilang dalam kumpulan data Anda

data.info()
_

Ada total 151 entri dalam kumpulan data. Dalam output yang ditunjukkan di bawah ini, Anda dapat mengetahui bahwa tiga kolom adalah data yang hilang. Baik kolom Tinggi dan Berat memiliki 150 entri, dan kolom Jenis hanya memiliki 149 entri

Pustaka python mana yang digunakan untuk pembersihan data?
Menemukan data yang hilang

2. Selanjutnya, jalankan perintah berikut untuk menampilkan semua entri dengan setidaknya satu (

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
8) data yang hilang
# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
9

data[data.isnull().any(axis=1)]

Perhatikan di bawah bahwa kolom Tinggi, Berat, dan Jenis memiliki nilai Bukan Angka (NaN). Nilai NaN menunjukkan kolom memiliki data kosong atau hilang

Pada output di bawah ini, Anda dapat melihat data Tinggi dan Berat Golbat hilang yang akan Anda isi pada langkah selanjutnya, jadi pastikan untuk mencatat nomor entri Golbat (42)

Pustaka python mana yang digunakan untuk pembersihan data?
Menemukan entri dengan data yang hilang

3. Cari informasi Golbat di situs web Pokémon di browser web Anda. Pada data Golbat di bawah ini, Anda dapat melihat nilai Tingginya adalah 5′ 03″ (63 inci), sedangkan nilai Beratnya adalah 121. 3 pon. Catat nilai tinggi dan berat untuk mengisi data yang hilang untuk Golbat di dataset Anda

Pustaka python mana yang digunakan untuk pembersihan data?
nilai tinggi dan berat untuk mengisi data yang hilang untuk Golbat di dataset Anda

Sekarang, jalankan perintah berikut untuk mengisi data Golbat yang hilang di dataset Anda

Kumpulan perintah yang sama berlaku untuk memodifikasi nilai yang ada di kumpulan data

# Pass in ID number (Golbat's entry number=42)
golbat = data.loc[42]
# Sets the Height Value
golbat["Height (in)"] = 63
# Sets the Weight
golbat["Weight (lbs)"] = 121.30

5. Jalankan perintah

data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
_0 di bawah ini, di mana
data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
1 adalah nomor ID entri, untuk mencantumkan data entri dan memeriksa nilai kosong
data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
2

data.loc[42]

Di bawah ini, Anda dapat melihat bahwa data Golbat sudah diisi dengan lengkap

Pustaka python mana yang digunakan untuk pembersihan data?
Melihat Data Entri

Setelah mengisi data yang hilang dan masih ada setidaknya satu elemen yang hilang, Anda harus menghapus seluruh baris data yang hilang dari dataset

6. Terakhir, ulangi langkah yang sama (tiga sampai lima) untuk mengisi data yang hilang untuk entri lainnya

Memperbaiki Kesalahan Pemformatan

Alih-alih data yang hilang, skenario tipikal lainnya dalam kumpulan data adalah kesalahan pemformatan. Catatan yang tidak akurat bisa sangat menyebalkan, tetapi jangan khawatir, Anda masih bisa memperbaikinya

Mungkin Anda memiliki entri dalam kumpulan data Anda dengan kata-kata yang dipisahkan oleh tanda hubung seperti di bawah, bukan koma dan spasi. Jika demikian, menjalankan perintah

data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
_3 dan ________1______3 akan berhasil

1. Jalankan perintah di bawah ini untuk melihat tampilan data di kerangka data Anda. Ganti

data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
_5 dengan nomor entri data dengan kesalahan pemformatan

data.loc[104]

Pustaka python mana yang digunakan untuk pembersihan data?
Menampilkan Data Entri Tertentu

2 Selanjutnya, jalankan perintah di bawah ini untuk mengganti tanda hubung dengan koma (

data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
6) di kolom Kelemahan entri data (
data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
7)

data["Weaknesses"] = data["Weaknesses"].apply(lambda x: x.replace(" -", ","))

3. Jalankan kembali perintah

data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
_8 seperti yang Anda lakukan pada langkah pertama untuk memeriksa apakah ada tanda hubung dalam data

data.loc[104]

Seperti yang Anda lihat di bawah, output menunjukkan koma sekarang memisahkan kata-kata

Pustaka python mana yang digunakan untuk pembersihan data?
Mengganti tanda hubung dengan koma spasi

Memperbaiki Kata-kata yang Salah Eja

Selain kesalahan pemformatan, kata yang salah eja dalam kumpulan data juga dapat mempersulit analisis data. Kabar baiknya adalah Anda dapat menggunakan beberapa pustaka Python pemeriksa ejaan yang sudah jadi. Tetapi karena Anda sudah menginstal panda, Anda tidak perlu khawatir untuk menginstal yang lain

1. Jalankan perintah berikut untuk mencantumkan semua kata unik

data.drop_duplicates(subset=["Name"], keep="last", inplace=True)
data.head(15)
9 di kolom
data.info()
0. Ganti
data.info()
_0 jika Anda lebih suka mencantumkan kata-kata unik dari kolom lain

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
_0

Seperti yang Anda lihat di bawah, ada dua kata yang salah eja (Posion dan Fie) yang seharusnya adalah “Poison” dan “Fire. ” Sekarang Anda dapat menelusuri kumpulan data, menemukan baris mana yang salah mengeja kata, dan memperbaikinya

Pustaka python mana yang digunakan untuk pembersihan data?
Menemukan Kata-kata yang Salah Eja

Jalankan perintah di bawah ini untuk menampilkan semua baris yang

data.info()
2kata
data.info()
3 dari kolom
data.info()
0. Argumen regex disetel ke false (
data.info()
5) untuk memperlakukan string (
data.info()
3) sebagai string literal dan bukan ekspresi reguler

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
_1

Pada keluaran berikut, ada empat baris (Arbok(24), Nidorina(30), Nidoqueen(30) dan Nidoran(32)), yang memiliki kata salah eja Posisi di kolom Jenis

Pustaka python mana yang digunakan untuk pembersihan data?
Melihat Kata yang Salah Eja

3. Sekarang, jalankan perintah di bawah ini untuk mengganti

data.info()
3 untuk semua entri di kolom
data.info()
0 dengan kata
data.info()
9

# remove whitespaces from Name column
data["Name"].str.replace(' ', '')
# remove whitespaces from Weight column
data["Type"].str.replace(' ', '')
# remove whitespaces from Type column
data["Weaknesses"].str.replace(' ', '')
_2

Pustaka python mana yang digunakan untuk pembersihan data?
Mengganti Kata yang Salah Eja "Posion" dengan "Poison"

Jika penggantian berhasil, Anda akan melihat bahwa Anda telah mengoreksi kata yang salah eja dari "Posion" menjadi "Poison" di nomor entri 24 dan 30-32

Pustaka python mana yang digunakan untuk pembersihan data?
Memverifikasi Kata-kata yang Salah Eja Telah Dikoreksi

4. Terakhir, ulangi langkah-langkah tersebut (dua hingga tiga) untuk mengoreksi kata-kata lain yang salah eja

Kesimpulan

Dalam tutorial ini, Anda telah mempelajari cara melakukan pembersihan data dengan Python dalam banyak cara untuk berbagai kasus penggunaan. Anda juga menyadari bahwa panda, perpustakaan Python yang populer, berada tepat di sudut untuk memungkinkan Anda menghemat waktu membersihkan data

Dengan pengetahuan yang baru ditemukan ini, mengapa tidak mempelajari lebih lanjut tentang teknik panda praktis di Python untuk manipulasi data?

Benci iklan?

Jelajahi Buku Panduan ATA

Lainnya dari ATA Learning & Partners

  • Pustaka python mana yang digunakan untuk pembersihan data?

    Sumber Daya yang Direkomendasikan

    Sumber Daya yang Direkomendasikan untuk Pelatihan, Keamanan Informasi, Otomasi, dan lainnya

  • Pustaka python mana yang digunakan untuk pembersihan data?

    Dapatkan Bayaran untuk Menulis

    ATA Learning selalu mencari instruktur dari semua tingkat pengalaman. Terlepas dari apakah Anda seorang admin junior atau arsitek sistem, Anda memiliki sesuatu untuk dibagikan. Mengapa tidak menulis di platform dengan audiens yang sudah ada dan berbagi pengetahuan Anda dengan dunia?

  • Pustaka python mana yang digunakan untuk pembersihan data?

    Buku Panduan Belajar ATA

    ATA Learning dikenal dengan tutorial tertulisnya yang berkualitas tinggi dalam bentuk postingan blog. Dukung ATA Learning dengan ATA Guidebook PDF eBook tersedia offline dan tanpa iklan

    Bagaimana cara menggunakan Python untuk membersihkan data?

    Daftar Isi .
    Perhatikan data Anda
    Lihatlah proporsi data yang hilang
    Periksa tipe data dari setiap kolom
    Jika Anda memiliki kolom string, periksa spasi kosong
    Berurusan dengan Nilai yang Hilang (Nilai NaN)
    Mengekstrak lebih banyak informasi dari kumpulan data Anda untuk mendapatkan lebih banyak variabel
    Periksa nilai unik kolom

    Paket mana dalam Python untuk pembersihan dan persiapan data?

    Pembersih Data. Ini adalah pustaka python sumber terbuka yang sangat berguna untuk mengotomatiskan proses pembersihan data yaitu untuk mengotomatiskan tugas yang paling memakan waktu dalam proyek pembelajaran mesin apa pun. Itu dibangun di atas Pandas Dataframe dan fitur preprocessing data scikit-learn

    Apa itu pembersihan data menggunakan NumPy dan panda?

    Pembersihan Data Dengan panda dan NumPy .
    Menjatuhkan kolom yang tidak perlu di DataFrame
    Mengubah indeks DataFrame
    Menggunakan. str() metode untuk membersihkan kolom
    Mengganti nama kolom menjadi kumpulan label yang lebih mudah dikenali
    Melewati baris yang tidak perlu dalam file CSV

    Pustaka Python mana yang paling efisien untuk pemrosesan data?

    1. Panda. Pandas adalah paket Python sumber terbuka yang menyediakan struktur data berkinerja tinggi, mudah digunakan, dan alat analisis data untuk data berlabel dalam bahasa pemrograman Python. Panda adalah singkatan dari Python Data Analysis Library