Google Sheets adalah alat yang sangat kuat (dan gratis) untuk membuat spreadsheet. Saya hampir mengganti LibreOffice Calc dengan Spreadsheet, karena sangat nyaman untuk digunakan. Terkadang, seorang data scientist harus menarik beberapa data dari Google Sheet ke dalam notebook Python. Dalam artikel ini, saya akan menunjukkan cara melakukannya hanya dengan menggunakan Panda
Hal pertama yang harus dilakukan adalah membuat Google Sheet. Untuk contoh ini, hanya akan berisi 2 kolom, salah satunya (Usia) memiliki satu nilai yang hilang.
Ini adalah kumpulan data yang akan kami kerjakan
Sekarang kita harus membuatnya terlihat melalui Internet. Untuk melakukan ini, kita hanya perlu pergi ke File->Publikasikan ke web
Mari kita pilih "Microsoft Excel (. xlsx)” dari menu tarik-turun dan buat jendelanya terlihat seperti ini
Saat kami mengeklik "Publikasikan", kami akan dapat menyalin URL seperti di bawah ini
Ini adalah URL yang telah dibuat oleh Google Sheet untuk membuat sheet kami dapat diunduh dalam format Excel
Pesan buku saya di pra-pemrosesan
Dalam buku ini, saya menunjukkan penggunaan praktis bahasa pemrograman Python untuk melakukan tugas pra-pemrosesan dalam proyek pembelajaran mesin
- Pembersihan data
- Pengkodean variabel kategorikal
- Analisis Komponen Utama
- Penskalaan
- Binning
- Transformasi daya
- Pemilihan fitur
- SMOTE
Tersedia dalam format paperback dan eBook
Pesan buku saya sekarang di Amazon
Kita sekarang dapat berpindah ke terminal Python seperti Google Colaboratory dan menggunakan library Pandas untuk mendapatkan konten sheet. Kita cukup menggunakan URL sebagai nilai untuk argumen pertama dari fungsi read_excel dari Pandas
dan inilah hasilnya
Seperti yang Anda lihat, data telah dimasukkan dengan benar ke dalam kerangka data kami. Kami juga memiliki NaN yang terkait dengan nilai yang hilang. Kita tidak perlu khawatir tentang tipe data, karena langsung dibaca dari format excel
Dengan argumen tertentu, kita dapat membaca sheet tertentu, melewatkan beberapa baris, dan hal lainnya
Dengan cara sederhana ini, kita dapat terhubung ke Google Sheet langsung dari Python tanpa menggunakan integrasi API tertentu. Jelas, URL yang dihasilkan oleh Google Sheet menjadikan Sheet itu publik, jadi berhati-hatilah saat Anda memberikannya kepada siapa pun
Terkadang kita mungkin perlu membaca data dari Google Sheet menjadi panda. Mari kita lihat cara melakukannya
Ini sangat sederhana, tetapi pertama-tama kita perlu "memublikasikan" Google Sheet
Bagikan Dan Publikasikan Lembar Google
Pertama, mari terbitkan Google Sheet ke web. Di jendela Google Sheet, buka File -> Bagikan -> Publikasikan ke web
Kemudian, jendela berikut akan muncul, dan kami akan memilih Excel atau CSV dari dropdown di bawah “Halaman web. ” Kami juga memiliki opsi untuk menerbitkan seluruh dokumen atau hanya menerbitkan tab tertentu di dalam dokumen
Saya akan menerbitkan seluruh buku kerja, jadi saya akan mempertahankan opsi Seluruh Dokumen. Kemudian klik tombol Terbitkan
Google kemudian akan membuat tautan ke spreadsheet kami dan akan menampilkan tautan itu di jendela berikutnya. Ini linknya kalo mau coba
Perhatikan bagaimana tautan di atas diakhiri dengan “output=xlsx”. Jika kami mengubahnya dari xlsx ke csv, itu juga akan berfungsi dan mengunduh file. file csv bukan. file xlsx
Secara teknis ini adalah tautan ke file Excel/CSV. Jika kita cukup memasukkan tautan ini ke browser, file tersebut akan diunduh ke komputer kita. Karena kami telah menerbitkan buku kerja ini, siapa pun yang memiliki URL dapat mengakses file ini
Baca Google Sheet Into Pandas
Sejauh ini kami telah melakukan persiapan file, saatnya membawa data ke dalam panda, dan ternyata sangat sederhana. Satu hal yang perlu diperhatikan adalah kita harus mencocokkan metode pandas dengan tipe file, lihat contoh di bawah ini