Di sebagian besar skenario big data, kita perlu menggabungkan beberapa file atau tabel berdasarkan berbagai kondisi ke model data terpadu untuk tujuan analisis data yang lebih cepat. pada resep kali ini kita akan menggabungkan berbagai file excel berdasarkan kondisi tertentu
Kuasai Seni Pembersihan Data dalam Pembelajaran Mesin
Persyaratan sistem
Langkah 1. Impor modul
Dalam contoh ini kita akan menggunakan perpustakaan panda, perpustakaan ini digunakan untuk manipulasi data struktur dan operasi data panda untuk memanipulasi tabel numerik dan deret waktu
Import pandas as pd
Langkah 2. Baca File Excel
Pada kode di bawah ini kita akan membaca data dari file excel, dan membuat kerangka data menggunakan perpustakaan panda
orders = pd. read_excel('orders.xlsx') products =pd.read_excel("products.xlsx") customers = pd.read_excel("customers.xlsx")
Langkah 3. Gabungkan operasi pada bingkai Data
menggunakan fungsi penggabungan di perpustakaan panda, semua operasi gabungan basis data antara panda dari data excel. menggunakan parameter "bagaimana" dalam fungsi gabungan, kami akan melakukan operasi gabungan seperti kiri, kanan,. dll.
Gabung Kiri
import pandas as pd orders = pd. read_excel('orders.xlsx') products =pd.read_excel("products.xlsx") customers = pd.read_excel("customers.xlsx") result = pd.merge(orders,customers[["Product_id","Order_id","customer_name",'customer_email']],on='Product_id', how='left') result.head()_
Output dari kode di atas
Saya sangat menyukai metode ini, karena
- Saya dapat mengatur dan menyimpan informasi (nama file, tautan, dll) di lingkungan (spreadsheet) yang saya kenal
- Jika saya perlu memperbarui atau menambahkan file baru untuk dibaca, saya hanya perlu memperbarui file input. Tidak diperlukan perubahan pengkodean
Alur kerjanya mirip dengan metode sebelumnya. Pertama kita perlu memberi tahu Python jalur file, yang dapat diperoleh dari file input
df_files = pd.read_excel('Excel_input.xlsx') >>> df_files File path 0 C:\Users\JZ\Desktop\PythonInOffice\python_exce... 1 C:\Users\JZ\Desktop\PythonInOffice\python_exce... 2 C:\Users\JZ\Desktop\PythonInOffice\python_exce... >>> _Ini pada dasarnya adalah kerangka data sederhana dengan hanya satu kolom, yang berisi tautan file. Sekarang kita dapat beralih melalui daftar dan membaca file Excel