Di sebagian besar skenario big data, transformasi data mengikuti operasi pembersihan dan validasi data. Operasi yang ditunjukkan dalam resep ini paling banyak digunakan di industri dan dapat digunakan kembali di berbagai lingkungan industri berskala besar
Akses Kode Proyek Pengenalan Wajah menggunakan Facenet dengan Python
Persyaratan sistem
- Instal modul python sebagai berikut jika modul di bawah ini tidak ditemukan
- pip install pandas
- pip install datetime
- Kode di bawah ini dapat dijalankan di notebook Jupyter, atau konsol python apa pun
Langkah 1. Impor modul
Untuk mengimpor
import pandas as pd import datetime
Langkah 2. Baca file csv
Baca file csv dari lokal dan buat kerangka data menggunakan panda, dan cetak 5 baris untuk memeriksa data
df = pd.read_csv('employee_data.csv') df.head()
Output dari kode di atas
Mari buat skenario di mana kita memiliki beberapa folder dan file yang ingin kita simpan atau hapus
Direktori Untuk Dihapus
- ahrefs_backlink_data
- csv_data_untuk_hapus
- digital_marketing_content
- seo_marketing_content
Direktori Agar Tetap Aman
- I_never_want_to_delete_this_folder
File Untuk Dihapus
- Hapus Aku. txt
- hapus_file_ini. txt
- berlatih_menghapus. txt
File Agar Tetap Aman
- keepthisfilesafe. txt
Menghapus Direktori File Tertentu Dengan Python
Pertama mari kita lihat apakah kita dapat menemukan beberapa pola di dalam direktori yang ingin kita hapus atau simpan
Seperti yang kita lihat kedua direktori yang ingin kita simpan/hapus berisi garis bawah, jadi tidak ada perbedaan di sini. Namun, kami ingin menghapus semua subdirektori selain dari satu direktori agar kami dapat melakukannya
- Dapatkan semua direktori file dalam direktori kerja saat ini
- Hapus I_never_want_to_delete_this_folder dari daftar python kami dan kemudian hapus direktori file yang tersisa
Jadi mari kita buat kode itu
!pwd /Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files# Let's define our current path here: # You will need to change this to be unique to your specific directory path: path = '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files'Perintah ini akan memindai semua file dan folder dalam direktori kerja saat ini, kami juga akan memfilternya dengan menambahkan pernyataan and if dan memastikan bahwa iterable (setiap item dalam daftar) adalah folder
[ some_code_here if.is_dir()] list_subfolders_with_paths = [f.path for f in os.scandir(path) if f.is_dir()] print(f'''There are all of the current subfolders within our current working directory: n {list_subfolders_with_paths }''') There are all of the current subfolders within our current working directory: ['/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/seo_marketing_content', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/ahrefs_backlink_data', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/I_never_want_to_delete_this_folder', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/.ipynb_checkpoints', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/digital_marketing_content', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/csv_data_to_delete']Sekarang kita cukup melakukan pemahaman daftar untuk hanya memilih nama file yang tidak pernah berisi kata “I_never_want” di dalam string
subfolders_to_delete = [folder_name for folder_name in list_subfolders_with_paths if "I_never_want" not in folder_name]print(f"These are the subfolders that we would like to delete: n n {subfolders_to_delete}") These are the subfolders that we would like to delete: ['/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/seo_marketing_content', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/ahrefs_backlink_data', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/.ipynb_checkpoints', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/digital_marketing_content', '/Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files/csv_data_to_delete']Sintaks penting yang perlu diperhatikan di atas adalah
!pwd /Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files_0Ini berarti bahwa saat kita mengulangi setiap nama_file jika "I_never_want" tidak ada dalam nama string, itu termasuk dalam pemahaman daftar, namun file I_never_want_to_delete_this_folder memang memiliki string ini di dalamnya dan oleh karena itu dikecualikan dari daftar python terakhir
Sekarang setelah kita mendapatkan semua subfolder dalam daftar, kita hanya akan membuat for loop untuk menghapus setiap folder dengan perintah berikut
Kiat Pro. Anda hanya dapat menghapus file satu kali dan tidak akan masuk ke tempat sampah daur ulang
Jadi pasti pastikan untuk menggunakan pernyataan print() dan periksa kembali apakah file / folder adalah yang ingin Anda hapus sebelum melakukannya
Kami dapat memeriksa ulang apakah semua folder telah dihapus dengan menjalankan keduanya
!pwd /Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files3Cara Menghapus Jenis File Tertentu Di Direktori Kerja Anda Saat Ini Dengan Python
Sekarang kami telah menghapus semua folder dan file/folder di dalam folder khusus tersebut
Mari berlatih menghapus beberapa hal tertentu. file txt dari direktori kerja kami saat ini
Saya akan menunjukkan kepada Anda dua cara berbeda untuk menyelesaikan masalah ini
- File yang ingin kita simpan tidak mengandung garis bawah _ , oleh karena itu kita dapat menghapus semua file yang berisi garis bawah
- Semua file yang ingin kita hapus juga berisi frasa "hapus" sehingga secara teknis kita dapat menghapus semua file yang cocok dengan string teks ini
Cara Mendapatkan Semua File Dalam Direktori Kerja Saat Ini Dengan Python
Pertama mari kita dapatkan semua direktori dan kemudian memfilternya hanya dengan item yang juga merupakan file
!pwd /Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files_4Ingat bahwa setelah Anda menjalankan salah satu dari dua metode berikut, yang kedua tidak akan berfungsi karena file telah dihapus
Metode Satu
!pwd /Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files_5Metode Dua
Cara Menghapus Beberapa Jenis File Dalam Direktori Kerja Saat Ini
Sekarang mari buat metode kita menjadi dua sedikit lebih rumit. Misalnya, katakanlah kami ingin menghapus beberapa ekstensi tipe file termasuk. pdf,. csv dan. file txt
!pwd /Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files7Metode lain akan menggunakan negasi (hapus semuanya kecuali)
!ls - Jupyter notebook ls - Command line 0 !ls - Jupyter notebook ls - Command line 1 !ls - Jupyter notebook ls - Command line 2Ingat
!ls - Jupyter notebook ls - Command line _3Cara Mencari Jenis File Tertentu Dari Direktori Saat Ini Ke Bawah
Jika Anda memiliki banyak subfolder dan ingin menemukan file apa pun di salah satu folder ini, Anda dapat menggunakan os. berjalan() fungsi
!ls - Jupyter notebook ls - Command line 4!pwd /Users/jamesphoenix/Desktop/Imran_And_James/Python_For_SEO/3_how_to_delete_multiple_local_files !ls - Jupyter notebook ls - Command line 6 !ls - Jupyter notebook ls - Command line 7 !ls - Jupyter notebook ls - Command line 8Cara Menghapus Jenis File Tertentu Di Semua Direktori Di Bawah Direktori Kerja Anda Saat Ini
Sekarang bagaimana dengan menghapus semua file secara rekursif dengan jenis file tertentu dalam serangkaian subfolder?
Tidak masalah
Kami akan tetap menggunakan os. walk() , namun perhatikan bahwa alih-alih menambahkan hasil ke daftar, kita dapat menghapus file saja
!ls - Jupyter notebook ls - Command line _9Semoga Anda dapat melihat betapa mudahnya menghapus file dan folder dalam folder lokal dalam skala besar
Membaca dan menghapus banyak file memastikan bahwa Anda dapat membuat saluran data sederhana seperti
- Unduh 100x secara manual. file csv
- Secara otomatis membuka semua. file csv
- Menggabungkan. file csv bersama-sama menjadi bingkai data panda
- Lakukan beberapa manipulasi data pada data yang digabungkan
- Simpan kerangka data panda gabungan sebagai csv i baru. e. menguasai. csv
- Hapus semua yang asli. file csv
Di episode berikutnya, kita akan mempelajari bagaimana kita dapat mengotomatiskan lebih jauh analisis data dan pipeline data dengan langsung membaca dan menulis data ke google sheets di pandas