Mengetahui cara mengumpulkan dan menyimpan data adalah bagian penting dari sabuk alat ilmuwan data mana pun. Anda akan melampaui kumpulan data mainan dan mempelajari cara menggunakan Python untuk menangani data yang dapat Anda temukan di dunia nyata Show
Pengumpulan & Penyimpanan DataJalur Pembelajaran ⋅ 9 Sumber Daya Kursus Membaca dan Menulis File CSVKursus singkat ini mencakup cara membaca dan menulis data ke file CSV menggunakan modul "csv" bawaan Python dan pustaka "pandas". Anda akan mempelajari cara menangani data standar dan non-standar seperti file CSV tanpa header, atau file yang berisi pembatas dalam data Kuis Interaktif Membaca dan Menulis File CSV dengan PythonKursus Membaca dan Menulis File Dengan PandaPelajari tentang API alat Pandas IO dan bagaimana Anda dapat menggunakannya untuk membaca dan menulis file. Anda akan menggunakan fungsi read_csv() Pandas untuk bekerja dengan file CSV. Anda juga akan membahas metode serupa untuk bekerja secara efisien dengan file Excel, CSV, JSON, HTML, SQL, acar, dan data besar Kursus Mengedit Spreadsheet Excel dengan Python Dengan openpyxlPelajari cara menangani spreadsheet dengan Python menggunakan paket openpyxl. Anda akan mempelajari cara memanipulasi spreadsheet Excel, mengekstrak informasi dari spreadsheet, membuat spreadsheet sederhana atau lebih kompleks, termasuk menambahkan gaya, bagan, dan sebagainya. Tutorial Pengantar Perpustakaan Python SQLPelajari cara terhubung ke sistem manajemen database yang berbeda dengan menggunakan berbagai pustaka Python SQL. Anda akan berinteraksi dengan database SQLite, MySQL, dan PostgreSQL dan melakukan kueri database umum menggunakan aplikasi Python Kursus SQLite dan SQLAlchemy dengan Python. Memindahkan Data Anda Melampaui File DatarPelajari cara menyimpan dan mengambil data menggunakan Python, SQLite, dan SQLAlchemy serta dengan file datar. Menggunakan SQLite dengan Python memberikan manfaat tambahan untuk mengakses data dengan SQL. Dengan menambahkan SQLAlchemy, Anda dapat bekerja dengan data dalam bentuk objek dan metode Kursus Python, Boto3, dan AWS S3. DemistifikasiMulailah bekerja dengan Python, Boto3, dan AWS S3. Pelajari cara membuat objek, mengunggahnya ke S3, mengunduh kontennya, dan mengubah atributnya langsung dari skrip Anda, sambil menghindari kesalahan umum Tutorial Tiga Cara Menyimpan dan Mengakses Banyak Gambar dengan PythonDalam tutorial ini, Anda akan membahas tiga cara menyimpan dan mengakses banyak gambar dengan Python. Anda juga akan melihat bukti eksperimental untuk keuntungan dan kerugian kinerja masing-masing Tutorial Langkah Pertama Dengan PySpark dan Pemrosesan Big DataAmbil langkah pertama Anda dengan konsep pemrosesan Spark, PySpark, dan Big Data menggunakan konsep Python perantara Tutorial Kontrol Versi Data Dengan Python dan DVCPelajari cara menggunakan DVC, alat canggih yang memecahkan banyak masalah yang dihadapi dalam pembelajaran mesin dan ilmu data. Anda akan mengetahui bagaimana kontrol versi data membantu Anda melacak data, berbagi mesin pengembangan dengan tim, dan membuat eksperimen yang dapat direproduksi dengan mudah Mendapat masukan tentang jalur pembelajaran ini? Mencari percakapan waktu nyata? . Selamat Pythoning Cara mendapatkan data dari file lokal, database, API, dan pustaka akses data ke dalam lingkungan Python AndaGambar oleh Lance Grandahl di UnsplashIntroductionSebagian besar analisis Python dimulai dengan mengimpor data ke lingkungan Anda. Tetapi bagaimana jika data itu terjebak dalam database? Untungnya, Python sangat fleksibel dan memiliki banyak pustaka sumber terbuka untuk mengakses dan memproses data. Dalam tutorial ini kita akan melihat 13 metode untuk memasukkan data ke dalam Pandas Dataframe, setelah itu dapat dibersihkan, dianalisis, dan divisualisasikan. Kita dapat mengelompokkan metode-metode tersebut ke dalam 4 kategori utama
Satu-satunya persyaratan utama adalah menginstal pustaka # Absolute path8 $ pip install pandas _Dengan itu, mari kita mulai 📁 File lokalSeringkali data yang Anda butuhkan disimpan dalam file lokal di komputer Anda. Bergantung pada tempat Anda menjalankan lingkungan Python, Anda dapat menentukan nama file sebagai jalur relatif atau absolut # Absolute path 1. file CSVCSV adalah pilihan populer untuk menyimpan data tabular, dan cara termudah untuk memulai. Misalkan Anda telah mengunduh kumpulan data populasi ini dari Our World in Data import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv" Setelah mengimpor data, sebaiknya jalankan # Absolute path9 untuk memahami bagaimana struktur data Anda e. g. berapa banyak baris, kolom, dan nilai bukan nol yang Anda miliki. Menjalankan kode itu memberi kita hasil berikut Metode ini juga berfungsi untuk file yang dapat diakses oleh URL, seperti file Google Sheet atau CSV publik di repo Github publik. Juga, jika Anda terus mendapatkan a import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"_0 lalu coba ganti nama file Anda untuk mengganti spasi dengan garis bawah e. g. "Contoh Keuangan. xlsx" menjadi "Financial_Sample. xlsx" 2. File ExcelAnda harus sedikit lebih berhati-hati dengan file Excel, karena mungkin berisi lebih dari satu lembar data dan pemformatan visual yang rumit e. g. baris tajuk tambahan. Kalau tidak, sintaksnya sangat mirip — inilah contoh data keuangan import pandas as pdexcel_file = "/Users/johnreid/Downloads/Financial_Sample.xlsx"_ 3. File teksFile teks seringkali memerlukan lebih banyak pemrosesan data — mulailah dengan melihat bagaimana data disimpan dan bagaimana Anda ingin merepresentasikannya dengan Python. Dari sana, Anda dapat menulis kode untuk mengubah masukan tekstual menjadi kerangka data. Mari gunakan contoh daftar belanja, dengan setiap baris berisi item dan kuantitas Untuk mengubahnya menjadi kerangka data, Anda dapat menjalankan yang berikut ini shopping_list = "/Users/johnreid/Downloads/shopping_list.txt"results = []with open(shopping_list) as f: Kami membaca baris satu per satu, menghapus spasi ekstra dan membagi baris menjadi dua bagian. Saat kami membuat kerangka data, kami juga perlu menetapkan nama kolom 4. Banyak file/folderApa yang terjadi jika Anda perlu mengekstrak data dari beberapa file yang disimpan? Kami memiliki 5 subfolder, masing-masing dengan sekitar 100 file. Setiap file dimulai dengan judul, diikuti dengan isi artikel. Tujuan kami adalah menggabungkan semua file ini menjadi satu bingkai data dengan kolom 'Judul', 'Subtitel', 'Body' dan 'Genre'. Pustaka import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"_1 sangat berguna di sini untuk membuat daftar semua kemungkinan nama file import glob_ Kami menggunakan operator import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"_2 dengan glob untuk mendapatkan semua kemungkinan nama file yang diakhiri dengan import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"3. Perhatikan bahwa Anda dapat menggabungkan beberapa kerangka data bersama-sama menggunakan import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"4. Menjalankan kode itu memberi kita hasil berikut🗄 Database Sebagian besar organisasi menyimpan data penting bisnis mereka dalam database relasional seperti Postgres atau MySQL, dan Anda harus mengetahui Structured Query Language (SQL) untuk mengakses atau memperbarui data yang disimpan di sana. Database memiliki sejumlah keunggulan, seperti normalisasi data 5. SQLiteSQLite adalah database tersemat yang disimpan sebagai satu file, jadi ini adalah tempat yang tepat untuk mulai menguji kueri. Di sini kami akan menunjukkan contoh menghubungkan ke file SQLite dari database Chinook import pandas as pd Jika Anda penasaran, baca tutorial lengkap saya tentang membuat dasbor interaktif menggunakan SQL di sini Membangun dasbor Python interaktif menggunakan SQL dan Datapanemenuju ilmu data. com 6. Database jarak jauhMenghubungkan ke basis data jarak jauh seperti Postgres, Redshift, atau SQLServer sebagian besar menggunakan sintaks yang sama tetapi memerlukan kredensial akses. Untuk alasan keamanan, sebaiknya simpan kredensial ini dalam file konfigurasi dan muat ke dalam skrip Python Anda. Anda dapat membuat file import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"5 terpisah dengan info berikut host = "localhost" dan kemudian impor ke skrip Python Anda sebagai berikut (Anda juga memerlukan perpustakaan import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"6) import psycopg2 Pastikan untuk menyimpan file import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"7 Anda dengan aman dan jangan mengunggahnya di tempat lain - Anda dapat menambahkannya ke import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"8 Anda untuk memastikannya tidak disertakan dalam komitmen git 7. SQLAlkimiaJika Anda menginginkan cara yang lebih 'pythonic' untuk menanyakan database, coba perpustakaan SQLAlchemy, yang merupakan Object-Relational-Mapper. Ini biasanya digunakan untuk aplikasi sehingga pengembang tidak perlu menulis SQL murni untuk memperbarui database mereka, tetapi Anda juga dapat menggunakannya untuk kueri data Berikut adalah contoh menggunakan database toko musik Chinook yang sama import sqlalchemy as dbengine = db.create_engine('sqlite:///chinook.db') Dalam kode ini kita menghubungkan ke database, lalu mengatur beberapa tabel & metadata di SQLAlchemy. Setelah ditentukan, kita dapat menulis kueri dengan cara yang lebih 'pythonic' dan membaca hasilnya langsung ke kerangka data Pandas. Menjalankan kode itu memberikan output berikut 📶 APITerkadang Anda perlu mengakses data dari platform tertentu yang digunakan perusahaan Anda, seperti Hubspot, Twitter, atau Trello. Platform ini sering kali memiliki API publik tempat Anda dapat mengambil data, langsung di dalam lingkungan Python Anda Ide dasarnya adalah Anda mengirim permintaan (yang mungkin menyertakan parameter kueri dan kredensial akses) ke titik akhir. Titik akhir itu akan mengembalikan kode respons plus data yang Anda minta (semoga). Anda harus melihat dokumentasi API untuk memahami bidang data apa yang tersedia. Data biasanya akan dikembalikan dalam format JSON, yang memungkinkan data bersarang dalam 8. Tanpa kredensialMari kita lakukan contoh minimal menggunakan OpenNotify API, yang melacak semua orang yang saat ini berada di luar angkasa # Absolute path0 Menjalankan kode itu memberi kita hasil berikut Kode respons memberi tahu Anda hasil panggilan API Anda — menurut Dataquest, yang paling umum adalah
9. Dengan kredensial & parameter kueriTerkadang Anda mungkin memerlukan informasi yang lebih spesifik dari API, atau harus mengautentikasi. Ada beberapa cara untuk melakukannya, namun salah satu yang paling umum adalah menambahkan parameter URL ke permintaan Anda Anggaplah kita memiliki file import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"_7 dengan kunci API kita di dalamnya # Absolute path_1 Kemudian kami membuat kamus untuk semua parameter (ini adalah contoh buatan) dan menyebarkannya # Absolute path_2 Jika Anda tidak ingin berurusan dengan JSON, Anda dapat mencoba mencari pustaka Python untuk API tersebut — ini biasanya bersumber terbuka dan dikelola oleh perusahaan atau pihak ketiga 📚 Pustaka akses set dataBagaimana jika Anda memerlukan beberapa data referensi untuk perbandingan atau penambahan konteks? 10. Pandas_datareaderPandas_datareader adalah cara yang bagus untuk menarik data dari internet ke dalam lingkungan Python Anda. Ini sangat cocok untuk data keuangan, tetapi juga memiliki beberapa sumber data Bank Dunia. Untuk mendapatkan harga saham harian Zoom selama beberapa tahun terakhir, coba yang berikut ini # Absolute path_3 Menjalankan kode itu memberi kita hasil berikut 11. DataCommonsDatacommons adalah proyek oleh Google yang menyediakan akses ke kumpulan data publik yang distandarisasi dan dibersihkan. Data yang mendasari direpresentasikan dalam format grafik, membuatnya sangat mudah untuk meminta dan menggabungkan data dari banyak sumber data yang berbeda e. g. Sensus AS, Bank Dunia, Wikipedia, Pusat Pengendalian Penyakit dan banyak lagi. Ini contoh dasarnya # Absolute path_4 Menjalankan kode itu memberi kita yang berikut Jika Anda ingin mempelajari cara menggunakan DataCommons, baca tutorial lengkap saya di sini Menjelajahi DataCommons — API yang mendukung Google PenelusuranParadigma baru untuk mengakses kumpulan data yang tersedia untuk umummenuju ilmu data. com 12. PyTrends (Google Trends)adalah pustaka tidak resmi namun berguna untuk menanyakan data Google Trends — inilah contoh sederhananya # Absolute path5 Menjalankan kode itu memberi kita hasil berikut 13. KaggleKaggle adalah komunitas ilmu data yang menyelenggarakan banyak kumpulan data dan kompetisi untuk mempelajari Python. Anda dapat mengunduh beberapa kumpulan data ini untuk dimainkan melalui antarmuka baris perintah mereka (catatan. Anda harus mendaftar untuk akun Kaggle). Misalnya, kami ingin mengunduh beberapa data ekonomi Zillow, kami dapat menjalankan perintah berikut di terminal kami (pengguna Jupyter. ganti import pandas as pdexcel_file = "/Users/johnreid/Downloads/Financial_Sample.xlsx"_6 dengan import pandas as pdexcel_file = "/Users/johnreid/Downloads/Financial_Sample.xlsx"7 dalam kode Python Anda # Absolute path_6 Ini akan mengunduh file zip dari kumpulan data, dan kemudian membuka kompresinya. Dari sana, Anda dapat membukanya sebagai file lokal dengan Panda # Absolute path_7 Untuk mempelajari lebih lanjut, lihat dokumentasi Kaggle API KesimpulanGambar dari GiphyKau berhasil. Sekarang Anda dapat menggunakan kekuatan baru Anda untuk mengakses beberapa sumber data dan menggabungkannya bersama import pandas as pdexcel_file = "/Users/johnreid/Downloads/Financial_Sample.xlsx"8 atau import pandas as pdcsv_file = "/Users/johnreid/Downloads/population-by-country.csv"4, lalu memvisualisasikannya dengan pustaka interaktif seperti Altair, Pandas, atau Folium Bagaimana cara kerja Python dengan database?Python menjadi bahasa tingkat tinggi memberikan dukungan untuk berbagai database. Kita dapat menghubungkan dan menjalankan kueri untuk database tertentu menggunakan Python dan tanpa menulis kueri mentah di terminal atau shell dari database tertentu itu, kita hanya perlu menginstal database itu di sistem kita
Apakah Python digunakan untuk menyimpan database?Bahasa pemrograman Python memiliki fitur canggih untuk pemrograman basis data. Python mendukung berbagai database seperti MySQL, Oracle, Sybase, PostgreSQL, dll . Python juga mendukung Data Definition Language (DDL), Data Manipulation Language (DML) dan Data Query Statements.
Bagaimana cara Python menyimpan data di server?Jika kita ingin tetap sederhana, kita dapat menggunakan modul pickle , yang merupakan bagian dari pustaka standar untuk menyimpan data di . Kita bisa "mengacar" objek Python ke file acar, yang bisa kita gunakan untuk menyimpan/memuat data. Jika Anda menjalankan skrip ini, Anda akan melihat sebuah file bernama data. pickle , yang berisi data yang disimpan.
Bagaimana cara Python menyimpan data dari pengguna?Untuk melakukan ini, kita harus membuka file (dari dalam Python) dalam apa yang disebut mode akses. . Tulis saja (w) – membuka file untuk ditulis Tulis dan Baca (w+) – membuka file untuk menulis dan membaca Append Only (a) – membuka file untuk ditulis. Jika file tidak ada, itu dibuat |