Bandingkan dua file csv berdasarkan kolom python

pengolahan duplikat --> jika file b memiliki banyak duplikat untuk 1 record di file a maka harus mengupdate file b record yang cocok terlebih dahulu sehingga tidak dapat digunakan lagi dalam pencocokan --> jika file a memiliki banyak duplikat dan file b

Menggunakan Python, Cara membandingkan dua kolom dalam dua file csv yang berbeda, lalu mencetak garis yang sama dan garis yang berbeda

1

0

Memasuki mode edit

4. 7 tahun yang lalu

hamzaallal07 • 0

Saya memiliki dua file berisi dua kolom untuk setiap file, saya perlu membandingkan setiap baris di setiap kolom pertama dari file1. csv dan file2. csv, lalu, jika kedua kolomnya serupa, saya mencetak kolom pertama dan dua kolom kedua. seperti ini. dalam file1. csv. C(2)—C(1) 1. 5183 dalam file2. csv. C(2)—C(1) 1. 5052

keluaran. csv C(2)—C(1) 1. 5183 1. 5052

dan jika kedua kolom berbeda, saya mencetak baris yang ada di file1 dan file2

Ini dua saya. file scv

file1. csv

C(2)—C(1) 1.5183
C(3)—C(2) 1.49
C(3)—C(1) 1.4991
O(4)—C(3) 1.4104
H(10)—O(4) 0.964
C(2)—C(1)—C(3) 59.19
C(3)—C(1)—H(5) 118.4

file2. csv

C(2)—C(1) 1.5052
C(3)—C(2) 1.505
C(3)—C(1) 1.5037
S(4)—C(3) 1.7976
H(10)—S(4) 1.3445
C(2)—C(1)—H(6) 117.68
C(2)—C(1)—C(3) 60.3
C(3)—C(1)—H(5) 116.99
_

dan output yang saya inginkan

similar_lines
C(2)-C(1)           1.5183    1.5052
C(3)-C(2)           1.49      1.505
C(3)-C(1)           1.4991    1.5037
C(2)-C(1)-C(3)      59.19     60.3
C(3)-C(1)-H(5)      118.4     116.99

different_lines
O(4)—C(3)           1.4104      –
H(10)—O(4)          0.964       –
S(4)—C(3)            –       1.7976
H(10)-S(4)           –       1.3445
C(2)-C(1)-H(6)       –       117.68

mengenai baris yang serupa, saya menemukan skrip yang sangat bagus di sisweb yang luar biasa ini Bandingkan dua kolom dalam beberapa file berbeda dengan Perl atau Python , yang menawarkan solusi untuk lingne serupa

tetapi di sisi lain saya tidak tahu bagaimana cara mencetak garis yang berbeda

python • 30rb dilihat

TAMBAHKAN KOMENTAR • 4. 7 tahun lalu oleh hamzaallal07 • 0

0

Memasuki mode edit

Bisakah Anda memberi kami beberapa konteks untuk memahami bagaimana ini terkait dengan bioinformatika?

TAMBAHKAN BALASAN • 4. 7 tahun lalu oleh Ram 37k

0

Memasuki mode edit

Hai cpad0112, maaf atas keterlambatannya

Saya seorang peneliti di bidang kimia, kimia komputasi (kimia teoretis), "Chemoinformatics". Saya menggunakan program ORCA https. // orcaforum. cec. mpg. de untuk menghitung beberapa parameter yang terkait dengan struktur molekul. jadi saya menyiapkan file input yang berisi informasi tentang struktur molekul, dan kemudian saya mendapatkan hasilnya dalam file output yang besar. jadi setelah setiap perhitungan saya mengumpulkan hasil saya

Skrip di atas memudahkan tugas saya, memungkinkan saya membandingkan dua hasil pengikatan dan sudut untuk molekul serupa

TAMBAHKAN BALASAN • 4. 7 tahun lalu oleh hamzaallal07 • 0

0

Memasuki mode edit

Np. Harap tandai posting dengan tag yang sesuai dan berikan konteks masalah yang sesuai pada forum. Ini karena sebagian besar anggota tidak hanya programmer, mereka juga memiliki pengetahuan dalam berbagai mata pelajaran (kebanyakan bioinformatika). Mereka menghargai konteks masalah dan konteksnya akan membantu menghasilkan solusi yang lebih baik untuk masalah yang diposting. Kadang-kadang, apa yang kita pikirkan mungkin atau mungkin bukan solusi yang tepat untuk masalah/masalah itu. Good luck dengan penelitian Anda dan terus posting di sini. )

TAMBAHKAN BALASAN • 4. 7 tahun lalu oleh cpad0112 21k

0

Memasuki mode edit

Halo hamzaallal07

Kami yakin bahwa postingan ini tidak sesuai dengan topik utama situs ini

Tolong lihat.

Untuk alasan ini kami telah menutup pertanyaan Anda. Hal ini memungkinkan kami untuk menjaga agar situs tetap fokus pada topik yang dapat dibantu oleh komunitas

Artikel ini menunjukkan python / panda yang setara dengan SQL join. Anda dapat menemukan cara membandingkan dua file CSV berdasarkan kolom dan menampilkan perbedaannya menggunakan python dan panda. Keunggulan panda adalah kecepatan, efisiensi, dan sebagian besar pekerjaan akan dilakukan untuk Anda oleh panda

  • membaca file CSV (atau lainnya)
  • mengurai informasi ke dalam bentuk tabel
  • membandingkan kolom
  • mengeluarkan hasil akhir

Artikel sebelumnya tentang panda. Panda cara menggabungkan kolom

Jadi mari kita skenario ini - seperti dua file CSV

column1
test
test1
test2
test3
test4
test6

dan

column1,column2,column3
test,person,file
test1,person1,file1
test2,person2,file2
test3,person3,file3
test4,person4,file4
test5,person5,file5
_

Tujuan kami adalah menemukan semua baris tanpa kecocokan dari file pertama di baris kedua berdasarkan kolom yang diberikan

import pandas as pd

f1 = pd.read_csv('C:\\user\\file1.csv)
f2 = pd.read_csv('C:\\user\\file2.csv')

print(f2[~f2.column1.isin(f1.column1)])

Hasil dari kode ini akan menjadi

  column1  column2 column3
5   test5  person5   file5
_

Jika Anda ingin membandingkan sebaliknya, Anda dapat menggunakan

print(f1[~f1.column1.isin(f2.column1)])

dan hasilnya akan

  column1
5   test6
_

Mari kita membuat beberapa catatan tentang kode tersebut

Bergantung pada file CSV Anda, Anda mungkin perlu mengubah baris ini. Info lebih lanjut tentang read_csv

f2 = pd.read_csv('C:\\user\\file2.csv', sep=';')
f2 = pd.read_csv('C:\\user\\file2.csv')
_

Secara default pemisah untuk metode read_csv harus ',' jadi jika Anda memiliki sesuatu yang berbeda seperti ';' . Jika tidak, kolom Anda akan salah dicocokkan

Bagaimana cara membandingkan data dalam dua file CSV?

Cara Membandingkan File CSV untuk Perbedaan .
Mari kita lihat data yang ingin kita bandingkan. .
Impor file ke kerangka data. .
Metode 1 – Lihat apakah kedua bingkai data sama. .
Metode 2 – Temukan dan cetak hanya nilai yang berbeda. .
Metode 3 – Tunjukkan perbedaan Anda dan nilai yang berbeda

Bagaimana cara membandingkan dua file CSV di PySpark?

Perbandingan File Menggunakan PySpark dan Pandas .
Periksa apakah skema kedua DataFrame identik. .
Kemudian kami menggunakan metode Kurangi Spark untuk mendapatkan baris yang berbeda di DataFrame. .
Jika ada catatan yang berbeda, ubah Spark DataFrames yang dikurangi menjadi Pandas (mungkin berguna untuk digunakan

Bagaimana cara membandingkan dua kolom data dengan Python?

Dengan menggunakan metode Where() di NumPy , kita diberi syarat untuk membandingkan kolom. Jika 'kolom1' lebih kecil dari 'kolom2' dan 'kolom1' lebih kecil dari 'kolom3', Kami mencetak nilai 'kolom1'. Jika kondisi gagal, kita beri nilai sebagai 'NaN'. Hasil ini disimpan di kolom baru di bingkai data.

Bagaimana cara membaca dua file CSV dengan Python?

# Baca file CSV dari Daftar df = pd. concat(peta(pd. .
# Impor pustaka impor glob impor panda sebagai pd # Dapatkan daftar file CSV dari folder path = '/apps/data_csv_files csv_files = glob. .
df = pd. .
# Dengan menggunakan fungsi def readcsv(args). kembali pd. .
# Menggunakan dask impor perpustakaan data