Kumpulan Panda mengikut Purata

Kumpulan Panda Mengikut Purata



Apabila kita menambah dua atau lebih nilai bersama-sama dan jumlahnya dibahagikan dengan jumlah bilangan nilai yang ditambah bersama, hasilnya ialah purata. Pandas Mean mengembalikan purata data atau nilai di sepanjang paksi tertentu. Satu siri dengan purata merentas paksi akan dikembalikan oleh panda jika kaedah min() digunakan pada bingkai data. Panda mengembalikan nilai berangka (nombor tunggal) jika 'min()' digunakan pada siri. Fungsi boleh digunakan pada kategori selepas mencipta kumpulan kategori. Ia adalah idea yang mudah tetapi teknik yang sangat berkesan yang sering digunakan dalam sains data. Ia membolehkan kami membuat ringkasan data untuk setiap kumpulan, menggunakan pengubahsuaian khusus kumpulan dan melakukan penapisan data. Dengan fungsi groupby(), objek boleh dibahagikan, fungsi boleh digunakan, dan produk kemudiannya boleh digabungkan. Set data yang besar boleh dikumpulkan dengan ini dan operasi boleh dilakukan pada kumpulan.

Bagaimana untuk Menggunakan Kaedah groupby.mean() dalam Pandas?

Untuk mengira purata bingkai data atau purata lajur khusus bingkai data, kita boleh menggunakan fungsi groupby.mean(). Kami akan menunjukkan cara menggunakannya dalam contoh berikut.







Contoh # 01: Tentukan Purata Lajur Integer Tunggal dengan Menghimpunkan Data Lajur Tunggal

Menggunakan fungsi pd.DataFrame(), kita akan mula-mula mencipta kerangka data supaya kita boleh membahagikan data lajur atau lajur kerangka data kepada kumpulan dan kemudian mencari nilai minnya. Sebelum mencipta bingkai data, kita mesti mengimport modul panda bersama-sama dengan perpustakaan numpy.





Seperti yang dapat dilihat, kami telah mencipta kerangka data kami dengan menggunakan kamus panda. Kami mempunyai 3 lajur dalam rangka data df kami, iaitu, 'item', 'pengilang' dan 'kuantiti'. Dalam lajur 'item', kami telah menyimpan nilai ('baju', 'tali leher', 'seluar', 'baju', 'tali leher', 'seluar', 'baju', 'seluar', 'seluar', ' tie'), manakala  lajur 'pengilang' dan  'kuantiti' mengandungi nilai ('italy', 'france', 'china', 'france',  'china', 'italy', 'china', 'italy', 'perancis', 'china') dan (13, 16, 21, 32, 26, 41, 24, 42, 12, 15) masing-masing. Mari kumpulkan nilai dalam lajur pengilang dan tentukan nilai kuantiti min bagi setiap pengeluar yang berbeza.





Nilai pengilang 'china' mempunyai nilai kuantiti min 21.5, nilai kuantiti min untuk 'France' ialah 20.0, dan nilai kuantiti min untuk 'Itali' ialah 32.0. Kita juga boleh menentukan indeks kepada output dengan menggunakan fungsi reset_index dengan fungsi groupby.mean().



Contoh # 02: Cari Purata Lajur Terapung Tunggal dengan Menghimpunkan Data Lajur Tunggal

Kami telah melihat bagaimana kami boleh mencari min lajur integer selepas mengumpulkan data. Sekarang mari cuba lajur jenis data lain seperti apungan. Bingkai data dengan sekurang-kurangnya satu lajur dengan nilai apungan akan dibuat menggunakan fungsi pd.DataFrame().

Dengan meletakkan kamus di dalam pd.DataFrame(), kami telah mencipta bingkai data dengan tiga lajur. Lajur 'nama' menyimpan nama beberapa pemain rawak ('Sam', 'Jay', 'Leo', 'Mike', 'Will', 'Billy', 'Jhonny', 'Lara', 'Hanna', 'Tony'), lajur 'pasukan' yang mewakili pasukan yang menjadi milik setiap pemain ('A', 'A', 'B',  'A', 'B', 'A', 'C', 'B ', 'C', 'C'), dan lajur 'ketinggian' menyimpan ketinggian setiap pemain sebagai nilai apungan (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Mari kumpulkan data dalam lajur 'pasukan' dan tentukan nilai ketinggian min untuk setiap nilai 'pasukan' yang berbeza.

Anda boleh melihat bahawa nilai ketinggian purata pemain pasukan A ialah 5.65, manakala purata ketinggian pemain dalam pasukan B dan C ialah 5.866 dan 5.6, masing-masing.

Contoh # 03: Tentukan Min Berbilang Lajur Menggunakan Fungsi groupby.mean()

Dalam contoh terdahulu, kami menentukan purata satu lajur. Walau bagaimanapun, min banyak lajur untuk setiap kumpulan juga boleh ditentukan. Mari buat bingkai data yang mempunyai lebih daripada satu lajur angka, selepas mengimport panda dan modul numpy.

Dalam bingkai data yang baru dibuat, terdapat tiga lajur dengan label 'nama', 'skor' dan 'padanan'. Nama lajur yang mempunyai nilai data sebagai rentetan  ('Ron', 'Jim', 'Dany', 'Jim', 'Jim', 'Dany', 'Ron', 'Ron', 'Dany', 'Jim' ), manakala 'skor' dan 'perlawanan' terdiri daripada data berangka sebagai (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) dan (2, 3, 1, 2, 1, 3 , 4, 1, 2, 1). Sekarang mari kita cari min 'skor' lajur dan 'padanan' selepas mengumpulkan data 'nama' lajur. Fungsi groupby.mean() akan digunakan untuk ini.

Dapat diperhatikan bahawa kumpulan 'Dany' mempunyai skor purata 2.66 dalam 2.00 perlawanan. Kumpulan Jim mempunyai purata markah 2.75 dan nilai purata perlawanan yang dimainkan ialah 1.75. Manakala kumpulan ‘Ron’ mempunyai nilai skor min 2.66 dan nilai min perlawanan yang dimainkan ialah 2.33.

Purata kumpulan kategori oleh objek juga boleh dikira menggunakan kaedah agg(). Kami akan membekalkan min sebagai hujah kepada fungsi agg(). Untuk mengagregat menggunakan operasi tunggal atau berbilang merentas paksi yang diberikan, kita boleh menggunakan fungsi agg().

Outputnya sama seperti sebelumnya.

Contoh # 04: Tentukan Min Lajur Tertentu dengan Menghimpunkan Berbilang Lajur

Dalam contoh 1, 2, dan 3, kami telah mengumpulkan nilai atau data satu lajur. Sekarang kita akan mengumpulkan berbilang lajur dengan menggunakan senarai label lajur di dalam fungsi groupby(), dan kemudian kita akan mencari nilai purata untuk setiap kumpulan. Kamus 'd' akan dihantar ke dalam fungsi pd.Dataframe() sebagai input untuk mencipta bingkai data.

Kami telah mencipta kerangka data yang diperlukan. Lajur 'sukan' sedang menyimpan nama beberapa sukan ('Badminton', 'bola sepak', 'tenis', 'bola keranjang', 'bola sepak', 'tenis', 'bola keranjang', 'bola sepak', 'Badminton', ' bola keranjang', 'bola keranjang', 'tenis'), nama negara ('China', 'Rusia', 'Itali', 'Sepanyol', 'Russia', 'Itali', 'China', 'Itali', ' Sepanyol', 'China', 'Rusia', 'Itali') disimpan dalam lajur 'negara'. Manakala dalam ruangan ‘menang’ kita telah menyimpan jumlah perlawanan yang dimenangi oleh setiap negara dalam setiap sukan (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). Mari gunakan fungsi groupby.mean() untuk mencari min nilai lajur 'menang' dengan mengumpulkan lajur 'sukan' dan 'negara'.

Fungsi tersebut telah berjaya menentukan purata nilai lajur ‘menang’ bagi setiap sukan di negara ini. Bingkai data yang dihimpunkan boleh ditetapkan semula menggunakan fungsi reset_index(), yang turut menjana indeks baharu, memberikannya struktur kerangka data yang sesuai.

Indeks ditambahkan untuk setiap baris bingkai data. Untuk menyusun keputusan dalam jadual yang menarik, kita juga boleh menggunakan fungsi pivot().

Kesimpulan

Dalam tutorial ini, kami telah membincangkan maksud atau purata nombor dan cara mencari min bagi lajur tertentu (satu atau lebih) selepas mengumpulkan lajur atau lajur kerangka data. Kami melaksanakan beberapa contoh dalam artikel ini untuk mengajar anda cara menentukan purata integer tunggal atau lajur apungan dengan mengumpulkan data satu lajur; bagaimana untuk menentukan min berbilang lajur menggunakan fungsi groupby.mean(); dan juga cara menentukan min lajur tertentu dengan mengumpulkan berbilang lajur.