Pandas Qcut

Pandas Qcut



'Python' mengandungi banyak perpustakaan, dan apabila kami ingin menganalisis atau memanipulasi data, kami menggunakan perpustakaan 'Python' ini dan 'pandas' juga merupakan perpustakaannya. Pustaka 'pandas' digunakan dalam bidang sains data, dan juga digunakan dalam aktiviti pembelajaran mesin. DataFrame 'pandas' membantu kami dalam menyimpan data. Dalam 'pandas,' apabila kami mahukan data binning, maka kami menggunakan kaedah 'qcut()'. Kaedah 'qcut()' digunakan untuk menukar ciri berterusan kepada ciri kategori. Kita boleh menambah pelbagai jenis parameter dalam kaedah 'qcut()' ini untuk mendapatkan jenis hasil yang berbeza. Tutorial ini adalah mengenai kaedah 'qcut()', dan kami akan menerangkan dengan terperinci kaedah 'qcut()' di sini. Kami akan menerangkan kepada anda cara kami melakukan binning data dengan bantuan fungsi 'qcut()' dalam 'pandas' dalam tutorial ini.'

Contoh # 01

Kami akan menggunakan kaedah 'qcut()' dalam kod ini dan kami akan melakukan kod ini dalam apl 'Spyder'. Apabila kita perlu bekerja dengan 'pandas', kita hanya boleh mengakses fungsinya apabila kita mengimport perpustakaan 'pandas' ke dalam kod kita. Pertama, kami meletakkan 'import,' dan kemudian kami menulis 'pandas sebagai pd'. Sekarang, kita perlu menggunakan kaedah 'qcut()', jadi untuk ini, kita mencipta DataFrame di sini. Kami membina 'Random_df' yang mengandungi 'R_ID, R_name, dan R_age' sebagai lajurnya, dan juga dalam 'R_ID', kami meletakkan 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 dan R_81”. Kemudian kami menambah 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob dan Harper' dalam lajur 'R_name'. Selepas ini, kami memasukkan '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37, dan 40' dalam lajur 'R_age'. Sekarang, kami menggunakan 'print(),' yang mengandungi 'Random_df,' dan ia akan membantu dalam menghasilkan DataFrame 'Random_df'. Kami baru sahaja mencipta DataFrame dan tidak menggunakan kaedah 'qcut()' lagi.








Ikon 'Run' membantu kami dalam melaksanakan kod. Apabila kami menekan ikon 'run' ini, maka hasil kod ini dipaparkan pada terminal aplikasi 'Spyder'. DataFarme 'Random_df' ditunjukkan sebagai hasil kod yang telah kami tulis dalam contoh ini. Sekarang, kami akan menggunakan kaedah 'qcut()' dan juga akan menunjukkan hasilnya.




Kami sedang mengosongkan data di sini. Kami sedang binning lajur 'R_age' dan meletakkan kaedah 'pd.qcut()', iaitu kaedah 'pandas' yang membantu dalam binning data. Dalam kaedah ini, kami memasukkan nama DataFrame dan juga nama lajur yang kami mahu gunakan kaedah 'qcut()' ini. Kami juga menetapkan nilai 'q' kepada '5,' dan ia digunakan untuk memotong data lajur 'R_age' kepada lima kuantiti yang sama. Kami menambah kaedah 'qcut()' dalam 'print()', jadi ia juga akan memaparkan data binning pada terminal.




Di sini, data selepas binning dipaparkan, dan ia memotong 'R_age' kepada lima kuantiti. Ia juga memaparkan kategori di mana data lajur 'R_age' dibind. Siri kategori mewakili tong 'R_age'.






Kami juga boleh melaraskan label untuk tong sampah ini. Kami menambah label tong ini untuk memudahkannya ditafsirkan. Kami menambah lajur 'R_age_qcut' pada 'Random_df' di mana kami menambah label tong ini. Kami sekali lagi menggunakan kaedah 'pd.qcut()' untuk melabelkannya. Kami menambah label yang 'sedikit, bukan sedikit, sederhana, tinggi dan tertinggi' ke dalamnya. Kemudian kami sekali lagi meletakkan 'Random_df' dalam 'print()'.


Semua tong sampah dilabel dan dibentangkan dalam hasil ini. Lajur 'R_age_qcut' dipaparkan dalam DataFrame ini di mana tong berlabel ditunjukkan.



Contoh # 02

Untuk mencipta DataFrame, kami mula-mula menambah 'gred', iaitu '3, 6, 8, 7, 2, 5, 1, 9, 4, 7, dan 8'. Kemudian, kami menambah nama pelajar dalam 'pelajar', iaitu 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard dan Alexander'. Kemudian kami menjana 'Grades_df' di mana kami telah menambah kaedah 'pd.DataFrame()', dan dalam kaedah ini, kami meletakkan 'Std_name,' yang akan muncul sebagai nama lajur dan memberikan nilai 'pelajar' kepada ini. Kemudian kami menetapkan 'Gred_Pelajar' sebagai nama lajur DataFrame dan juga menetapkan 'gred' di sini, yang telah kami buat di atas. Selepas ini, kami mempunyai 'print()' di mana kami menambah 'Grades_df' untuk mencetak.


DataFrame yang mengandungi dua lajur dipaparkan dalam hasil kod ini. Sekarang, kami akan menggunakan kaedah 'qcut()' pada lajur 'Students_grades' untuk binning data nilai lajur ini.


Kami menambah lajur baharu 'gred' di sini yang mana kami telah menggunakan 'pd.qcut()' pada lajur 'Students_grades', dan juga, kami telah menggunakan '4' untuk nilai 'q', jadi ia akan memotong data kepada empat kuantiti yang sama. Selepas ini, kami menentukan kuantiti ini di sini dengan meletakkan nilai dalam 'q', iaitu '0, .4, .8, dan 1'. Kemudian, kami juga memaparkan ini. Kini, kami melabelkan data terbin ini dan label yang kami tambahkan di sini ialah 'D, C, A dan B' dan juga disimpan dalam lajur 'gred'.


Di sini, data selepas binning dipaparkan di sini dalam lajur 'gred', dan ia memotong data lajur 'Gred_Pelajar' kepada empat kuantiti yang sama.


DataFrame yang kami dapat selepas menggunakan kaedah 'qcut()' dan menentukan kuantiti dipaparkan dalam hasil ini.


Kini, selepas menambah label pada tong sampah ini juga dipaparkan dalam hasil ini dalam lajur 'gred', dan anda boleh melihat bahawa ia memberikan label mengikut nilai tong.

Contoh # 03

Kami juga boleh menggunakan kaedah 'qcut()' pada data fail CSV. Untuk ini, kami mula-mula membaca data fail CSV dengan bantuan kaedah 'read_csv()'. Kami sedang membaca data fail 'office2.csv', dan kemudian data fail ini diletakkan dalam 'Office_df'. Kaedah ini akan menukar data fail 'office2' ke dalam DataFrame dan menyimpannya dalam 'Office_df'. Kemudian, kami juga menunjukkan data ini dengan meletakkan 'Office_df' dalam 'print()'. Selepas ini, kami menambah lajur baharu yang dipanggil 'Unit_qcut,' yang mana kami menggunakan fungsi 'pd.qcut()' pada lajur 'Unit'.

Selain itu, kami menetapkan nilai pembolehubah 'q' kepada '5', yang akan membahagikan data kepada lima kuantiti yang sama. Data, selepas dipotong kepada 5 kuantiti yang sama, disimpan dalam lajur 'Unit_qcut', dan lajur ini juga ditambahkan pada 'Office_df', dan 'Office_df' yang diberikan di sini sekali lagi menggunakan 'print()'. Kami kini melabelkan data binned ini, menambah label dalam kaedah 'qcut()', iaitu  'Unit 1, Unit 2, Unit 3, Unit 4 dan Unit 5' dan menyimpannya dalam lajur 'Label' juga . Kami juga memberikan DataFrame ini di mana lajur 'Label' ditambahkan.


Data yang kami dapat selepas membaca fail 'office2.csv' dipaparkan di sini dalam bentuk DataFrame. Kemudian lajur 'Unit_qcut' ditambah, di mana nilai binned lajur 'Unit' dipaparkan. Selepas ini, lajur 'Label' juga ditambahkan, yang memberikan label kepada nilai bind ini. Ini semua dilakukan dengan menggunakan kaedah 'qcut()' dalam 'pandas'.

Kesimpulan

Kami telah menerangkan kaedah 'qcut()' secara terperinci dalam tutorial ini yang membantu dalam binning data dalam 'pandas'. Kami telah membincangkan bahawa data dibinkan mengikut nilai kuantil 'q' yang telah kami tambahkan dalam kaedah 'qcut()', dan juga kami telah melaraskan label kepada data binned ini. Kami telah meneroka kaedah 'qcut()' dan telah menggunakan kaedah ini pada lajur DataFrame, dan juga kami telah menggunakan kaedah 'qcut()' ini pada data fail CSV selepas membaca fail CSV. Kami telah membentangkan hasil semua kod dalam tutorial ini untuk menerangkan dengan jelas dan menunjukkan hasil kaedah 'qcut()'.