Kaedah Penapis Muka Berpeluk

Kaedah Penapis Muka Berpeluk



Muka Memeluk mempunyai beberapa model dan set data pemprosesan bahasa semula jadi (NLP). Set data yang besar ini mengandungi banyak maklumat yang membantu melatih model dengan tepat. Walau bagaimanapun, kadangkala kami tidak memerlukan keseluruhan set data kerana kami hanya memerlukan sebahagian kecil daripadanya untuk memenuhi keperluan semasa kami. Jika kita ingin menggunakan set data yang sama seperti biasa dengan semua maklumat, latihan model dan pengoptimuman mengambil banyak masa yang membuang masa.

Jadi, kami memerlukan beberapa jenis kaedah atau pakej yang boleh mengekstrak maklumat yang berkaitan daripada set data. Dalam bahasa mudah, kami boleh mengatakan bahawa kami memerlukan pilihan penapis tambahan untuk menapis set data mengikut keperluan kami.

Hugging Face menyediakan pilihan berbeza untuk menapis set data yang membantu pengguna membuat set data tersuai yang hanya mengandungi contoh atau maklumat yang memenuhi syarat tertentu.







Pilih() Kaedah

Kaedah ini berfungsi pada senarai indeks yang bermakna kita perlu menentukan senarai. Di dalam senarai itu, kami perlu menyebut semua nilai indeks baris yang ingin kami ekstrak. Tetapi kaedah ini hanya berfungsi untuk set data kecil dan bukan untuk set data besar, kerana kami tidak dapat melihat keseluruhan set data jika ia dalam GB (bait giga) atau TB (bait tera).



Contoh :

new_dataset = set data. pilih ( [ 0 , sebelas , dua puluh satu , Empat lima , lima puluh , 55 ] )

cetak ( sahaja ( new_dataset ) )

Dalam contoh ini, kami menggunakan kaedah 'pilih' untuk menapis maklumat yang diperlukan daripada set data.



Kaedah Penapis().

Kaedah penapis() mengatasi isu proses pilih() kerana tiada syarat khusus. Kaedah penapis() mengembalikan semua baris yang sepadan dengan situasi atau keadaan tertentu.





Contoh: Kami menyimpan program Python ini dengan nama 'test.py'.

daripada set data import set_data_muat

# Langkah 1: Muatkan set data
set data = set_data_muat ( 'imdb' )

# Langkah 2: Tentukan fungsi penapisan
def penapis_suai ( contoh ) :
'''
Fungsi penapisan tersuai untuk mengekalkan contoh dengan positif
sentimen (label == 1).
'''

kembali contoh [ 'label' ] == 1

# Langkah 3: Gunakan penapis untuk membuat set data ditapis baharu
set data_filter = set data. penapis ( penapis_suai )

# Langkah 4: Semak nama lajur yang tersedia dalam set data yang ditapis
cetak ( 'Lajur yang tersedia dalam set data yang ditapis:' ,
set data_filter. nama_lajur )

# Langkah 5: Akses maklumat daripada set data yang ditapis
contoh_penapis = set data_filter [ 'kereta api' ]
num_filtered_examples = sahaja ( contoh_penapis )

# Langkah 6: Cetak jumlah bilangan contoh yang ditapis
cetak ( 'Jumlah contoh yang ditapis:' , num_filtered_examples )

Pengeluaran:



Penjelasan:

Baris 1: Kami mengimport pakej load_dataset yang diperlukan daripada set data.

Baris 4: Kami memuatkan set data 'imdb' menggunakan load_dataset.

Baris 7 hingga 12: Kami mentakrifkan fungsi penapisan tersuai penapis_suai untuk mengekalkan contoh dengan sentimen positif (label == 1). Fungsi ini hanya mengembalikan baris yang nilai labelnya ialah 1.

Baris 15: Baris ini menunjukkan bahawa set data mempunyai data semakan filem 'imdb'. Kami kini menggunakan fungsi penapis pada pangkalan data ini untuk memisahkan ulasan positif daripada pangkalan data yang selanjutnya disimpan dalam 'set_data ditapis.'

Baris 18 dan 19: Sekarang, kami menyemak nama lajur yang tersedia dalam set data_filter. Jadi, kod 'filtered_dataset.column_names' memberikan butiran keperluan kami.

Baris 22 dan 23: Dalam baris ini, kami menapis lajur 'kereta api' set data_filter dan mencetak jumlah bilangan (panjang) lajur kereta api.

Baris 26: Dalam baris terakhir ini, kami mencetak hasil daripada baris nombor 23.

Tapis() dengan Indeks

Kaedah penapis() juga boleh digunakan dengan indeks seperti yang dilihat dalam mod pilih(). Tetapi untuk itu, kita perlu menyebut bahawa kata kunci 'with_indices=true' perlu ditentukan di luar kaedah penapis() seperti yang ditunjukkan dalam contoh berikut:

set data ganjil = set data. penapis ( lambda contoh , idx: idx % 2 != 0 , dengan_indeks = betul )

cetak ( sahaja ( set data ganjil ) )

Dalam contoh ini, kami menggunakan kaedah penapis() untuk menapis maklumat yang diperlukan daripada set data, termasuk hanya baris yang ganjil.

Butiran lengkap setiap parameter kaedah penapis() boleh didapati di sini pautan .

Kesimpulan

Pustaka set data Hugging Face menyediakan set alat yang berkuasa dan mesra pengguna untuk berfungsi dengan cekap dengan pelbagai set data, terutamanya dalam konteks Pemprosesan Bahasa Semulajadi (NLP) dan tugasan pembelajaran mesin. Fungsi penapis() yang dibentangkan dalam program membolehkan penyelidik dan pengamal mengekstrak subset data yang berkaitan dengan mentakrifkan kriteria penapisan yang ditentukan pengguna. Menggunakan fungsi ini, pengguna boleh dengan mudah membuat set data baharu yang memenuhi syarat tertentu seperti mengekalkan sentimen positif dalam ulasan filem atau mengekstrak data teks tertentu.

Demonstrasi langkah demi langkah ini menggambarkan betapa mudahnya untuk memuatkan set data, menggunakan fungsi penapis tersuai dan mengakses data yang ditapis. Selain itu, fleksibiliti parameter fungsi membolehkan operasi penapisan tersuai, termasuk sokongan untuk pemprosesan berbilang untuk set data yang besar. Dengan perpustakaan set data Hugging Face, pengguna boleh menyelaraskan data mereka.