Cara Menggunakan Set Data Wajah Memeluk

Cara Menggunakan Set Data Wajah Memeluk



Kebolehgunaan dan kebolehgunaan model Pembelajaran Mesin diuji pada data. Kebolehpercayaan ujian sangat bergantung pada kuantiti dan kualiti data yang digunakan untuk model ini. Ia adalah tugas yang lengkap dengan sendirinya untuk mencipta, mendapatkan dan membersihkan set data besar yang sesuai untuk menguji ' Pemprosesan Bahasa Semulajadi (NLP) ” Model Pembelajaran Mesin.

Hugging Face menawarkan penyelesaian yang kemas untuk ini dengan pustaka set data yang sangat besar untuk dipilih dan mencari yang paling sesuai dengan keperluan anda. Di sini, kami akan menunjukkan kepada anda cara mencari set data yang ideal dan menyediakannya untuk menguji model anda dengan secukupnya.







Bagaimana Menggunakan Set Data Memeluk Wajah?

Kami akan menunjukkan kepada anda cara menggunakan Set Data Memeluk Wajah menggunakan contoh ' TinyStories ” Set Data daripada Memeluk Muka.



Contoh

Set Data TinyStories mempunyai lebih daripada 2 juta baris data dalam pemisahan kereta api dan ia mempunyai lebih daripada 2 ribu muat turun pada platform Hugging Face. Kami akan menggunakannya dalam kod dalam Google Colab yang diberikan di bawah:



! pip pasang transformer
! pip pasang set data

daripada set data import load_dataset

set data = load_dataset ( 'roneneldan/TinyStories' )

Kisah_Kecil = 3
contoh_rentetan = set data [ 'kereta api' ] [ TinyStories_Story ] [ 'teks' ]

cetak ( contoh_rentetan )


Dalam kod ini, pertimbangkan langkah-langkah yang dinyatakan di bawah:





Langkah 01 : Langkah pertama ialah “ pemasangan ” daripada set data transformer.

Langkah 02 : Seterusnya, import set data yang diperlukan, “ TinyStories ” ke dalam projek anda.



Langkah 03 : Seterusnya, muatkan set data yang dipilih menggunakan “ load_dataset() ” fungsi.

Langkah 04 : Sekarang, kami menentukan nombor Cerita yang kami inginkan daripada Set Data TinyStories. Kami telah menentukan nombor 03 dalam contoh kod kami.

Langkah 05 : Akhir sekali, kami akan menggunakan kaedah 'cetak ()' untuk menunjukkan output.

Pengeluaran



Catatan: Kod dan output juga boleh dilihat terus dalam Google Colab kami .

Kesimpulan

Set data Memeluk Wajah ” menjadikannya sangat cekap bagi pengguna untuk menguji model Pembelajaran Mesin mereka sambil mengimport terus set data yang besar daripada pustaka dalam talian mereka. Akibatnya, aplikasi algoritma NLP menjadi lebih mudah dan pantas kerana pengaturcara dapat menguji projek mereka terhadap set data yang mempunyai kualiti dan kuantiti.