Bagaimana untuk Memohon Talian Paip pada Set Data dalam Transformers?

Bagaimana Untuk Memohon Talian Paip Pada Set Data Dalam Transformers



Fungsi saluran paip() adalah bahagian penting pustaka Transformer. Ia memerlukan beberapa input di mana kita boleh mentakrifkan tugas inferens, model, mekanisme tokenisasi, dll. Fungsi saluran paip() digunakan terutamanya untuk melaksanakan tugas NLP pada satu atau beberapa teks. Ia melakukan pra-pemprosesan pada input dan pasca pemprosesan berdasarkan model untuk menjana output yang boleh dibaca manusia dan ramalan yang tepat dengan ketepatan maksimum.

Artikel ini merangkumi aspek berikut:







Apakah Perpustakaan Set Data Wajah Memeluk?

Pustaka set data Memeluk Wajah ialah API yang mengandungi beberapa set data awam dan menyediakan cara mudah untuk memuat turunnya. Pustaka ini boleh diimport dan dipasang ke dalam aplikasi dengan menggunakan “ pip ” perintah. Untuk demonstrasi praktikal untuk memuat turun dan memasang set data perpustakaan Hugging Face, lawati ini Pautan Google Colab. Anda boleh memuat turun beberapa set data daripada Memeluk Hab Set Data Wajah.



Ketahui lebih lanjut tentang fungsi saluran paip() dengan merujuk kepada artikel ini “ Bagaimana untuk Menggunakan Fungsi Pipeline() dalam Transformer? ”.



Bagaimana untuk Memohon Talian Paip pada Set Data dalam Memeluk Wajah?

Hugging Face menyediakan beberapa set data awam berbeza yang boleh dipasang dengan mudah menggunakan kod satu baris. Dalam artikel ini, kita akan melihat demonstrasi praktikal menggunakan saluran paip pada set data ini. Terdapat dua cara saluran paip boleh dilaksanakan pada set data.





Kaedah 1: Menggunakan Kaedah Lelaran

Fungsi pipeline() boleh diulang melalui set data dan model juga. Untuk tujuan ini, ikuti langkah-langkah yang dinyatakan di bawah:

Langkah 1: Pasang Perpustakaan Transformer

Untuk memasang pustaka Transformer, berikan arahan berikut:



!pip pasang transformer

Langkah 2: Import Talian Paip

Kita boleh mengimport saluran paip dari perpustakaan Transformer. Untuk tujuan ini, berikan arahan berikut:

daripada saluran paip import transformer

Langkah 3: Laksanakan Saluran Paip

Di sini, fungsi pipeline() dilaksanakan pada model “ gpt2 ”. Anda boleh memuat turun model dari Hab Model Wajah Memeluk:

def imp_pipeline():
untuk x dalam julat(1000):
hasil f'Set Data Pelaksanaan{x}'


generate_pipeline= talian paip(model='gpt2', peranti=0)
gen_char= 0
untuk output dalam generate_pipeline(imp_pipeline()):
gen_char += len(output[0]['generated_text'])

Dalam kod ini, ' generate_pipeline ' ialah pembolehubah yang mengandungi fungsi pipeline() dengan model ' gpt2 ”. Apabila ia dipanggil dengan ' imp_pipeline() ”, ia secara automatik mengiktiraf data yang meningkat dengan julat yang ditentukan kepada 1000:

Ini akan mengambil sedikit masa untuk berlatih. Pautan ke Google Co juga diberikan.

Kaedah 2: Menggunakan Pustaka Set Data

Dalam kaedah ini, kami akan menunjukkan pelaksanaan saluran paip menggunakan perpustakaan 'set data':

Langkah 1: Pasang Transformer

Untuk memasang pustaka Transformer, berikan arahan berikut:

!pip pasang transformer

Langkah 2: Pasang Pustaka Set Data

sebagai ' set data ” perpustakaan mengandungi semua set data awam, kami boleh memasangnya dengan menggunakan arahan berikut. Dengan memasang ' set data ”, kami boleh mengimport terus mana-mana set data dengan memberikan namanya:

!pip pasang set data

Langkah 3: Talian Paip Set Data

Untuk membina saluran paip pada set data, gunakan kod berikut. KeyDataset ialah ciri yang hanya mengeluarkan nilai yang menarik minat pengguna:

daripada transformers.pipelines.pt_utils import KeyDataset
daripada saluran paip import transformer
daripada set data import load_dataset
gen_pipeline = saluran paip(model='hf-internal-testing/tiny-random-wav2vec2', peranti=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]')untuk output dalam gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Mencetak output sekarang')
cetak ('----------------')
cetak(output)

Output kod di atas diberikan di bawah:

Itu sahaja daripada panduan ini. Pautan ke Google Co juga disebut dalam artikel ini

Kesimpulan

Untuk menggunakan saluran paip pada set data, kita boleh sama ada mengulangi set data dengan menggunakan fungsi pipeline() atau menggunakan ' set data ” perpustakaan. Hugging Face menyediakan pautan repositori GitHub kepada penggunanya untuk kedua-dua set data dan model yang boleh digunakan berdasarkan keperluan. Artikel ini telah menyediakan panduan komprehensif untuk menggunakan saluran paip pada set data dalam Transformers.