Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?

Bagaimana Menggunakan Tokenizer Dalam Memeluk Transformers Wajah



Pemprosesan Bahasa Asli (NLP) beroperasi pada bentuk mentah data. Model pembelajaran mesin dilatih mengenai data yang kompleks, tetapi mereka tidak dapat memahami data mentah. Bentuk data mentah ini mesti mempunyai beberapa nilai berangka yang dikaitkan dengannya. Nilai ini menentukan nilai dan kepentingan perkataan dalam data dan atas dasar ini, pengiraan dilakukan.

Artikel ini menyediakan panduan langkah demi langkah tentang menggunakan Tokenizer dalam Memeluk Transformers Wajah.

Apa itu Tokenizer?

Tokenizer ialah konsep penting NLP, dan objektif utamanya adalah untuk menterjemah teks mentah kepada nombor. Terdapat pelbagai teknik dan metodologi yang ada untuk tujuan ini. Walau bagaimanapun, perlu diperhatikan bahawa setiap teknik mempunyai tujuan tertentu.
Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?







Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?

Pustaka tokenizer mesti dipasang dahulu sebelum menggunakannya dan mengimport fungsi daripadanya. Selepas itu, latih model menggunakan AutoTokenizer, dan kemudian berikan input untuk melakukan tokenisasi.



Muka Pelukan memperkenalkan tiga kategori utama Tokenisasi yang diberikan di bawah:



  • Tokenizer berasaskan perkataan
  • Tokenizer berasaskan watak
  • Tokenizer berasaskan subkata

Berikut ialah panduan langkah demi langkah untuk menggunakan Tokenizers dalam Transformers:





Langkah 1: Pasang Transformers
Untuk memasang transformer, gunakan arahan pip dalam arahan berikut:

! pip pasang transformer



Langkah 2: Import Kelas
Dari transformer, import saluran paip , dan AutoModelForSequenceClassification perpustakaan untuk melaksanakan klasifikasi:

daripada saluran paip import transformer, AutoModelForSequenceClassification

Langkah 3: Import Model
' AutoModelForSequenceClassification ” ialah kaedah yang dimiliki oleh Auto-Class untuk tokenisasi. The from_pretrained() kaedah digunakan untuk mengembalikan kelas model yang betul berdasarkan jenis model.

Di sini kami telah memberikan nama model dalam ' nama model ” pembolehubah:

nama model = 'distilbert-base-uncased-finetuned-sst-2-english'
model pra_latihan =AutoModelForSequenceClassification.from_pretrained ( nama model )

Langkah 4: Import AutoTokenizer
Sediakan arahan berikut untuk menjana token dengan menghantar “ nama model ” sebagai hujah:

daripada transformer import AutoTokenizer

token yang dihasilkan =AutoTokenizer.from_pretrained ( nama model )

Langkah 5: Jana Token
Sekarang, kita akan menjana token pada ayat “Saya suka makanan yang sedap” dengan menggunakan “ token yang dihasilkan ” pembolehubah:

perkataan =generatetoken ( 'Saya suka makanan yang sedap' )
cetak ( perkataan )

Output diberikan seperti berikut:

Kod ke atas Google Co diberikan di sini.

Kesimpulan

Untuk menggunakan Tokenizers dalam Memeluk Wajah, pasang pustaka menggunakan arahan pip, latih model menggunakan AutoTokenizer, dan kemudian berikan input untuk melaksanakan tokenisasi. Dengan menggunakan tokenisasi, berikan pemberat pada perkataan berdasarkan urutannya untuk mengekalkan makna ayat. Skor ini juga menentukan nilai mereka untuk dianalisis. Artikel ini ialah panduan terperinci tentang cara menggunakan Tokenizer dalam Memeluk Transformers Wajah.