Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?

Pemprosesan Bahasa Asli (NLP) beroperasi pada bentuk mentah data. Model pembelajaran mesin dilatih mengenai data yang kompleks, tetapi mereka tidak dapat memahami data mentah. Bentuk data mentah ini mesti mempunyai beberapa nilai berangka yang dikaitkan dengannya. Nilai ini menentukan nilai dan kepentingan perkataan dalam data dan atas dasar ini, pengiraan dilakukan.

Artikel ini menyediakan panduan langkah demi langkah tentang menggunakan Tokenizer dalam Memeluk Transformers Wajah.

Apa itu Tokenizer?

Tokenizer ialah konsep penting NLP, dan objektif utamanya adalah untuk menterjemah teks mentah kepada nombor. Terdapat pelbagai teknik dan metodologi yang ada untuk tujuan ini. Walau bagaimanapun, perlu diperhatikan bahawa setiap teknik mempunyai tujuan tertentu.
Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?

Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?

Pustaka tokenizer mesti dipasang dahulu sebelum menggunakannya dan mengimport fungsi daripadanya. Selepas itu, latih model menggunakan AutoTokenizer, dan kemudian berikan input untuk melakukan tokenisasi.

Muka Pelukan memperkenalkan tiga kategori utama Tokenisasi yang diberikan di bawah:

Tokenizer berasaskan perkataan
Tokenizer berasaskan watak
Tokenizer berasaskan subkata

Berikut ialah panduan langkah demi langkah untuk menggunakan Tokenizers dalam Transformers:

Langkah 1: Pasang Transformers
Untuk memasang transformer, gunakan arahan pip dalam arahan berikut:

! pip pasang transformer

Langkah 2: Import Kelas
Dari transformer, import saluran paip , dan AutoModelForSequenceClassification perpustakaan untuk melaksanakan klasifikasi:

daripada saluran paip import transformer, AutoModelForSequenceClassification

Langkah 3: Import Model
' AutoModelForSequenceClassification ” ialah kaedah yang dimiliki oleh Auto-Class untuk tokenisasi. The from_pretrained() kaedah digunakan untuk mengembalikan kelas model yang betul berdasarkan jenis model.

Di sini kami telah memberikan nama model dalam ' nama model ” pembolehubah:

nama model = 'distilbert-base-uncased-finetuned-sst-2-english'
model pra_latihan =AutoModelForSequenceClassification.from_pretrained ( nama model )

Langkah 4: Import AutoTokenizer
Sediakan arahan berikut untuk menjana token dengan menghantar “ nama model ” sebagai hujah:

daripada transformer import AutoTokenizer

token yang dihasilkan =AutoTokenizer.from_pretrained ( nama model )

Langkah 5: Jana Token
Sekarang, kita akan menjana token pada ayat “Saya suka makanan yang sedap” dengan menggunakan “ token yang dihasilkan ” pembolehubah:

perkataan =generatetoken ( 'Saya suka makanan yang sedap' )
cetak ( perkataan )

Output diberikan seperti berikut:

Kod ke atas Google Co diberikan di sini.

Kesimpulan

Untuk menggunakan Tokenizers dalam Memeluk Wajah, pasang pustaka menggunakan arahan pip, latih model menggunakan AutoTokenizer, dan kemudian berikan input untuk melaksanakan tokenisasi. Dengan menggunakan tokenisasi, berikan pemberat pada perkataan berdasarkan urutannya untuk mengekalkan makna ayat. Skor ini juga menentukan nilai mereka untuk dianalisis. Artikel ini ialah panduan terperinci tentang cara menggunakan Tokenizer dalam Memeluk Transformers Wajah.

Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?

Apa itu Tokenizer?

Bagaimana Menggunakan Tokenizer dalam Memeluk Transformers Wajah?

Kesimpulan

Kategori

Jawatan Popular

15 Petua untuk Meningkatkan Hayat Bateri Komputer Riba

Cara Menggunakan Harta navigator.onLine dalam JavaScript

Cara Peralihan Ciri 'paparan' + 'kelegapan' CSS

Apakah Jenis Data Amazon Redshift?

Cara Menggunakan Fungsi stripos() dalam PHP

Cara Memasang Jenkins pada Ubuntu 24.04

Ralat 'Tidak Boleh Buka Fail Iostream' dalam C++

Cara Menggunakan Git dalam PowerShell

Bagaimana untuk Menukar, atau Tetapkan Semula PIN Anda dalam Windows 11?

Cara Memasang PyTorch dengan Sokongan Pecutan GPU/CUDA NVIDIA pada Debian 12

Apakah yang dilakukan oleh mod Discord

Bab 2: Algebra Boolean dan Komponen Komputer Berkaitannya

Cara Memahami Gelung Histeresis Magnetik dan Lengkung B-H

Program ESP32 dengan MicroPython Menggunakan Kod VS dan PyMakr

Cara Melaksanakan Pengelogan dalam Node.js

Cara Memasang dan Menggunakan vnStat pada Linux Mint 21

Cara Mengurus dan Mengosongkan Cache dan Kuki Anda dalam Microsoft Edge

Aplikasi Linux Paling Popular dan Penting

Cara Menghantar E-mel Menggunakan Baris Perintah di Linux

Cara Melepasi Peranti USB ke Mesin Maya (VM) Proxmox VE 8