Cara Memasang Tesseract pada Windows

Cara Memasang Tesseract Pada Windows



Tesseract ialah alat pengecaman teks sumber terbuka yang tersedia secara percuma yang juga dikenali sebagai OCR (Pengecaman aksara optik). Ia digunakan terutamanya untuk mengenal pasti dan mengekstrak teks daripada imej. Ia akan membaca teks daripada data imej dan menulis output dalam fail .txt baharu. Tesseract juga berfungsi di bawah Python, kerana ia digunakan terutamanya untuk mengenali tulisan tangan daripada imej. Ia menggunakan model LSTR (Memori jangka pendek panjang). Tesseract bekerja di bawah lesen Apache 2.0.

Kami akan menghuraikan kaedah untuk memasang Tesseract pada Windows dalam blog ini.







Jadi, mari mulakan!



Bagaimana untuk memasang Tesseract pada Windows?

Tesseract ialah alat baris arahan yang digunakan untuk pengekstrakan teks daripada imej. Untuk memasang Tesseract pada Windows, anda perlu mengikuti arahan yang diberikan di bawah.



Langkah 1: Muat turun Tesseract Installer





Pertama, navigasi ke pautan yang disediakan di bawah dan muat turun pemasang Tesseract mengikut spesifikasi sistem anda:

https: // github.com / UB-Mannheim / tesseract / minggu



Langkah 2: Jalankan Pemasang Tesseract

Lawati ' Muat turun ” direktori tempat pemasang Tesseract dimuat turun. Untuk memasang Tesseract pada Windows, laksanakan pemasang Tesseract dengan mengklik dua kali padanya:

Langkah 3: Pilih Bahasa

Banyak bahasa disokong oleh pemasang Tesseract. Untuk berinteraksi dengan UI Pemasang, pilih “ Inggeris ” sebagai bahasa anda dan klik pada “ okey ”:

Langkah 4: Pasang Tesseract

Selepas berbuat demikian, wizard persediaan OCR Tesseract akan muncul pada skrin. Untuk memulakan pemasangan Tesseract, tekan “ Seterusnya butang ”:

Untuk menerima ' Perjanjian Lesen ”, klik pada “ Saya setuju butang ”:

Pilih ' Memasang untuk sesiapa sahaja yang menggunakan komputer ini pilihan ' dan tekan ' Seterusnya butang ”:

Jika anda ingin menambah data skrip atau memasukkan bahasa lain, tandai kotak semak masing-masing dan tekan “ Seterusnya butang ”. Oleh kerana kami tidak mahu sebarang skrip data atau bahasa tambahan, kami akan meneruskan pilihan pilihan lalai:

Pilih lokasi pemasangan dan klik pada ' Seterusnya butang ”:

Jika anda tidak mahu membuat pintasan dalam menu Mula, kemudian tandakan “ Jangan cipta Jalan pintas ” kotak semak dan tekan “ Pasang butang ”:

Selepas itu, pemasangan Tesseract akan dimulakan. Tunggu sehingga pemasangan akan selesai dan tekan ' Seterusnya butang ”:

Akhir sekali, klik pada ' Selesai butang ”:

Langkah 5: Tetapkan Pembolehubah Persekitaran

Selepas pemasangan, anda perlu menetapkan pembolehubah persekitaran Tesseract. Untuk berbuat demikian, mula-mula lawati direktori di mana anda telah memasang Tesseract dan salin laluan dari ' Alamat ” bar:

Buat carian untuk ' Pembolehubah Persekitaran ' di dalam ' Memulakan ” menu dan buka “ Edit pembolehubah persekitaran sistem ”:

Di dalam tetapan, navigasi ke ' Maju ” menu tetapan dan klik pada “ Pembolehubah Persekitaran butang ”:

Pilih ' Laluan ” Pembolehubah daripada “ Pembolehubah Sistem panel ” dan tekan “ Sunting butang ”:

Selepas itu ' Edit Pembolehubah Persekitaran ” tetingkap akan muncul pada skrin. Tekan ' Baru ” dan tampal laluan direktori pemasangan Tesseract yang disalin di sini. Akhir sekali, klik pada ' okey butang ”:

Langkah 6: Sahkan Pemasangan Tesseract

Untuk mengesahkan Pemasangan Tesseract, buka Prompt Perintah Windows dengan mencari ' Arahan prompt ' di dalam ' Memulakan ” menu:

Lihat versi Tesseract menggunakan arahan yang disediakan:

> tesseract --versi

Output yang diberikan di bawah menunjukkan bahawa kami telah berjaya memasang versi Tesseract “ v5.2.0 ” pada Windows:

Mari kita teruskan untuk melihat cara menggunakan Tesseract pada Windows.

Bagaimana untuk menggunakan Tesseract pada Windows?

Tesseract digunakan untuk membaca tulisan tangan atau mengekstrak teks daripada gambar. Mari lihat cara ia berfungsi:

Langkah 1: Pilih Imej

Pilih imej dari mana anda ingin mengekstrak teks. Seperti yang telah kami pilih ' 1.png ”:

Langkah 2: Ekstrak Teks Daripada Imej

Sebaik sahaja CMD dibuka. Gunakan ' cd ” perintah untuk menukar direktori tempat imej disimpan. Kemudian jalankan ' tesseract ' perintah dan tentukan nama fail imej seperti yang telah kami tentukan ' 1.png ”. ' Teks ” menunjukkan parameter menunjukkan nama fail output:

> cd C:\Users\anuma\OneDrive\Pictures\Saved Pictures
> tesseract 1 .png 'Teks'

Langkah 3: Sahkan Pengekstrakan Teks

Untuk mengesahkan pengekstrakan teks, navigasi direktori tempat fail imej wujud. Anda boleh melihat bahawa fail output ' Teks ” juga disimpan di sini. Klik dua kali pada fail output untuk menyemak sama ada tesseract telah mengekstrak teks daripada imej atau tidak:

Anda boleh melihat bahawa kami telah berjaya mengekstrak teks menggunakan alat baris arahan Tesseract:

Kami telah menunjukkan teknik untuk memasang dan menggunakan Tesseract pada Windows.

Kesimpulan

Untuk memasang Tesseract pada Windows, ia dikehendaki memuat turun pemasang Tesseract. Untuk tujuan ini, ikuti sesi pertama artikel ini. Seterusnya tetapkan pembolehubah persekitaran Path untuk menggunakan dan mengakses Tesseract daripada Windows Command Prompt. Kemudian, pilih fail imej dan gunakan ' Tesseract ” perintah untuk mengecam dan mengekstrak teks daripada imej. Di sini, anda telah belajar untuk memasang serta menggunakan “ Tesseract ” pada tingkap.