Bagaimana untuk Mencipta Crawler untuk Mengambil Data Dari S3 Baldi?

Bagaimana Untuk Mencipta Crawler Untuk Mengambil Data Dari S3 Baldi



AWS Glue digunakan untuk menemui data, menyepadukan data, merangkak data dan membuat katalog data pada awan. Pengguna boleh mencipta perangkak daripada AWS Glue yang akan merangkak data daripada sumber yang diberikan dan kemudian menyimpannya pada katalog data untuk mendapatkan maklumat. Pengguna hanya perlu menjalankan perangkak dan segala-galanya akan dilakukan oleh perangkak dalam beberapa saat.

Panduan ini akan menerangkan cara membuat perangkak untuk mengambil data daripada baldi S3.

Bagaimana untuk Mencipta Crawler untuk Mengambil Data Dari S3 Baldi?

Untuk membuat perangkak dalam AWS, lawati ' Gam AWS ” perkhidmatan daripada papan pemuka Amazon:









Klik pada ' Pangkalan data ” butang daripada bahagian Katalog Data untuk mencipta pangkalan data:







Klik pada ' Tambah pangkalan data butang ” untuk memulakan konfigurasi:



Masukkan nama pangkalan data dan biarkan semuanya kerana ia adalah pilihan sebelum mengklik pada ' Buat pangkalan data butang ”:

Pangkalan data telah berjaya dibuat:

Selepas itu, hanya pergi ke ' Perangkak ” halaman dengan mengkliknya dari panel kiri:

Klik pada ' Buat perangkak butang ”:

Taipkan nama crawler dan klik pada “ Seterusnya butang ”:

Klik pada ' Tambahkan sumber data butang untuk memilih sumber data:

Untuk menyemak laluan di mana data disimpan, lawati perkhidmatan S3:

Pergi ke baldi S3 tempat data dimuat naik. Pengguna boleh cipta baldi dan muat naik data mengenainya daripada papan pemuka AWS S3:

Klik pada ' Layari S3 butang ” untuk memilih laluan data:

Pilih folder yang mengandungi data, kemudian klik pada “ pilih butang ”:

Laluan S3 telah dipilih, sekarang klik pada “ Tambahkan sumber data S3 butang ”:

Setelah sumber data ditambah, cuma klik pada “ Seterusnya butang ”:

Tambahkan peranan IAM dan kemudian klik pada “ Seterusnya butang ”:

Masukkan pangkalan data sasaran yang dibuat sebelum ini dan kemudian taip nama untuk jadual:

Pilih jadual Atas permintaan untuk perangkak dan klik pada “ Seterusnya butang ”:

Semak perangkak dan klik pada “ Buat perangkak butang ”:

Perangkak telah berjaya dibuat, klik pada “ Lari butang ” selepas memilihnya:

Ia akan mengambil masa beberapa saat untuk menjalankan perangkak dan ia akan mengambil data dan membuat jadual untuk menyimpan data:

Pergi ke dalam ' Meja ” halaman daripada papan pemuka Gam:

Pilih jadual dengan mengklik pada namanya:

Butiran kisah telah dipaparkan yang mengandungi metadata data yang diambil:

Tatal ke bawah halaman dan pilih bahagian untuk melihat jadual yang mengandungi data:

Itu sahaja tentang mencipta perangkak untuk mengambil data daripada baldi S3.

Kesimpulan

Untuk mencipta perangkak untuk mengambil data daripada baldi S3, buat pangkalan data pada AWS Glue yang mana data yang dirangkak akan disimpan. Konfigurasikan perangkak dari papan pemuka Glue dengan menyediakan sumber data (baldi S3) dan pangkalan data sasaran. Jalankan perangkak dan ambil data dari baldi S3 ke jadual pangkalan data kerana panduan ini telah dijelaskan dengan teliti.