Apakah Senarai-Crawler dalam AWS?

Apakah Senarai Crawler Dalam Aws



Data telah menjadi pengaruh yang besar dalam pertumbuhan syarikat kerana kebanyakan mereka sangat bergantung padanya untuk mendapatkan cerapan melaluinya. Metadata ialah data tentang data yang menerangkan data supaya data boleh digunakan untuk mendapatkan maklumat maksimum daripadanya. Metadata mengandungi maklumat seperti lokasi data, struktur skema, jenis data atau perkara seperti pemilik data.

Panduan ini akan menerangkan perangkak senarai dalam AWS.

Apakah Senarai-Crawler dalam AWS?

Crawler ialah komponen AWS Glue yang digunakan untuk merangkak ke lokasi data dan menyimpulkan maklumat itu kembali ke katalog. Maklumat yang dikumpul oleh perangkak boleh menjadi jenis data data, struktur skema, atau dengan kata lain, ia mengumpul metadata. Crawler juga boleh digunakan dengan Katalog Data yang digunakan apabila data dialihkan di dalam ekosistem Glue semasa menggunakan kerja ETL, dsb.









Apakah Perkhidmatan Gam Amazon?

AWS Glue ialah perkhidmatan Transformasi dan Muatkan Ekstrak Amazon yang membolehkan pengguna mengatur, mencari, mengalih dan mengubah semua data. AWS Glue adalah tanpa pelayan kerana pengguna tidak perlu menyediakan dan mengkonfigurasi pelayan atau mengurus kitaran hayat. Katalog data dan perangkak ialah komponen AWS Glue yang bertindak sebagai repositori metadata yang berterusan:







Bagaimana untuk Mencipta Crawler pada AWS?

Untuk membuat perangkak pada AWS, lawati perkhidmatan AWS Glue daripada AWS Management Console:



Pergi ke dalam ' Perangkak ” halaman dengan mengklik pada namanya dari panel kiri:

Klik pada ' Buat perangkak butang ”:

Taipkan nama crawler dan klik pada “ Seterusnya butang ”:

Pilih pilihan pemetaan untuk jadual gam dan klik pada ' Tambah sumber butang ” untuk mendapatkan data daripada:

Pilih perkhidmatan S3 dan klik pada “ Layari S3 butang ” untuk mendapatkan lokasi sumber:

Hanya pilih folder S3 dan klik pada ' pilih butang ”:

Setelah lokasi ditambahkan pada sumber, hanya klik pada “ Tambahkan sumber data S3 butang ”:

Klik pada ' Seterusnya butang ”:

Klik pada ' Cipta peranan IAM baharu butang ” daripada “ Konfigurasikan tetapan keselamatan bahagian ”:

Masukkan nama peranan dan klik pada ' Buat butang ”:

Selepas itu, hanya klik pada ' Seterusnya butang ”:

Pilih pangkalan data sasaran dan taipkan nama yang akan digunakan untuk jadual:

Jadualkan perangkak untuk “ Permintaan ” dan klik pada “ Seterusnya butang ”:

Semak konfigurasi dan klik pada ' Buat perangkak butang ”:

Perangkak telah berjaya dibuat dan ia boleh digunakan untuk mengambil data daripada sumber dengan mengklik pada “ Lari butang ”:

Itu sahaja tentang perangkak senarai dalam AWS.

Kesimpulan

ListCrawler ialah komponen perkhidmatan AWS Glue yang boleh digunakan untuk merangkak maklumat daripada sumber dan kembali ke katalog. Katalog data dan perangkak boleh digunakan untuk mengumpul data untuk mendapatkan maklumat tentang data yang dikenali sebagai metadata. Pengguna juga boleh mencipta perangkak daripada AWS Glue untuk mendapatkan data daripada perkhidmatan S3 atau sumber lain dan meletakkan jadual ciptaan dalam pangkalan data. Panduan ini telah menerangkan ListCrawlers dalam AWS dan cara menciptanya.