Cara Menganalisis Data Teks dalam R: Asas Manipulasi Rentetan

Cara Menganalisis Data Teks Dalam R Asas Manipulasi Rentetan



Rentetan ialah jenis data kedua paling popular dalam pengaturcaraan R, dan manipulasi rentetan ialah tugas penting dalam R. Operasi manipulasi rentetan dalam R terdiri daripada berbilang fungsi untuk menggunakan dan mengubah data teks, termasuk mengubah dan menghuraikan rentetan. Dalam artikel ini, kami akan menyelami beberapa fungsi yang membantu kami dalam manipulasi rentetan. Fungsi ini terbina dalam R dan digunakan untuk pelbagai tujuan untuk melaksanakan tugas rentetan.

Contoh 1: Dapatkan Kedudukan Corak daripada Rentetan Menggunakan Fungsi Grep() dalam R

Untuk mengekstrak kedudukan corak yang ditentukan daripada rentetan, fungsi grep() R digunakan.

grep('i+', c('fix', 'split', 'corn n', 'paint'), perl=TRUE, value=FALSE)

Di sini, kami menggunakan fungsi grep() di mana corak '+i' ditentukan sebagai hujah untuk dipadankan dalam vektor rentetan. Kami menetapkan vektor aksara yang mengandungi empat rentetan. Selepas itu, kami menetapkan hujah 'perl' dengan nilai TRUE yang menunjukkan bahawa R menggunakan pustaka ungkapan biasa yang serasi dengan perl, dan parameter 'nilai' ditentukan dengan nilai 'FALSE' yang digunakan untuk mendapatkan semula indeks unsur. dalam vektor yang sepadan dengan corak.







Kedudukan corak '+i' daripada setiap rentetan aksara vektor dipaparkan dalam output berikut:





Contoh 2: Padankan Corak Menggunakan Fungsi Gregexpr() dalam R

Seterusnya, kami mendapatkan semula kedudukan indeks bersama-sama dengan panjang rentetan tertentu dalam R menggunakan fungsi gregexpr().





char_vec <- c('BAHASA PENGATURCARAAN','RSKRIP')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Di sini, kami menetapkan pembolehubah 'char_vect' di mana rentetan disediakan dengan aksara yang berbeza. Selepas itu, kami mentakrifkan fungsi gregexpr() yang mengambil corak rentetan 'GRAMM' untuk dipadankan dengan rentetan yang disimpan dalam 'char_vec'. Kemudian, kami menetapkan parameter useBytes dengan nilai 'TRUE'. Parameter ini menunjukkan bahawa padanan harus dicapai bait demi bait dan bukannya aksara demi aksara.

Output berikut yang diambil daripada fungsi gregexpr() mewakili indeks dan panjang kedua-dua rentetan vektor:



Contoh 3: Kira Jumlah Aksara dalam Rentetan Menggunakan Fungsi Nchar() dalam R

Kaedah nchar() yang kami laksanakan dalam perkara berikut juga membolehkan kami menentukan bilangan aksara dalam rentetan:

Res <- nchar('Hitung setiap aksara')
cetak(Res)

Di sini, kami memanggil kaedah nchar() yang ditetapkan dalam pembolehubah 'Res'. Kaedah nchar() disediakan dengan rentetan panjang aksara yang dikira dengan kaedah nchar() dan menyediakan bilangan aksara balas dalam rentetan yang ditentukan. Kemudian, kami menghantar pembolehubah 'Res' kepada kaedah print() untuk melihat keputusan kaedah nchar().

Hasilnya diterima dalam output berikut yang menunjukkan bahawa rentetan yang ditentukan mengandungi 20 aksara:

Contoh 4: Ekstrak Substring daripada String Menggunakan Fungsi Substring() dalam R

Kami menggunakan kaedah subrentetan() dengan argumen 'mula' dan 'berhenti' untuk mengekstrak subrentetan tertentu daripada rentetan.

str <- substring('PAGI', 2, 4)
cetakan(str)

Di sini, kita mempunyai pembolehubah 'str' ​​di mana kaedah subrentetan() dipanggil. Kaedah substring() mengambil rentetan 'MORNING' sebagai argumen pertama dan nilai '2' sebagai argumen kedua yang menunjukkan bahawa aksara kedua daripada rentetan akan diekstrak, dan nilai argumen '4' menunjukkan bahawa aksara keempat akan diekstrak. Kaedah substring() mengekstrak aksara daripada rentetan di antara kedudukan yang ditentukan.

Output berikut memaparkan subrentetan yang diekstrak yang terletak di antara kedudukan kedua dan keempat dalam rentetan:

Contoh 5: Gabungkan Rentetan Menggunakan Fungsi Tampal() dalam R

Fungsi tampal() dalam R juga digunakan untuk manipulasi rentetan yang menggabungkan rentetan yang ditentukan dengan mengasingkan pembatas.

msg1 <- 'Kandungan'
msg2 <- 'Menulis'

tampal(msg1, msg2)

Di sini, kami menentukan rentetan kepada pembolehubah 'msg1' dan 'msg2', masing-masing. Kemudian, kami menggunakan kaedah tampal() R untuk menggabungkan rentetan yang disediakan ke dalam rentetan tunggal. Kaedah paste() mengambil pembolehubah rentetan sebagai hujah dan mengembalikan rentetan tunggal dengan ruang lalai di antara rentetan.

Apabila kaedah tampal() dilaksanakan, output mewakili rentetan tunggal dengan ruang di dalamnya.

Contoh 6: Ubah suai String Menggunakan Fungsi Substring() dalam R

Tambahan pula, kita juga boleh mengemas kini rentetan dengan menambahkan subrentetan atau mana-mana aksara ke dalam rentetan menggunakan fungsi substring() menggunakan skrip berikut:

str1 <- 'Wira'
subrentetan(str1, 5, 6) <- 'ic'

cat('    Rentetan Diubah Suai:', str1)

Kami menetapkan rentetan 'Heroes' dalam pembolehubah 'str1'. Kemudian, kami menggunakan kaedah substring() di mana 'str1' ditentukan bersama-sama dengan nilai indeks 'start' dan 'stop' substring. Kaedah substring() diberikan dengan substring 'iz' yang diletakkan pada kedudukan yang ditentukan dalam fungsi untuk rentetan yang diberikan. Selepas itu, kami menggunakan fungsi cat() R yang mewakili nilai rentetan yang dikemas kini.

Output yang memaparkan rentetan dikemas kini dengan yang baharu menggunakan kaedah subrentetan ():

Contoh 7: Formatkan Rentetan Menggunakan Fungsi Format() dalam R

Walau bagaimanapun, operasi manipulasi rentetan dalam R juga termasuk memformat rentetan dengan sewajarnya. Untuk ini, kami menggunakan fungsi format() di mana rentetan boleh diselaraskan dan menetapkan lebar rentetan tertentu.

penempatan1 <- format('Program', lebar = 10, justify = 'l')
penempatan2 <- format('Program', lebar = 10, justify = 'r')
penempatan3 <- format('Program', lebar = 10, justify = 'c')

cetakan(peletakan1)
cetakan(peletakan2)
cetak(peletakan3)

Di sini, kami menetapkan pembolehubah 'penempatan1' yang disediakan dengan kaedah format(). Kami menghantar rentetan 'program' untuk diformatkan kepada kaedah format(). Lebar ditetapkan, dan penjajaran rentetan ditetapkan ke kiri menggunakan hujah 'justify'. Begitu juga, kami mencipta dua lagi pembolehubah, 'placement2' dan 'placement2', dan menggunakan kaedah format() untuk memformat rentetan yang disediakan dengan sewajarnya.

Output memaparkan tiga gaya pemformatan untuk rentetan yang sama dalam imej berikut termasuk penjajaran kiri, kanan dan tengah:

Contoh 8: Ubah Rentetan kepada Huruf Bawah dan Atas dalam R

Selain itu, kita juga boleh mengubah rentetan dalam huruf kecil dan huruf besar menggunakan fungsi tolower() dan toupper() seperti berikut:

s1 <- 'Makanan Yang BaikHidup YANG BAIK'
keputusan1 <- tolower(s1)

cetak(hasil1)

s2 <- 'Bahasa pengaturcaraan r dalam '
keputusan2 <- topper(s2)

cetak(hasil2)

Di sini, kami menyediakan rentetan yang mengandungi aksara besar dan huruf kecil. Selepas itu, rentetan disimpan dalam pembolehubah 's1'. Kemudian, kami memanggil kaedah tolower() dan lulus rentetan 's1' di dalamnya untuk mengubah semua aksara dalam rentetan dalam huruf kecil. Kemudian, kami mencetak keputusan kaedah tolower() yang disimpan dalam pembolehubah 'result1'. Seterusnya, kami menetapkan rentetan lain dalam pembolehubah 's2' yang mengandungi semua aksara dalam huruf kecil. Kami menggunakan kaedah toupper() pada rentetan 's2' ini untuk mengubah rentetan sedia ada menjadi huruf besar.

Output memaparkan kedua-dua rentetan dalam kes yang ditentukan dalam imej berikut:

Kesimpulan

Kami mempelajari pelbagai cara untuk mengurus dan menganalisis rentetan yang dirujuk sebagai manipulasi rentetan. Kami mengekstrak kedudukan watak daripada rentetan, menggabungkan rentetan yang berbeza dan mengubah rentetan itu ke dalam kes yang ditentukan. Selain itu, kami memformat rentetan, mengubah suai rentetan dan pelbagai operasi lain dilakukan di sini untuk memanipulasi rentetan.