Ekstraksi Teks Spesifik dengan Regular Expression (REGEX) R Bagian IV

Regular Expression (REGEX) dengan R

Pada artikel sebelumnya, kita telah belajar bersama mengenai penggunakan fungsi Natural Language Processing (NLP) berupa gsub() dan grep(). Pada artikel kali ini, kita akan membahas fungsi NLP yang berguna dalam ekstraksi teks juga, yaitu sub().

Perbedaan mendasar penggunaan fungsi sub() adalah mematchkan karakter, teks, atau kata pertama kali untuk kemudian diubah ke karakter, teks, atau kata lain. Selain itu, manfaat lain dari fungsi sub() ini adalah untuk menyisipkan karakter, teks, atau kata dalam karakter, teks, atau kata yang telah ada. Untuk lebih memahami bagaimana menggunakan fungsi sub() dalam ekstraksi teks, berikut beberapa langkah praktis yang dapat diterapkan.

#Teks
x <- c("Saya", "mengolah (data) sebanyak 15 GB", "pada 04-03-2023", "Big Data",
       "menggunakan \\R bukan r", "versi @ 4.0.2")
x
## [1] "Saya"                           "mengolah (data) sebanyak 15 GB" "pada 04-03-2023"               
## [4] "Big Data"                       "menggunakan \\R bukan r"        "versi @ 4.0.2"
#Menyisipkan kata sebuah sebelum kata data
sub("d", "sebuah d", x)
## [1] "Saya"                                  "mengolah (sebuah data) sebanyak 15 GB"
## [3] "pasebuah da 04-03-2023"                "Big Data"                             
## [5] "menggunakan \\R bukan r"               "versi @ 4.0.2"
#Mengganti tanda \\ dengan blank
sub("[\\]", "", x)
## [1] "Saya"                           "mengolah (data) sebanyak 15 GB" "pada 04-03-2023"               
## [4] "Big Data"                       "menggunakan R bukan r"          "versi @ 4.0.2"
#Mengganti huruf R besar dan r kecil menjadi r kecil
sub("[Rr]", "r", x)
## [1] "Saya"                           "mengolah (data) sebanyak 15 GB" "pada 04-03-2023"               
## [4] "Big Data"                       "menggunakan \\r bukan r"        "versi @ 4.0.2"
#Mengganti angka digit pertama dengan blank 
sub("[[:digit:]]", "", x)
## [1] "Saya"                          "mengolah (data) sebanyak 5 GB" "pada 4-03-2023"               
## [4] "Big Data"                      "menggunakan \\R bukan r"       "versi @ .0.2"
#Mengganti angka digit pertama dengan blank 
sub("[)]", " www.bigdata.com)", x)
## [1] "Saya"                                           "mengolah (data www.bigdata.com) sebanyak 15 GB"
## [3] "pada 04-03-2023"                                "Big Data"                                      
## [5] "menggunakan \\R bukan r"                        "versi @ 4.0.2"
#Mengganti huruf a pertama di setiap teks dengan tanda *
sub("a", "*", x)
## [1] "S*ya"                           "mengol*h (data) sebanyak 15 GB" "p*da 04-03-2023"               
## [4] "Big D*ta"                       "menggun*kan \\R bukan r"        "versi @ 4.0.2"

Demikian sedikit sharing kita kali ini. Jangan lupa untuk terus menyimak unggahan-unggahan menarik lainnya. Selamat memahami dan mempraktikkan!

Add Comments


EmoticonEmoticon