Langsung ke konten utama

Postingan

Menampilkan postingan dari Januari, 2023

Bagaimana Mengubah Data Tidak Terstruktur menjadi Data Terstruktur dengan REGEX R?

How to make structured data from unstructured data (text) using REGEX R? Dalam dunia Data Science , kehadiran Big Data menjadi tantangan besar. Bagaimana sebuah data yang berukuran besar, berkecepatan update yang tinggi, memerlukan piranti penyimpan besar, bervariasi, dan mengandung kompleksitas di dalamnya mampu untuk diolah secara benar agar menghasilkan insight sekaligus nilai tambah ( value added ) bagi perencanaan pembangunan berbasis data. Sebagaimana bahasan-bahasan sebelumnya mengenai pemanfaatan salah satu elemen Natural Language Processing (NLP), yaitu gsub(), sub(), grep(), setidaknya kita telah mempunyai bekal minimal untuk dapat menangani aspek kompleksitas dan variasi dari Big Data . Bagi sahabat yang hendak mempelajari bahasana mengenai 3 fungsi yang telah disebutkan dapat berkunjung pada tautan berikut [ 1 ], [ 2 ], [ 3 ], [ 4 ]. Pada bagian ini, kita akan mencoba mempraktikkan kombinasi dari berbagai jenis Regular Expression (REGEX) R. Adapun tujuan dari praktik kal...

Ekstraksi Teks Spesifik dengan Regular Expression (REGEX) R Bagian IV

Regular Expression (REGEX) dengan R Pada artikel sebelumnya, kita telah belajar bersama mengenai penggunakan fungsi Natural Language Processing (NLP) berupa gsub() dan grep(). Pada artikel kali ini, kita akan membahas fungsi NLP yang berguna dalam ekstraksi teks juga, yaitu sub(). Perbedaan mendasar penggunaan fungsi sub() adalah me match kan karakter, teks, atau kata pertama kali untuk kemudian diubah ke karakter, teks, atau kata lain. Selain itu, manfaat lain dari fungsi sub() ini adalah untuk menyisipkan karakter, teks, atau kata dalam karakter, teks, atau kata yang telah ada. Untuk lebih memahami bagaimana menggunakan fungsi sub() dalam ekstraksi teks, berikut beberapa langkah praktis yang dapat diterapkan. #Teks x <- c("Saya", "mengolah (data) sebanyak 15 GB", "pada 04-03-2023", "Big Data", "menggunakan \\R bukan r", "versi @ 4.0.2") x ## [1] "Saya" "mengolah (data) se...

Ekstraksi Teks Spesifik dengan Regular Expression (REGEX) R Bagian III

  Regular Expression (REGEX) dengan R Selain penggunaan fungsi gsub(), untuk mendapatkan insight data teks dengan ekstrasi dapat pula menggunakan fungsi grep(). Era Data Science menuntut kita mempunyai skill mentransformasi data tidak terstruktur seperti teks, video, suara, dan gambar menjadi data yang terstruktur untuk kemudian diolah menjadi sebuah informasi bermanfaat bagi pengguna. Perbedaan dari gsub() dan grep() cukup mudah kita bedakan. Fungsi gsub() lebih untuk mengekstraksi teks dengan cara menghapus teks yang tidak diinginkan. Sedangkan fungsi grep() digunakan untuk secara tepat mengekstraksi teks secara langsung. Sebagai contoh, bila kita ingin mengekstraksi teks "lato-lato", kalau menggunakan gsub() kita perlu hapus teks selain kata tersebut, sementara bila menggunakan grep, kita langsung menargetkan teks "lato-lato" untuk diambil dari dalam teks. Untuk lebih memahami, kita perlu praktikkan dengan beberapa kasus sebagai berikut: #Membuat Data Teks x...

Ekstraksi Teks Spesifik dengan Regular Expression (REGEX) R Bagian II

Regular Expression Regex dengan R Regular Expression atau yang biasa disingkat Regex merupaan elemen penting yang perlu dipahami dalam Natural Languge Processing (NLP). Apalagi di era Big Data saat ini banyak data yang masih dalam kondisi yang "kotor" karena tercampur aduk antara data tidak terstruktur, data terstruktur, bahkan teraduk pula dalam data semi terstruktur, seperti HTML, XML, XHTML, JSON, dan lainnya. Bahasan penggunaan regex kali ini merupakan kali kedua yang secara khusus kita bahas. Bahasan sebelumnya, dapat teman-teman baca pada link berikut . Adapun praktik ekstraksi teks kali ini kita menggunakan 1 jenis fungsi dalam base yang dimiliki oleh R, yaitu gsub(). Adapun tujuan dari praktik kita kali ini adalah memahami bagaimana menghapus teks atau karakter tertentu sesuai kebutuhan analisis teks menggunakan regex. Dengan menguasai penggunaan regex ini, kita setidaknya mengantongi satu syarat dari sekian syarat disebut sebagai Data Scientist . Pada akhirnya, dar...

Visualisasi Data dengan Peta sebagai Pendukung Analisis Spasial (Spatial Analysis)

Visualisasi data dengan peta spasial Analisis spasial atau berbasis kewilayahan akhir-akhir ini semakin banyak diminati. Selain mempunyai daya tarik karena enak dipandang mata, visualisasi spasial dengan peta ini juga dinilai meningkatkan kecepatan pemahaman pengguna informasi yang disajikan. Bila data yang kita miliki memiliki variabel lokasi atau kontur, visualisasi spasial bisa jadi menjadi pilihan tepat. Dengan berbekal peta berekstensi *shp dan sebuah data lokasi atau kontur, visualisasi spasial dapat diterapkan secara mudah. Namun kenyataannya, tidak mudah bagi kita untuk melakukan visualisasi data secara spasial. Beberapa data yang diperlukan adalah garis lintang dan bujur, juga data yang akan divisualkan. Misalkan data Angka Kematian Bayi (AKB). Sebelum praktikum, ada baiknya kita pahami dulu apa itu AKB. Menurut Badan Pusat Statistik (BPS), Angka Kematian Bayi adalah banyaknya bayi yang meninggal sebelum mencapai umur 1 tahun pada waktu tertentu per 1.000 kelahiran hidup pada ...

Ekstraksi Teks Spesifik dengan Regular Expression (REGEX) dengan R Bagian I

Ekstraksi Teks dengan Regex R Pembahasan mengenai data preprocessing dalam konteks Data Science dan Big Data selalu menjadi perhatian utama. Terlebih, bila yang kita punyai merupakan data tidak terstruktur berbentuk teks. Data ini sering kita jumpai atau peroleh, baik dari hasil web scraping atau web crawling data-data teks. Data teks biasanya kita temui di media sosial, website , portal, atau sejenisnya. Sebagai bagian dari data tidak terstruktur, tentunya untuk menghasilkan insight data teks, kita perlu tahapan yang sangat kompleks dengan segala tantangan yang ada. Apalagi data teks berbahasa khusus sebuah negara, katakanlah teks berbahasa Indonesia. Mulai dari unggahan ini, nantinya akan kita ulas secara perlahan mengenai bagaimana melakukan data preprocessing teks dengan R. Mengingat dalam sebuah teks yang tersebar di internet terdapat karakter-karakter yang unik, spesifik, bahkan campur aduk dengan teks, maka kita akan mencoba praktik ekstraksi-ekstraksi teks spesifik mengg...

Preprocessing Data Tweet Twitter tentang Permainan Lato-Lato dengan Python

Preprocessing data tweet permainan lato-lato Siapa yang belum kenal dengan permainan lato-lato? Ya, permainan tradisional yang telah lama dilupakan anak-anak ini kini kembali viral dengan sejumlah pro dan kontranya. Dua bola plastik padat yang dihubungkan oleh sebuah tali dan pengait di tengahnya ini kini banyak digemari oleh anak-anak. Tak hanya itu, permainan murah ini juga banyak dimainkan oleh orang dewasa karena dulunya pernah memainkannya. Entah siapa yang mulai memviralkan permainan lato-lato ini. Yang jelas, berdasarkan penelurusan melalui Google Trends , permainan ini mulai banyak dicari sejak Desember 2022 lalu. Kemudian melejit di awal 2023, meski sekarang telah mengalami penurunan intensitas pencariannya. Google Trend Index pencarian kata kunci "lato" Pro dan kontra yang ditimbulkan permainan ini sungguh beragam. Selain ada yang berpendapat tidak membahayakan, pendapat lain juga menyatakan bahwa permainan lato-lato membahayakan dan bahkan dilarang di beberapa ne...