Langsung ke konten utama

Postingan

Menampilkan postingan dari April, 2022

Natural Language Processing (NLP) Penerapan Stopwords Bahasa Indonesia dengan R: Topik Sepinya Jalur Pantura Akibat Adanya Tol Trans Jawa

Natural Language Processing : Stopwords Bahasa Indonesia dengan R Halo teman-teman, berjumpa lagi dengan blog sederhana ini. Pada pembahasan sebelumnya, kita telah bersama belajar penerapan stemming teks yang merupakan bagian dari Natural Language Processing (NLP) menggunakan R. Pada perjumpaan kali ini, kita akan melanjutkan perjuangan kita berbagi ilmu mengenai NLP, tepatnya adalah penerapan stopwords Bahasa Indonesia dengan R. Perlu diketahui bahwa di dalam NLP, untuk menambah keluasan dan mempertajam analisis teks, proses stemming teks saja belum cukup. Kita juga perlu membersihkan teks yang relatif atau mutlak tidak bermakna di dalam analisis teks. Biasanya teks yang dieliminasi dalam NLP merupakan kata penghubunga atau konjungsi, atau kata yang berupa ekspresi yang bercampur di dalam data teks, misalkan ekspresi tertawa "wkwk", ekspresi penolakan "gak, nggak, tidak, atau gk", bahasa asing (selain Indonesia), atau juga kata-kata yang tidak memenuhi kaidah ta

Pemodelan SARIMAX (Seasonal Autoregressive Integrated and Moving Average with Exogenous Variable) dengan R

Seasonal ARIMA dengan variabel eksogen (SARIMAX) di R Hai teman-teman, jumpa lagi dengan blog jokoding.com, kali ini kita akan melanjutkan belajar bersama mengenai pemodelan statistik. Jenis pemodelan kita kali ini saya angkat karena ada sebuah permintaan ( request ) dari sahabat kita di LinkedIn beberapa waktu lalu ketika saya coba sharing terkait model Autoregressive Intergrated and Moving Average (ARIMA). Model kita kali ini disebut sebagai SARIMAX. Apa kepanjangannya? Ya benar, Seasonal Autoregressive Integrated and Moving Average with Exogenous Regressor Model . Jadi, model ini merupakan model yang masih sekeluarga dari ARIMA. Model ini merupakan pengembangan ARIMA mengingat adanya dugaan faktor lain yang mempengaruhi sebuah variabel selain oleh masa lalu dirinya sendiri. Di dalam model SARIMAX, ini saya langsung pakai Seasonal karena data yang akan kita gunakan dalam praktik merupakan data yang memiliki pola musiman. Setidak ada 2 istilah yang kita kenal di dalam pemodelan ini,

Pemodelan Regresi Ridge (Ridge Regression Model) dengan R

Regresi Ridge dengan R Halo teman-teman, kali ini kita akan melanjutkan belajar bersamanya mengenai pemodelan karena tadi pagi kita telah belajar bersama bagaimana menerapkan fungsi do.call() di R. Model yang kita bahas kali ini adalah model yang agaknya masih keluarga dekat dengan model regresi linier sederhana atau berganda, namanya adalah regresi ridge ( ridge regression model ). Acapkali data yang kita gunakan untuk pemodelan regresi linier tidak berjalan mulus dan lancar-lancar saja. Entah dari hubungannya sebenarnya tidak linier, atau yang lebih sering mengalami gangguan asumsi klasik tertentu. Regresi ridge ini merupakan bentuk lain dari regresi yang mampu mengakomodir adanya bias akibat adanya multikolinearitas di antara variabel independen di dalam model. Adapun sifat dari penduga parameter model ini adalah bias namun konsisten karena memiliki kemampuan untuk menurunkan Mean Square Error (MSE). Kendati demikian, pada praktiknya, model regresi ridge ini masih debatable atau mas

Penerapan Fungsi do cal (do.call function) dengan R

Penerapan fungsi do call di R Halo teman-teman, kali ini kita masih break ya dengan membahas beberapa fungsi ringan dan renyah dulu saja. Kali ini kita akan belajar bersama bagaimana fungsi dan manfaat do.call() di R. Biasanya, dalam bahasa pemrograman, kita biasa melakukan instruksi untuk dieksekusi dengan menyiapkan fungsinya terlebih dahulu. Tapi di R, ada fungsi do.call() yang prinsip kerjanya terbalik, jadi kita menyiapkan bahan atau datanya terlebih dahulu, setelah siap kita langsung menggunakan fungsi ini untuk melakukan penugasan tertentu pada data yang telah kita siapkan, misalkan untuk mentransformasi data, menggabungkan data, atau perintah lainnya. Untuk kali ini, kita men generate data secara manual saja untuk kemudahan praktikumnya. Kita dapat mengikuti  beberapa code berikut: Code : #Penerapan do.call # do.call hanya bisa diterapkan untuk data list #Membuat Data Frame df1 <- data.frame(tim=c('A', 'B', 'C'),                   point=c(22, 27, 38)

Visualisasi Matriks Korelasi dan Uji Signifikansi Korelasi antar Variabel dengan R

Visualisasi matriks korelasi dan uji signifikansi korelasi variabel Hai teman-teman, kembali lagi kita akan belajar bersama-sama. Kalau kemarin kita sedikit serius membahas bagaimana pemodelan ARIMA dengan menggunakan R secara cukup urut dan rinci, kali ini kita break dulu untuk membahas visualisasi data. Visualisasi yang akan kita ulas kali ini adalah hasil korelasi antar variabel yang kita gunakan dalam penelitian. Secara sederhana, korelasi sendiri merupakan besarnya hubungan keeratan antara suatu variabel dengan variabel lainnya yang ditunjukkan oleh besar dan arah. Mirip dengan pengertian besaran vektor yang juga ditunjukkan oleh besar dan arahnya, korelasi biasanya digunakan sebagai awalan deskripsi variabel penelitian untuk melihat seberapa besar keterkaitan antar variabel. Aspek yang perlu ditekankan sebagai pembeda antara korelasi dan regresi yaitu tujuannya. Kalau regresi menunjukkan hubungan sebab-akibat variabel yang digunakan, sedangkan kalau korelasi tidak menunjukkan se

Pemodelan Autoregressive Integrated Moving Average (ARIMA Model) dengan R

ARIMA dengan R Jumpa lagi teman-teman, sebelumnya saya mohon maaf karena kemarin tidak sempat membuat unggahan terbaru di blog ini. Baik, sebelumnya kita telah mengulas tentang pemodelan Geographically Weigthed Regression (GWR) dengan R. Kali ini, kita akan melanjutkan belajar bersama mengenai pemodelan yang tak asing lagi dan populer hingga kini, yaitu pemodelan Autoregressive Integrated Moving Average (ARIMA). Kita akan membahas ARIMA secara langsung tanpa membahas AR dan MA secara tersendiri mengingat pada dasarnya ARIMA adalah model perpaduan antara model AR dengan order p , MA dengan order q dan aspek differencing dengan order d . Artinya, ketika kita mendengar istilah AR(1), maka sebenarnya itu adalah ARIMA(1, 0, 0), ketika kita mendengar ARI(1,1), maka aslinya itu ARIMA(1, 1, 0), atau bila mendengar MA(3), itu sebenarnya ARIMA(0, 0, 3) atau IMA(2,1) sebenarnya adalah ARIMA(0, 2, 1). Data runtun waktu atau time series merupakan salah satu jenis data yang hingga kini banyak digun

Pemodelan Geographically Weigthed Regression (GWR Model) menggunakan R

Geographically Weigthed Regression (GWR) dengan R Halo teman-teman, kemarin kita telah sejenak break dari pemodelan dengan membahas fungsi sprintf() yang ada di R. Kali ini kita akan melanjutkan kembali pembahasan model-model statistik dengan R. Yang akan kita bahas kali ini adalah bagaimana menerapkan model Geographically Weigthed Regression atau biasa disingkat model GWR. GWR merupakan sebuah model alternatif bila di dalam pemodelan regresi linier (dalam parameter) kita terganggu oleh asumsi heteroskedastisitas spasial atau asumsi homoskedastisitas residual model tidak terpenuhi. Mengapa disebut heteroskedastisitas spasial? Ya karena di dalam data kita terdiri atas amatan-amatan lokasi yang masing-masing memiliki variabel pembobot spasial dan di dalam praktiknya masing-masing lokasi ini ditunjukkan oleh posisi astronomis longitute dan latitude . Kalau di model regresi Robust yang sebelumnya kita bahas, ia merupakan model alternatif bila residual modelnya terganggu asumsi normalitas d