Langsung ke konten utama

Natural Language Processing (NLP) Penerapan Stopwords Bahasa Indonesia dengan R: Topik Sepinya Jalur Pantura Akibat Adanya Tol Trans Jawa

Natural Language Processing : Stopwords Bahasa Indonesia dengan R Halo teman-teman, berjumpa lagi dengan blog sederhana ini. Pada pembahasan sebelumnya, kita telah bersama belajar penerapan stemming teks yang merupakan bagian dari Natural Language Processing (NLP) menggunakan R. Pada perjumpaan kali ini, kita akan melanjutkan perjuangan kita berbagi ilmu mengenai NLP, tepatnya adalah penerapan stopwords Bahasa Indonesia dengan R. Perlu diketahui bahwa di dalam NLP, untuk menambah keluasan dan mempertajam analisis teks, proses stemming teks saja belum cukup. Kita juga perlu membersihkan teks yang relatif atau mutlak tidak bermakna di dalam analisis teks. Biasanya teks yang dieliminasi dalam NLP merupakan kata penghubunga atau konjungsi, atau kata yang berupa ekspresi yang bercampur di dalam data teks, misalkan ekspresi tertawa "wkwk", ekspresi penolakan "gak, nggak, tidak, atau gk", bahasa asing (selain Indonesia), atau juga kata-kata yang tidak memenuhi kaidah ta

Machine Learning: K Nearest Neighbor (KNN) dengan R untuk Mendeteksi Fraud Kartu Kredit (Credit Card Fraud)

K Nearest Neighbor (KNN)

Halo teman-teman, berjumpa lagi dengan situs belajar dan berbagi jokoding.com. Setelah kita kemarin mengula bersama mengenai salah satu model dalam machine learning berjenis supervised learning, yaitu support vector machine (SVM), kita akan lanjut membahas mengenai model machine learning lain yang diistilahkan dengan K Nearest Neighbor (KNN model).

K Nearest Neighbor (KNN) merupakan salah satu model machine learning yang berjenis supervised learning yang biasanya digunakan dalam pengklasifikasian dan regresi. Mirip dengan algoritma SVM, hanya saja di dalam KNN ini prinsip dasar yang kita gunakan dalam mengklasifikasikan data berfokus pada sebuah amatan baru berdasarkan kemiripan menurut ukuran jarak atau kita istilahkan dengan distance similarity.

Misalkan kita memiliki sekumpulan data yang awalnya telah terkelompokkan dalam dua kelas dan satu atau beberapa amatan baru yang belum terklasifikasikan ke kelas mana. Maka, berdasarkan pencirian dua kelas tersebut, kita kemudian mencari satu atau beberapa amatan yang memiliki ciri terdekat dengan amatan baru yang berasal dari kedua kelas itu. Kemudian kita hitung kedekatannya menurut jarak, bisa jarak euclidian, jarak Manhattan (Manhattan distance), jarak Hamming, jarak Minkowski, atau bisa jadi rumus jarak yang lain, kemudian kita tentukan amatan baru tersebut masuk ke kelas mana. Untuk lebih memperdalam pemahaman, kita coba dengan visualisasi dengan kasus misalkan klasifikasi foto anjing dan kucing.

Terdapat data baru (warna kuning) untuk diklasifikasikan

Sebuah foto diketahui belum dapat diidentifikasikan apakah foto tersebut merupakan foto anjing atau kucing. Tetapi, kita sebelumnya telah memiliki sejumlah foto anjing (bulatan biru tua) dan foto kucing (bulatan biru muda) di atas. Masing-masing amatan (bulatan) mengandung data ciri-ciri spesifik mengenai anjing dan kucing.

Dalam algoritma KNN, kita kemudian menentukan beberapa amatan yang kemungkinan merupakan amatan terdekat dengan data foto yang belum teridentifikasi tadi. Misalkan kita memiliki sebanyak 6 tetangga terdekat baik dari foto yang mencirikan anjing maupun kucing. Pemilihan tetangga sebanyak 6 inilah yang dinotasikan sebagai K - 6 sekaligus menjadi dasar penamaan K Nearest Neighbor (KNN).

Dimisalkan kita memilik 6 amatan tetangga terdekat amatan baru
Setelah menentukan tetangga, kita kemudian menentukan jarak setiap tetangga terdekat tadi terhadap amatan atau foto belum teridentifikasi apakah dia merupakan foto anjing atau kucing. Metode penentuan jarak ini bermacam-macam sebagaimana keterangan sebelumnya, namun dalam kasus kita ini misalkan menggunakan jarak euclidian dan kita notasikan sebagai d. Setelah kita hitung seluruh d dari kedua kelompok amatan yang mencirikan foto anjing dan kucing, berikutnya adalah menentukan kesamaan data foto belum teridentifikasi tadi masuk ke kelompok foto anjing dan kucing.

Caranya adalah kita mencari tahu, kelompok mana yang nilai d nya paling banyak yang dekat dengan amatan atau foto belum teridentifikasi. Bila dari penghitungan foto belum teridentifikasi ternyata paling paling banyak dekat dengan foto kucing, maka foto belum teridentifikasi itu masuk kelompok foto kucing. Begitu pula bila ternyata sebaliknya.

Proses KNN dalam menentukan klasifikasi terhadap data baru

Itu sekilas mengenai teori dasar dalam memahami algoritma KNN. Berikutnya kita akan mencoba melakukan pemodelan KNN dengan menggunakan R. Adapun kasus yang kita angkat dalam praktikum kali ini adalah fraud kartu kredit (credit card fraud). Pengertian dasar fraud sendiri banyak kita dapatkan di internet, intinya fraud ini merupakan bentuk ketidaknormalan, penyimpangan, atau bahkan yang lebih ekstrem, yaitu tindak penipuan atau kecurangan. Credit card fraud ini merupakan tindak penipuan yang menggunakan atau berkedok kartu kredit oleh oknum tidak bertanggungjawab demi meraup keuntungan pribadi. Data credit card fraud ini saya peroleh dari situs Kaggle kemudian untuk mempersingkat lama pemodelan, kita pangkas hanya 1.000 amatan saja mengingat dalam proses klasifikasi KNN ini butuh waktu yang lama tergantung dengan dimensi data yang digunakan. Teman-teman dapat mengunduh datanya terlebih dulu pada tautan berikut. Setelah itu, pemodelan KNN dapat mengikuti beberapa code berikut:

Code:

#Install dan aktivasi package
install.packages("kknn")
install.packages("caret")
library(kknn)
library(caret)

#Import  Data
library(readxl)
fraud <- read_excel("C:/Users/Joko Ade/Downloads/fraud.xlsx")
dataku <- fraud[-1]
attach(dataku)

#Mengubah Class bertipe factor
dataku$Class <- as.factor(dataku$Class)

#Melihat Struktur Data
str(dataku)

Hasil:

tibble [1,000 x 30] (S3: tbl_df/tbl/data.frame)
 $ V1    : num [1:1000] -1.36e+13 1.19e+14 -1.36e+14 -9.66e-01 -1.16e+14 ...
 $ V2    : num [1:1000] -7.28e-02 2.66e-01 -1.34e+14 -1.85e-01 8.78e-01 ...
 $ V3    : num [1:1000] 2.54e+14 1.66e-01 1.77e+14 1.79e+14 1.55e+12 ...
 $ V4    : num [1:1000] 1.38e+14 4.48e-01 3.80e-01 -8.63e-01 4.03e-01 ...
 $ V5    : num [1:1000] -0.3383 0.06 -0.5032 -0.0103 -0.4072 ...
 $ V6    : num [1:1000] 4.62e-01 -8.24e-02 1.80e+14 1.25e+14 9.59e-02 ...
 $ V7    : num [1:1000] 0.2396 -0.0788 0.7915 0.2376 0.5929 ...
 $ V8    : num [1:1000] 0.0987 0.0851 0.2477 0.3774 -0.2705 ...
 $ V9    : num [1:1000] 3.64e-01 -2.55e-01 -1.51e+14 -1.39e+14 8.18e-01 ...
 $ V10   : num [1:1000] 0.0908 -0.167 0.2076 -0.055 0.7531 ...
 $ V11   : num [1:1000] -5.52e-01 1.61e+14 6.25e-01 -2.26e-01 -8.23e-01 ...
 $ V12   : num [1:1000] -6.18e-01 1.07e+14 6.61e-02 1.78e-01 5.38e-01 ...
 $ V13   : num [1:1000] -9.91e-01 4.89e-01 7.17e-01 5.08e-01 1.35e+13 ...
 $ V14   : num [1:1000] -3.11e-01 -1.44e-01 -1.66e-01 -2.88e-01 -1.12e+14 ...
 $ V15   : num [1:1000] 1.47e+14 6.36e-01 2.35e+14 -6.31e-01 1.75e-01 ...
 $ V16   : num [1:1000] -4.70e-01 4.64e-01 -2.89e+14 -1.06e+13 -4.51e-01 ...
 $ V17   : num [1:1000] 2.08e-01 -1.15e-01 1.11e+14 -6.84e-01 -2.37e-01 ...
 $ V18   : num [1:1000] 2.58e-02 -1.83e-01 -1.21e-01 1.97e+14 -3.82e-02 ...
 $ V19   : num [1:1000] 4.04e-01 -1.46e-01 -2.26e+14 -1.23e+13 8.03e-01 ...
 $ V20   : num [1:1000] 0.2514 -0.0691 0.525 -0.208 0.4085 ...
 $ V21   : num [1:1000] -0.01831 -0.22578 0.248 -0.1083 -0.00943 ...
 $ V22   : num [1:1000] 0.27784 -0.63867 0.77168 0.00527 0.79828 ...
 $ V23   : num [1:1000] -0.11 0.101 0.909 -0.19 -0.137 ...
 $ V24   : num [1:1000] 6.69e-02 -3.40e-01 -6.89e-01 -1.18e+14 1.41e-01 ...
 $ V25   : num [1:1000] 0.129 0.167 -0.328 0.647 -0.206 ...
 $ V26   : num [1:1000] -0.189 0.126 -0.139 -0.222 0.502 ...
 $ V27   : num [1:1000] 0.13356 -0.00898 -0.05535 0.06272 0.21942 ...
 $ V28   : num [1:1000] -0.0211 0.0147 -0.0598 0.0615 0.2152 ...
 $ Amount: num [1:1000] 149.62 2.69 378.66 123.5 69.99 ...
 $ Class : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...

Code:

#Membuat matriks korelasi
knnku <- dataku[,-c(1,30)]
corr_knn <- cor(knnku)

#Mengurangi dimensi dari matriks korelasi
library(reshape2)
melt_corr <- melt(corr_knn)

#Membuat Visualisasi Matriks Korelasi Multi Variabel
#ggplot() untuk memformat template visualisasi
#geom_text() untuk menampilkan nilai dalam hal ini korelasi
library(ggplot2)
ggplot(data = melt_corr, aes(x=Var1, y = Var2, fill = value)) +
  geom_tile(aes(fill = value), colour = "white") +
  scale_fill_gradient(low = "white", high = "steelblue") +
  geom_text(aes(Var2, Var1, label = round(value,2)), size = 1.5)

Hasil:

Matrik korelasi variabel independen

Code:

#Partisi Data
inTrain <- createDataPartition(y=dataku$Class, p = 0.80, list = F)
train <- dataku[inTrain,]
test <- dataku[-inTrain,]

#Pemodelan K Nearest Neighbor
#kmax bisa diatur sesuai kemungkinan
kn <- train.kknn(Class~., data = train, kmax = 10)

#Ringkasan Model KNN
kn

Hasil:

Call:
train.kknn(formula = Class ~ ., data = train, kmax = 10)

Type of response variable: nominal
Minimal misclassification: 0.002496879
Best kernel: optimal
Best k: 6

Terlihat bahwa dari K mulai 1 sampai Kmax 10, nilai K terbaik adalah sebesar 6, jadi jumlah tetangga terbaik terhadap amatan baru sebanyak 6 dari masing-masing kelompok

Code:

#Plot Model KNN dengan k terbaik 6
plot(kn)
text(6, 0.00255, c("Nilai K terbaik"), col = "red")


Hasil:

Plot mendapatkan K terbaik, K = 6 memiliki kecuraman tajam terhadap K = 1,2,3,4,5

Code:

#Prediksi dengan Train
p4 <- predict(kn, train)
head(train$Class)
head(p4)

#Akurasi Prediksi train
confusionMatrix(p4, train$Class, mode = "everything")

Hasil:

Confusion Matrix and Statistics

          Reference
Prediction   0   1
         0 799   2
         1   0   0
                                         
               Accuracy : 0.9975         
                 95% CI : (0.991, 0.9997)
    No Information Rate : 0.9975         
    P-Value [Acc > NIR] : 0.6767         
                                         
                  Kappa : 0              
                                         
 Mcnemar's Test P-Value : 0.4795         
                                         
            Sensitivity : 1.0000         
            Specificity : 0.0000         
         Pos Pred Value : 0.9975         
         Neg Pred Value :    NaN         
              Precision : 0.9975         
                 Recall : 1.0000         
                     F1 : 0.9988         
             Prevalence : 0.9975         
         Detection Rate : 0.9975         
   Detection Prevalence : 1.0000         
      Balanced Accuracy : 0.5000         
                                         
       'Positive' Class : 0

Terdapat misklasifikasi sebanyak 2 amatan

Akurasi model KNN dengan train dataset 99,75 persen. Hasil ini sangat baik.

Code:

#Prediksi dengan Test
predtestknn <- predict(kn, test)

#Akurasi prediksi Test
confusionMatrix(predtestknn, test$Class, mode = "everything")

Hasil:

Confusion Matrix and Statistics

          Reference
Prediction   0   1
         0 199   0
         1   0   0

Terlihat pada tabel korkondansi tidak ada yang salah klasifikasi (misclassification)
                                     
               Accuracy : 1          
                 95% CI : (0.9816, 1)
    No Information Rate : 1          
    P-Value [Acc > NIR] : 1          
                                     
                  Kappa : NaN        
                                     
 Mcnemar's Test P-Value : NA         
                                     
            Sensitivity :  1         
            Specificity : NA         
         Pos Pred Value : NA         
         Neg Pred Value : NA         
              Precision :  1         
                 Recall :  1         
                     F1 :  1         
             Prevalence :  1         
         Detection Rate :  1         
   Detection Prevalence :  1         
      Balanced Accuracy : NA         
                                     
       'Positive' Class : 0

Terlihat pada test dataset diperoleh akurasi 100 persen. Sebuah hasil yang sangat baik.

Demikian sekilas pembahasan kita mengenai K Nearest Neighbor (KNN) dengan R. Ikuti terus unggahan selanjutnya, selamat memahami dan mempraktikkan!.

Komentar

Postingan populer dari blog ini

Pemodelan Autoregressive Integrated Moving Average (ARIMA Model) dengan R

ARIMA dengan R Jumpa lagi teman-teman, sebelumnya saya mohon maaf karena kemarin tidak sempat membuat unggahan terbaru di blog ini. Baik, sebelumnya kita telah mengulas tentang pemodelan Geographically Weigthed Regression (GWR) dengan R. Kali ini, kita akan melanjutkan belajar bersama mengenai pemodelan yang tak asing lagi dan populer hingga kini, yaitu pemodelan Autoregressive Integrated Moving Average (ARIMA). Kita akan membahas ARIMA secara langsung tanpa membahas AR dan MA secara tersendiri mengingat pada dasarnya ARIMA adalah model perpaduan antara model AR dengan order p , MA dengan order q dan aspek differencing dengan order d . Artinya, ketika kita mendengar istilah AR(1), maka sebenarnya itu adalah ARIMA(1, 0, 0), ketika kita mendengar ARI(1,1), maka aslinya itu ARIMA(1, 1, 0), atau bila mendengar MA(3), itu sebenarnya ARIMA(0, 0, 3) atau IMA(2,1) sebenarnya adalah ARIMA(0, 2, 1). Data runtun waktu atau time series merupakan salah satu jenis data yang hingga kini banyak digun

Machine Learning: Memahami Reinforcement Learning

Reinforcement Learning Halo teman-teman, pada pembahasan sebelumnya, kita telah berusaha memahami mengenai supervised learning dan unsupervised learning . Sebelum lanjut ke pemodelan statistik selanjutnya, ada baiknya kita membahas tentang satu lagi jenis algoritma machine learning yang akhir-akhir ini banyak digunakan dalam membentuk artificial intelligence (AI), yaitu algoritma reinforcement learning . Kita ke pengertian berdasarkan studi literatur daring ( online ) dulu teman-teman. Saya coba mengambil salah satu pengertian reinforcement learning, misalkan dari situsnya Algoritma, menyatakan bahwa reinforcement learning merupakan algoritma yang diterapkan untuk pembelajaran mesin ( machine learning ) sedemikian rupa sehingga dapat menentukan aksi yang tepat dan pada akhirnya sebuah program dapat bekerja secara otomatis memberikan hasil atau putusan yang benar. Lebih lanjut dalam situs algoritma mengangkat sebuah perumpamaan reinforcement learning dengan menggunakan proses penugasan

Machine Learning: Perbedaan Supervised Learning dan Unsupervised Learning

Perbedaan supervised learning dan unsupervised learning Halo teman-teman, kemarin kita telah mengawali bahasan mengenai salah satu anggota dari Machine Learning sekaligus merupakan contoh dari algoritma supervised learning , yaitu Naive Bayes Classifier (NBC). Akhir-akhir ini, dunia sains data dihebohkan dengan berbagai istilah statistik yang berkaitan erat dengan komputasi atau komputasi statistik, yaitu supervised learning dan unsupervised learning . Sebenarnya ada lagi istilah baru dan cukup makin sulit menyederhanakan definisinya, yaitu reinforcement learning , tapi khusus reinforcement learning nanti akan kita bahas tersendiri karena kita mulai bersinggungan dengan Artificial Intelligence atau kecerdasan buatan. Jujur, saya mengakui bahwa tidak semua dari kita memiliki latar belakang apalagi pakar teknologi informasi (IT). Sehingga, bila kita cermati bahasan-bahasan atau istilah komputasi statistik, sains data, atau data engineering , kita mungkin akan sejenak loading , bahkan s