Langsung ke konten utama

Natural Language Processing (NLP) Penerapan Stopwords Bahasa Indonesia dengan R: Topik Sepinya Jalur Pantura Akibat Adanya Tol Trans Jawa

Natural Language Processing : Stopwords Bahasa Indonesia dengan R Halo teman-teman, berjumpa lagi dengan blog sederhana ini. Pada pembahasan sebelumnya, kita telah bersama belajar penerapan stemming teks yang merupakan bagian dari Natural Language Processing (NLP) menggunakan R. Pada perjumpaan kali ini, kita akan melanjutkan perjuangan kita berbagi ilmu mengenai NLP, tepatnya adalah penerapan stopwords Bahasa Indonesia dengan R. Perlu diketahui bahwa di dalam NLP, untuk menambah keluasan dan mempertajam analisis teks, proses stemming teks saja belum cukup. Kita juga perlu membersihkan teks yang relatif atau mutlak tidak bermakna di dalam analisis teks. Biasanya teks yang dieliminasi dalam NLP merupakan kata penghubunga atau konjungsi, atau kata yang berupa ekspresi yang bercampur di dalam data teks, misalkan ekspresi tertawa "wkwk", ekspresi penolakan "gak, nggak, tidak, atau gk", bahasa asing (selain Indonesia), atau juga kata-kata yang tidak memenuhi kaidah ta

Shift Share Analysis dan Location Quotient (LQ) dengan R

Shift Share Analysis and Location Quotient (LQ) using R

Bertemu lagi teman-teman dengan blog sederhana, jokoding.com, pada unggahan sebelumnya kita telah belajar dan berbagi bersama bagaimana melakukan Exploratory Data Analysis (EDA) dengan menggunakan R. Pada unggahan kali ini, kita akan mencoba menerapkan salah satu analisis deskriptif yang cukup populer dalam dunia riset atau penelitian, khususnya penelitian ekonomi kewilayahan, yaitu Shift Share Analysis dan Location Quotient (LQ).

Seperti adat yang berlaku dalam blog ini, kita ulas terlebih dahulu mengenai teori alat analisis yang kita gunakan, setelah itu baru ke praktikumnya menggunakan R. Baik, kita akan urai terlebih dahulu secara teoritis apa itu Shift Share Analysis dan Location Quotient (LQ).

Shift Share Analysis (SS, SSA)

Shift Share Analysis atau yang biasa kita singkat SS atau SSA, merupakan salah satu alat analisis untuk mengetahui perbandingan kinerja ekonomi suatu wilayah dengan wilayah satu atau beberapa level di atasnya. Shift Share Analysis juga merupakan alat analisis untuk mengetahui perkembangan ekonomi suatu wilayah dengan faktor-faktor yang memengaruhinya. Ukuran ini selain mampu dimanfaatkan untuk melihat kontribusi kewilayahan (regional share) dan nasional (national share) terhadap perekonomian wilayah analisis, juga dapat digunakan untuk melihat transformasi struktur perekonomian suatu wilayah yang dianalisis dengan menjelaskan pertumbuhan setiap sektor atau lapangan usaha yang ada.

Dengan melihat faktor-faktor yang memengaruhi perekonomian, kontribusi setiap elemen, serta perubahan struktur ekonomi suatu  wilayah, kita akan bisa mengamati seberapa besar produktivitas setiap sektor atau  lapangan usaha atau subsektor di suatu wilayah dibandingkan sektor atau subsektor yang sama untuk wilayah lain yang menjadi referensi penghitungan.

Dalam Shift Share Analysis, setidaknya terdapat 4 komponen yang dihasilkan. Pertama adalah komponen kontribusi nasional (national share, Nij). Komponen ini menunjukkan peranan ekonomi nasional terhadap pertumbuhan ekonomi wilayah analisis. Komponen kedua adalah kontribusi sektoral (industry mix, Mij) yang menunjukkan kontribusi total Nilai Tambah Bruto (NTB) (Gross Value Added) wilayah analisis terhadap total NTB nasional. Komponen ketiga adalah kontribusi regional (regional share, Cij) yang menunjukkan peranan atau kontribusi perekonomian regional (provinsi) terhadap perekonomian wilayah analisis (level di bawah regional, misalnya kabupaten atau kota). Dan komponen terakhir yaitu total pertumbuhan (total growth, Dij) yang menunjukkan total pertumbuhan wilayah analisis yang dipengaruhi oleh ketiga komponen Shift Share.

Adapun kelemahan Shift Share Analysis ini adalah ketidakmampuannya melihat keterkaitan dan dampak antar sektor atau subsektor. Selain itu, analisis ini merupakan analisis yang bersifat ex-post yang tidak mampu mengungkap situasi dan kondisi di antara dua periode waktu analisis. 

Location Quotient (LQ)

Location Quotient (LQ) merupakan ukuran untuk melihat sektor atau lapangan usaha basis dan non-basis suatu wilayah (yang dianalisis) pada periode waktu tertentu. Dalam definisi lain, LQ merupakan ukuran untuk melihat keunggulan komparatif suatu sektor atau lapangan usaha wilayah (yang dianalisis). Suatu sektor atau lapangan usaha di sebuah wilayah (yang dianalisis) dikatakan merupakan sektor basis bila memiliki nilai LQ > 1, sedangkan sektor atau lapangan usaha dikatakan non-basis di wilayah (analisis) bila memiliki nilai LQ < 1.

Suatu sektor atau lapangan usaha dengan LQ > 1, misalkan sebesar 2,56, dapat kita terjemahkan sekitar 60,94 persen hasil produksi sektor atau lapangan usaha tertentu di wilayah (analisis) berpotensi diekspor ke wilayah lain dan sebesar 39,06 persen hasil produksi sektor atau lapangan usaha dapat dimanfaatkan untuk memenuhi kebutuhan atau permintaan di wilayah (analisis) itu sendiri. Demikian bila sebaliknya, bila nilai LQ < 1, misalkan 0,86, maka diterjemahkan sebagian besar (sekitar 83,72 persen) hasil produksi sektor atau lapangan usaha tertentu di wilayah (analisis) hanya mampu dimanfaatkan untuk memenuhi kebutuhan di wilayah (analisis) itu sendiri, dan hanya sekitar 16,28 persen saja yang berpotensi untuk diekspor ke wilayah lain.

Baik, itu sekilas bahasan mengenai teori Shift Share dan Location Quotient (LQ). Berikutnya, mari kita mempraktikkan bagaimana melakukan penghitungan SSA dan LQ menggunakan R. Data yang akan kita gunakan kali ini adalah data jumlah tenaga kerja menurut sektor di wilayah (analisis) Goettingen yang berada di Jerman (Germany), teman-teman dapat mengunduh terlebih dahulu pada tautan berikut. Setelah datanya diunduh, kita dapat melakukan penghitunagn SSA dan LQ dengan menggunakan beberapa code berikut:

Code:

#Install dan Aktivasi package
install.packages("REAT")
library(REAT)

#Import Data Goettingen
library(readxl)
Goettingen <- read_excel("C:/Users/Joko Ade/Downloads/Goettingen.xlsx")

#Melihat nama variabel
names(Goettingen)

#Melihat struktur data
str(Goettingen)

Hasil:

 [1] "WZ2008_Code"    "WZ2008_Name"    "Goettingen2008" "Goettingen2009" "Goettingen2010"
 [6] "Goettingen2011" "Goettingen2012" "Goettingen2013" "Goettingen2014" "Goettingen2015"
[11] "Goettingen2016" "Goettingen2017" "BRD2008"        "BRD2009"        "BRD2010"       
[16] "BRD2011"        "BRD2012"        "BRD2013"        "BRD2014"        "BRD2015"       
[21] "BRD2016"        "BRD2017"

tibble [16 x 22] (S3: tbl_df/tbl/data.frame)
 $ WZ2008_Code   : chr [1:16] "A-R" "A" "BDE" "C" ...
 $ WZ2008_Name   : chr [1:16] "A-R Insgesamt" "A Land- und Forstwirtschaft, Fischerei" "B+D+E Bergbau, Energie, Wasser" "C Verarbeitendes Gewerbe" ...
 $ Goettingen2008: num [1:16] 59125 44 446 9116 1611 ...
 $ Goettingen2009: num [1:16] 59201 39 466 8978 1562 ...
 $ Goettingen2010: num [1:16] 61524 45 452 9044 1575 ...
 $ Goettingen2011: num [1:16] 63538 48 458 8886 1575 ...
 $ Goettingen2012: num [1:16] 63643 47 484 8526 1506 ...
 $ Goettingen2013: num [1:16] 64351 45 508 8550 1522 ...
 $ Goettingen2014: num [1:16] 67212 41 495 8372 1308 ...
 $ Goettingen2015: num [1:16] 67137 43 490 8268 1192 ...
 $ Goettingen2016: num [1:16] 67818 41 475 7999 1356 ...
 $ Goettingen2017: num [1:16] 69403 45 466 7874 1334 ...
 $ BRD2008       : num [1:16] 27695398 215570 545874 6528569 1569359 ...
 $ BRD2009       : num [1:16] 27603281 218548 549648 6363086 1570440 ...
 $ BRD2010       : num [1:16] 27966601 220753 552291 6256701 1604017 ...
 $ BRD2011       : num [1:16] 28643583 226043 546277 6395463 1637168 ...
 $ BRD2012       : num [1:16] 29280034 231109 551263 6519169 1663477 ...
 $ BRD2013       : num [1:16] 29615680 236862 547782 6544148 1671811 ...
 $ BRD2014       : num [1:16] 30174505 244677 543076 6613194 1697305 ...
 $ BRD2015       : num [1:16] 30771297 247538 536566 6666275 1711831 ...
 $ BRD2016       : num [1:16] 31443318 246467 535808 6725261 1748807 ...
 $ BRD2017       : num [1:16] 32164973 248052 538768 6797172 1798954 ...

# A tibble: 6 x 22
  WZ2008_Code WZ2008_Name     Goettingen2008 Goettingen2009 Goettingen2010 Goettingen2011 Goettingen2012
  <chr>       <chr>                    <dbl>          <dbl>          <dbl>          <dbl>          <dbl>
1 A-R         A-R Insgesamt            59125          59201          61524          63538          63643
2 A           A Land- und Fo~             44             39             45             48             47
3 BDE         B+D+E Bergbau,~            446            466            452            458            484
4 C           C Verarbeitend~           9116           8978           9044           8886           8526
5 F           F Baugewerbe              1611           1562           1575           1575           1506
6 G           G Handel                  7092           7018           7020           7148           7168
# ... with 15 more variables: Goettingen2013 <dbl>, Goettingen2014 <dbl>, Goettingen2015 <dbl>,
#   Goettingen2016 <dbl>, Goettingen2017 <dbl>, BRD2008 <dbl>, BRD2009 <dbl>, BRD2010 <dbl>,
#   BRD2011 <dbl>, BRD2012 <dbl>, BRD2013 <dbl>, BRD2014 <dbl>, BRD2015 <dbl>, BRD2016 <dbl>,
#   BRD2017 <dbl>

Code:

#Mendapatkan nilai SS Menurut Tahun Berjalan

par(mfrow = c(3, 3), mar = c(3, 2, 2, 2))
warna <- c("#021c1e", "#004445", "#2c7873", "#6fb98f")
s1 <- shift(Goettingen2008, BRD2008, Goettingen2009,
            BRD2009, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2009 Terhadap 2008")
s2 <- shift(Goettingen2009, BRD2009, Goettingen2010,
            BRD2010, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2010 Terhadap 2009")
s3 <- shift(Goettingen2010, BRD2010, Goettingen2011,
            BRD2011, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2011 Terhadap 2010")
s4 <- shift(Goettingen2011, BRD2011, Goettingen2013,
            BRD2013, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2013 Terhadap 2011")
s5 <- shift(Goettingen2013, BRD2013, Goettingen2013,
            BRD2013, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2013 Terhadap 2013")
s6 <- shift(Goettingen2013, BRD2013, Goettingen2014,
            BRD2014, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2014 Terhadap 2013")
s7 <- shift(Goettingen2014, BRD2014, Goettingen2015,
            BRD2015, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2015 Terhadap 2014")
s8 <- shift(Goettingen2015, BRD2015, Goettingen2016,
            BRD2016, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2016 Terhadap 2015")
s9 <- shift(Goettingen2016, BRD2016, Goettingen2017,
            BRD2017, shift.method = "Dunn", print.results = TRUE, plot.results = T,
            plot.colours = warna, plot.title = "Shift Share 2017 Terhadap 2016")

Hasil:

Plot Shift Share Analysis

Shift-Share Analysis
Method: Dunn

Shift-share components
                Components
Growth (t1-t)   55274799.0
National share  54940106.1
Industrial mix    221143.5
Regional share    113549.5
Net total shift   334692.9

Calculation for 16 industries
Regional employment at time t: 115997, at time t+1: 55390796 (55274799 / 47651.92 %)
National employment at time t: 116314, at time t+1: 55206562 (55090248 / 47363.39 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                Components
Growth (t1-t)   55090248.0
National share  53630315.0
Industrial mix    308300.9
Regional share   1151632.0
Net total shift  1459933.0

Calculation for 16 industries
Regional employment at time t: 116314, at time t+1: 55206562 (55090248 / 47363.39 %)
National employment at time t: 121046, at time t+1: 55933202 (55812156 / 46108.22 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                Components
Growth (t1-t)   55812156.0
National share  55324737.0
Industrial mix    203686.5
Regional share    283732.5
Net total shift   487419.0

Calculation for 16 industries
Regional employment at time t: 121046, at time t+1: 55933202 (55812156 / 46108.22 %)
National employment at time t: 125066, at time t+1: 57287166 (57162100 / 45705.55 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                Components
Growth (t1-t)   57162100.0
National share  58305977.5
Industrial mix    129212.5
Regional share  -1273090.0
Net total shift -1143877.5

Calculation for 16 industries
Regional employment at time t: 125066, at time t+1: 57287166 (57162100 / 45705.55 %)
National employment at time t: 126779, at time t+1: 59231360 (59104581 / 46620.17 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                Components
Growth (t1-t)     59104581
National share    59104581
Industrial mix           0
Regional share           0
Net total shift          0

Calculation for 16 industries
Regional employment at time t: 126779, at time t+1: 59231360 (59104581 / 46620.17 %)
National employment at time t: 126779, at time t+1: 59231360 (59104581 / 46620.17 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                Components
Growth (t1-t)   59104581.0
National share  57609548.2
Industrial mix    749458.4
Regional share    745574.4
Net total shift  1495032.8

Calculation for 16 industries
Regional employment at time t: 126779, at time t+1: 59231360 (59104581 / 46620.17 %)
National employment at time t: 132516, at time t+1: 60349010 (60216494 / 45440.92 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                 Components
Growth (t1-t)   60216494.00
National share  61566985.33
Industrial mix     48954.58
Regional share  -1399445.91
Net total shift -1350491.33

Calculation for 16 industries
Regional employment at time t: 132516, at time t+1: 60349010 (60216494 / 45440.92 %)
National employment at time t: 132179, at time t+1: 61542594 (61410415 / 46460.04 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                 Components
Growth (t1-t)   61410415.00
National share  62077664.51
Industrial mix     89029.51
Regional share   -756279.02
Net total shift  -667249.51

Calculation for 16 industries
Regional employment at time t: 132179, at time t+1: 61542594 (61410415 / 46460.04 %)
National employment at time t: 133617, at time t+1: 62886636 (62753019 / 46964.85 %)

Shift-Share Analysis
Method: Dunn

Shift-share components
                  Components
Growth (t1-t)   62753019.000
National share  62751933.786
Industrial mix    179223.349
Regional share   -178138.135
Net total shift     1085.214


Calculation for 16 industries
Regional employment at time t: 133617, at time t+1: 62886636 (62753019 / 46964.85 %)
National employment at time t: 136686, at time t+1: 64329946 (64193260 / 46964.03 %)

Dari hasil SS (warna background hijau), kita dapatkan bahwa perekonomian nasional Jerman berkontribusi terhadap perekonomian kota Goettingan sebesar 62751933,786 (satuan). Total nilai tambah tenaga kerja wilayah Goettingan terhadap nilai tambah tenaga kerja Jerman adalah sebesar 179223,349 (satuan). Namun sayangnya, kontribusi nilai tambah ekonomi dari tenaga kerja regional terhadap wilayah Goettingan minus 178138,135 (satuan). Kendati demikian, pertumbuhan sebagai efek perubahan struktur ketenagakerjaan di wilayah Goettingan positif sebesar 1085,214 (satuan).

Code:

#Menghitung nilai Location Quotient (LQ) Setiap Tahun menurut Industri
par(mfrow = c(5, 2), mar = c(3, 2, 2, 2))
lq1 <- locq(Goettingen$Goettingen2008[2:16], Goettingen$Goettingen2008[1],
     Goettingen$BRD2008[2:16], Goettingen$BRD2008[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2008",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq2 <- locq(Goettingen$Goettingen2009[2:16], Goettingen$Goettingen2009[1],
     Goettingen$BRD2009[2:16], Goettingen$BRD2009[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2009",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq3 <- -locq(Goettingen$Goettingen2010[2:16], Goettingen$Goettingen2010[1],
     Goettingen$BRD2010[2:16], Goettingen$BRD2010[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2010",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq4 <- locq(Goettingen$Goettingen2011[2:16], Goettingen$Goettingen2011[1],
     Goettingen$BRD2011[2:16], Goettingen$BRD2011[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2011",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq5 <- locq(Goettingen$Goettingen2012[2:16], Goettingen$Goettingen2012[1],
     Goettingen$BRD2012[2:16], Goettingen$BRD2012[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2012",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq6 <- locq(Goettingen$Goettingen2013[2:16], Goettingen$Goettingen2013[1],
     Goettingen$BRD2013[2:16], Goettingen$BRD2013[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2013",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq7 <- locq(Goettingen$Goettingen2014[2:16], Goettingen$Goettingen2014[1],
     Goettingen$BRD2014[2:16], Goettingen$BRD2014[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2014",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq8 <- locq(Goettingen$Goettingen2015[2:16], Goettingen$Goettingen2015[1],
     Goettingen$BRD2015[2:16], Goettingen$BRD2015[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2015",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq9 <- locq(Goettingen$Goettingen2016[2:16], Goettingen$Goettingen2016[1],
     Goettingen$BRD2016[2:16], Goettingen$BRD2016[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2016",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

lq10 <- locq(Goettingen$Goettingen2017[2:16], Goettingen$Goettingen2017[1],
     Goettingen$BRD2017[2:16], Goettingen$BRD2017[1], plot.results = TRUE,
     LQ.method = "m", plot.title = "LQ 2017",
     bar.col = "lightblue", line.col = "red", arg.size = 1)

Hasil:

Barplot Location Quotient (LQ) Goettingen Tahun 2017

Location quotients
I = 15 industries

           LQ
1  0.08407652
2  0.40085663
3  0.53687366
4  0.34366928
5  0.74603541
6  0.67117311
7  0.98141916
8  0.91654277
9  0.82650178
10 1.53027645
11 0.95843423
12 1.03509027
13 2.77790858
14 1.67459967
15 0.35317012

Untuk LQ 2017, terlihat terdapat 3 sektor basis di wilayah Goettingen dan 1 wilayah yang belum sepenuhnya menjadi sektor basis (sektor 12), sedangkan sektor lainnya merupakan sektor non-basis

Demikian sekilas belajar dan berbagi kita mengenai Shift Share Analysis dan Location Quotient (LQ) menggunakan R. Terus ikuti unggahan berikutnya dalam selamat mempraktikan!

Komentar

Postingan populer dari blog ini

Pemodelan Autoregressive Integrated Moving Average (ARIMA Model) dengan R

ARIMA dengan R Jumpa lagi teman-teman, sebelumnya saya mohon maaf karena kemarin tidak sempat membuat unggahan terbaru di blog ini. Baik, sebelumnya kita telah mengulas tentang pemodelan Geographically Weigthed Regression (GWR) dengan R. Kali ini, kita akan melanjutkan belajar bersama mengenai pemodelan yang tak asing lagi dan populer hingga kini, yaitu pemodelan Autoregressive Integrated Moving Average (ARIMA). Kita akan membahas ARIMA secara langsung tanpa membahas AR dan MA secara tersendiri mengingat pada dasarnya ARIMA adalah model perpaduan antara model AR dengan order p , MA dengan order q dan aspek differencing dengan order d . Artinya, ketika kita mendengar istilah AR(1), maka sebenarnya itu adalah ARIMA(1, 0, 0), ketika kita mendengar ARI(1,1), maka aslinya itu ARIMA(1, 1, 0), atau bila mendengar MA(3), itu sebenarnya ARIMA(0, 0, 3) atau IMA(2,1) sebenarnya adalah ARIMA(0, 2, 1). Data runtun waktu atau time series merupakan salah satu jenis data yang hingga kini banyak digun

Machine Learning: Memahami Reinforcement Learning

Reinforcement Learning Halo teman-teman, pada pembahasan sebelumnya, kita telah berusaha memahami mengenai supervised learning dan unsupervised learning . Sebelum lanjut ke pemodelan statistik selanjutnya, ada baiknya kita membahas tentang satu lagi jenis algoritma machine learning yang akhir-akhir ini banyak digunakan dalam membentuk artificial intelligence (AI), yaitu algoritma reinforcement learning . Kita ke pengertian berdasarkan studi literatur daring ( online ) dulu teman-teman. Saya coba mengambil salah satu pengertian reinforcement learning, misalkan dari situsnya Algoritma, menyatakan bahwa reinforcement learning merupakan algoritma yang diterapkan untuk pembelajaran mesin ( machine learning ) sedemikian rupa sehingga dapat menentukan aksi yang tepat dan pada akhirnya sebuah program dapat bekerja secara otomatis memberikan hasil atau putusan yang benar. Lebih lanjut dalam situs algoritma mengangkat sebuah perumpamaan reinforcement learning dengan menggunakan proses penugasan

Machine Learning: Perbedaan Supervised Learning dan Unsupervised Learning

Perbedaan supervised learning dan unsupervised learning Halo teman-teman, kemarin kita telah mengawali bahasan mengenai salah satu anggota dari Machine Learning sekaligus merupakan contoh dari algoritma supervised learning , yaitu Naive Bayes Classifier (NBC). Akhir-akhir ini, dunia sains data dihebohkan dengan berbagai istilah statistik yang berkaitan erat dengan komputasi atau komputasi statistik, yaitu supervised learning dan unsupervised learning . Sebenarnya ada lagi istilah baru dan cukup makin sulit menyederhanakan definisinya, yaitu reinforcement learning , tapi khusus reinforcement learning nanti akan kita bahas tersendiri karena kita mulai bersinggungan dengan Artificial Intelligence atau kecerdasan buatan. Jujur, saya mengakui bahwa tidak semua dari kita memiliki latar belakang apalagi pakar teknologi informasi (IT). Sehingga, bila kita cermati bahasan-bahasan atau istilah komputasi statistik, sains data, atau data engineering , kita mungkin akan sejenak loading , bahkan s