Langsung ke konten utama

Postingan

Menampilkan postingan dari Mei, 2022

Natural Language Processing (NLP) Penerapan Stopwords Bahasa Indonesia dengan R: Topik Sepinya Jalur Pantura Akibat Adanya Tol Trans Jawa

Natural Language Processing : Stopwords Bahasa Indonesia dengan R Halo teman-teman, berjumpa lagi dengan blog sederhana ini. Pada pembahasan sebelumnya, kita telah bersama belajar penerapan stemming teks yang merupakan bagian dari Natural Language Processing (NLP) menggunakan R. Pada perjumpaan kali ini, kita akan melanjutkan perjuangan kita berbagi ilmu mengenai NLP, tepatnya adalah penerapan stopwords Bahasa Indonesia dengan R. Perlu diketahui bahwa di dalam NLP, untuk menambah keluasan dan mempertajam analisis teks, proses stemming teks saja belum cukup. Kita juga perlu membersihkan teks yang relatif atau mutlak tidak bermakna di dalam analisis teks. Biasanya teks yang dieliminasi dalam NLP merupakan kata penghubunga atau konjungsi, atau kata yang berupa ekspresi yang bercampur di dalam data teks, misalkan ekspresi tertawa "wkwk", ekspresi penolakan "gak, nggak, tidak, atau gk", bahasa asing (selain Indonesia), atau juga kata-kata yang tidak memenuhi kaidah ta

Unsupervised Learning: Fuzzy C Means Clustering dengan R

Fuzzy C Means Clustering dengan R Halo teman-teman, jumpa lagi dengan blog sederhana ini. Kemarin kita telah merampungkan sedikit ulasan mengenai K Means Clustering dan praktiknya menggunakan R. Kali ini kita akan melanjutkan pembahasan kita terkait machine learning yang akhir-akhir ini booming dalam dunia data science dan big data , yaitu unsupervised learning : Fuzzy C Means Clustering . Mungkin sebagian dari kita ada yang telah paham mengenai bentuk pengklasteran satu ini. Tapi khusus bagi saya sendiri yang masih belajar ini, awalnya saya bingung juga Fuzzy C Means Clustering ini mahluk apa dan seperti apa dia. Baik, kita akan coba ulas secara perlahan bersama-sama. Jadi, di dalam clustering terdapat 2 jenis clustering yang kita akan kenal, yaitu hard clustering dan soft clustering . Hard clustering merupakan teknik pengklasteran yang menggunakan nilai atau skor biner (Anggota cluster : 1, Bukan anggota cluster : 0) sebagai dasar pengelompokan keanggotaan setiap amatan. Dengan peng