Langsung ke konten utama

Web Scraping dengan Python

Web Scraping dengan Python

Berjumlah kembali dengan blog sederhana ini. Pada unggahan kali ini, kita akan belajar bersama mengenai teknik paling dasar melakukan web scraping menggunakan Python.

Seperti yang telah kita tahu, bahwa salah satu cara untuk memperoleh data yang bisa kita gunakan dalam riset atau penelitian saat ini tidak hanya dari survei atau sensus, tetapi juga dari internet. Kehadiran internet yang menyediakan beragam data dan informasi sangat potensial menjadi lahan sumber data baru untuk kebermanfaatan atau kebaikan.

Di internet banyak kita jumpai situs-situs yang menarik dan bisa dieksplorasi secara mendalam untuk meningkatkan manfaat dan mengembangkan ilmu pengetahuan. Untuk memperoleh data dan informasi dari internet, kita biasa menggunakan teknik perambaan atau web scraping baik dengan tujuan menambang data (data mining) maupun menambang teks (text mining).

Dalam kesempatan ini, situs yang menjadi target web scraping kita adalah situs kumpulan quote dengan alamat URL https://quotes.toscrape.com/, sebuah situs yang menyediakan kumpulan quote dari para pakar dan ahli ilmu pengetahuan dan teknologi. Berikuta sekilas tampilan laman depan situs tersebut:

Situs kumpulan quote

Dari situs ini, kita akan mencoba memperoleh 2 data, yaitu data teks quote itu sendiri serta data author dari setiap quote. Kemudian dari hasil web scraping, kita coba eksplorasi sedikit untuk dianalisis sehingga memperkaya informasi atau insight.

Namun, sebelum itu, ada pertanyaan besar yang selama ini viral didiskusikan, apakah web scraping adalah aktivitas ilegal?

Jawaban dari pertanyaan ini masih debatable. Namun, dari sudut pandang saya sendiri, selama aktivitas web scraping ini tidak bertujuan untuk merugikan pihak lain dan selama data yang discrape adalah data-data yang bersifat public (data umum dan secara bebas disebarkan), maka it's ok. Berbeda bila aktivitas hacking yang kita lakukan seperti hijacking atau melakukan pencurian data yang bersifat rahasia dan merugikan pihak lain, maka ini sungguh dilarang dan tidak diperbolehkan.

Baik, untuk melakukan web scraping dengan Python, ada beberapa tahapan yang harus dilalui, yaitu:

1. Menyiapkan web scraper, dalam unggahan ini kita coba menggunakan scrapy;

2. Menjelajahi situs target dengan menggunakan fungsi inspect element pada Mozila atau Chrome;

3. Menjalankan web scraper berdasarkan node hasil inspect element situs yang mengandung data atau informasi yang kita butuhkan;

4. Konversi ke dalam dataframe;

5. Analisis data.

Untuk mengimplementasikan web scraping dengan Python, langkah-langkahnya adalah sebagai berikut:


Untitled

Dari hasil visualisasi di atas, pada wordcloud terlihat bahwa kata paling banyak digunakan dalam quote pada ahli adalah kata "thingking", "though", "ways", dan "miracle". Pada intinya, kesemua quote yang diberikan pada ahli sebagai wejangan bagi kita adalah untuk selalu berpikir dan menjadi pemikir untuk menemukan jalan keluar dari berbagai permasalahan dalam kehidupan. Sebab, hal itu merupakan bentuk usaha yang boleh jadi menciptakan keajaiban-keajaiban dan anugerah dari Yang Maha Esa.

Berdasarkan bar plot atau bar chart, terlihat bahwa jumlah kata yang dipakai oleh para ahli atau ilmuwan dalam quote-nya paling banyak adalah quote Albert Einstein diikuti Jane Austen, Andre Gide, dan Eleanor Roosevelt. Hasil ini memungkinkan kita untuk meneliti lebih lanjut mengenai korelasi antara jumlah penguasaan kosakata dengan inteligensi seseorang, misalkan berdasarkan jumlah tulisannya atau aspek lainnya.

Demikian sedikit sharing kali ini, semoga sedikit banyak bermanfaat bagi pembaca. Jangan lupa untuk terus mengikuti, menyimak, dan mempraktikkan setiap unggahan menarik, unik, dan terbaru dalam blog sederhana ini. Selamat mempraktikkan!

Komentar

Postingan populer dari blog ini

Mencari P - Value dan Titik Kritis Uji F, Uji t, Uji Chi Square, dan Uji Z Normal dengan R

Mencari nilai p-value dan titik kritis Bagi teman-teman yang pernah mengenal statistika, pasti familier dengan istilah p-value dan titik kritis. P-value biasanya didefinisikan sebagai probabiltas atau peluang maksimal yang diamati dari hasil uji statistik, bahasa gampangnya adalah besarnya kesalahan penelitian berdasarkan uji statistik. Sebagai contoh sederhana, dari 100 orang dengan nama masing-masing dan diklasifikasikan ke dalam gender nama perempuan dan nama laki-laki, didapatkan nilai p-value uji statistiknya sebesar 0,05 atau 5%. Itu artinya, dari 100 orang, ada kemungkinan sebanyak 5 orang yang namanya salah klasifikasi. Dari namanya terdeteksi sebagai nama perempuan, padahal aktualnya yang bersangkutan bergender laki-laki. Sedangkan titik kritis atau titik uji adalah nilai batas pengujian hipotesis statistik, apakah masuk dalam wilayah tolak hipotesis, ataukah gagal menolaknya. Titik ini berkaitan erat dengan nilai p-value . Kalau biasanya kita mendapatkan kedua nilai ini da...

Cara Mendowload dan Install R serta RStudio di Windows (Step by Step)

Cara Download dan Install R serta R Studio di Windows Halo teman-teman, mohon maaf karena beberapa waktu ini, blog ini sempat vakum dari unggahan. Kali ini saya akan coba berbagai mengenai bagaimana cara mengunduh ( download ) dan menginstal ( install ) program R sekaligus R Studio khususnya di Windows. Unggahan kali ini sedikit terbalik karena semestinya saya unggah terlebih dahulu pertama kali di blog ini, namun bukan masalah, mengingat kemarin ada beberapa pihak yang meminta untuk menerangkap bagaimana tahapan mengunduh dan instalasi R dan R Studio, jadinya saya dahulukan pada unggahan ini sebelum pembahasan mengenai Data Mining , Data Science , atau bahasan Big Data kita terlampau jauh. Baik, kita akan mulai dengan bagaimana mengunduh R dan R Studio melalui mesin pencari Google. R dan R Studio ini memang beberapa waktu terakhir ini booming , apalagi dengan munculnya konsep mengenai Big Data , Data Modelling, Data Mining, dan Data Science serta Data Visualization . Sebenarnya, men...

Analisis Tipologi Klassen (Klassen Typology) dan Visualisasi Spasialnya dengan R

Tipologi Klassen dan visualisasinya dengan R Halo teman-teman, sebelumnya kita telah membahas tentang analisis Shift Share dan Location Quotient (LQ) dengan menggunakan R. Kali ini, kita akan membahas mengenai satu lagi alat analisis yang sebenarnya merupakan alat analisis tiga serangkai dari SS dan LQ, yaitu analisis Tipologi Klassen. Dalam penelitian ekonomi kewilayahan, ketiga analisis ini seringkali digunakan, baik dalam rangka melihat perkembangan dan transformasi struktur ekonomi suatu wilayah maupun melihat keunggulan kompetitif dan keunggulan komparatif wilayah satu dengan wilayah lainnya dengan mengacu wilayah referensi. Terlebih dulu, sebelum melakukan visualisasi spasial menggunakan fungsi plot(), ada baiknya kita bahas terlebih dahulu mengenai Tipologi Klassen itu sendiri. Tipologi Klassen merupakan teknik pengelompokan sektor, subsektor, lapangan usaha, atau komoditas tertentu di wilayah analisis berdasarkan pertumbuhan nilai tambah wilayah analisis terhadap nasional atau...