Scraping adalah proses automatis (sistematis menggunakan program/code) untuk mendapatkan data dari suatu website (provider). Kami sering mendapatkan pertanyaan tentang scraping website/media sosial. Scrapping secara umum (minimal) tidak etis (bisa jadi ilegal). Mengapa? karena scraping mirip DDOS attack yang akan memberatkan server atau bahkan membuat server berhenti berfungsi normal. Program scraping juga memungkinkan akan mengakses data yang tidak dimaksudkan untuk konsumsi publik.
Satu-satunya saat dimana scraping boleh dilakukan adalah saat sang pelaku/programer menghormati “robots.txt” yang telah diberikan oleh web administrator. Atau lebih baik lagi adalah menggunakan API (Application Program Interface) yang diberikan oleh provider (website/medsos) lalu melakukan crawling.
Catatan penting, hati-hati menggunakan data scrapping untuk penelitian resmi (paper/skripsi/tesis/desertasi). Publisher yang baik biasanya akan menolak hasil penelitian dengan data yang didapatkan tanpa “ethical clearence”. Lembaga penelitian dan perguruan tinggi juga harus lebih hati-hati dalam memanfaatkan data scrapping ini. Sebaiknya perguruan tinggi dan lembaga penelitian memiliki sebuah bagian yang menangani “research ethics”.
Baca tentang robots.txt lebih lanjut disini: https://www.empiricaldata.org/dataladyblog/a-guide-to-ethical-web-scraping
Contoh robots.txt beberapa media sosial:
Secara umum tidak boleh:
Partially boleh:
https://twitter.com/robots.txt
Tautan lebih lanjut tentang facebook:
https://www.octoparse.com/blog/5-things-you-need-to-know-before-scraping-data-from-facebook
Pingback: DSBD-06: (Big) Data Science: Peluang, Tantangan, & Trend ~ tau-data Indonesia