Text Mining Logo

Pendahuluan Data Mining

Customized Module: Data Mining

Data berkembang dengan pesat di era industri 4.0. Pertumbuhan data yang sangat cepat ini menyebabkan urgensi kebutuhan akan teknik-teknik yang tidak hanya efektif, namun juga efisien dalam merubah data tersebut ke dalam bentuk lain yang lebih bermanfaat seperti informasi, pengetahuan, atau insights. Sains data dan data mining  adalah disiplin ilmu multi-bidang yang dapat dimanfaatkan untuk hal ini.

          Data mining fokus ke proses pengolahan data mulai dari pemahaman data  (domain knowledge/business understanding), penyusunan hipotesis, preprocessing, modelling, evaluasi, interpretasi, hingga rekomendasi pengambilan tindakan. Data mining menggunakan model-model statistika atau algoritma di machine learning sebagai alat untuk  mencapai hal tersebut. Keseluruhan proses tersebut diatas dilakukan secara iteratif dan dinamis serta menjadi ciri khas pembeda antara data mining dan disiplin ilmu terkait lainnya. Beberapa diskusi data mining dalam kuliah ini meliputi proses (baku) dalam data mining, analisis pada data transaksi (association rules), model rekomendasi, model eksploratori, model prediksi, hingga topik lanjut seperti imbalance learning, dan analisa media sosial.

Tujuan:

Setelah menyelesaikan modul ini, peserta diharapkan mampu untuk mengidentifikasi informasi dan-atau insight yang tersembunyi dalam data menggunakan berbagai metode statistika dan machine learning serta memberikan rekomendasi yang tepat dan dapat diaplikasikan oleh pengguna. 

Catatan: Modul ini adalah Customized Module dengan format conventional mata kuliah Data Mining yang berbeda dengan Applied Data Mining yang ada pada kurikulum tau-data Indonesia.

Silabus:

Modul ini akan membahas setidaknya beberapa hal berikut:

1.* Pendahuluan Data Mining
* Pengertian dan Contoh Data Mining
— Pengenalan Tools Data Mining
2.* Domain Knowledge/Business Understanding
* Key performance indicators.
* CRISP Data Mining
* SEMMA Data Mining
* CCC Data Mining
* Contoh Kasus
— Review pemrograman dasar Python*
3.* Review EDA
* Preprocessing Noise
* Outlier
* Missing Values 
* Visualisasi Dasar
* Contoh Kasus
— Review Basis Data dan Query Dasar*
4.* Konsep dasar Association Rule
* Frequent Itemsets, Closed Itemsets, and Association Rules.
* The Apriori Algorithm.
* Generating Association Rules from Frequent Itemsets
* Contoh Kasus
— Aplikasi menggunakan Python
5.* Pendahuluan cluster analysis
* K-Means clustering
* Interpretasi clustering
* Clustering Internal and External Evaluations.
* Optimal clustering parameters
* K-Means variations.
* Hierarchical Clustering
* DBSCAN
* Contoh Kasus
— Aplikasi menggunakan Python
6.* Korelasi dan Regresi
* Logistic Regression
* Trend Analysis
* Similarity Search in Time-Series Analysis
* Simple time Series Analysis
* Contoh Kasus
— Aplikasi menggunakan Python
7.* Pendahuluan Model Klasifikasi
* K-NN
* Decision Tree
* Evaluasi & Interpretasi
* Generalization: 
– Bias-Variance Decomposition
– Underfit and Overfit
— Aplikasi menggunakan Python
8.* Naive Bayes
* Random Forest
* Cross Validation
* Parameter Optimization
— Aplikasi menggunakan Python
9.* Support Vector Machines
* Jaringan Syaraf Tiruan
* Model Selection
— Aplikasi menggunakan Python
10.* Pendahuluan Model Ensemble
* Contoh permasalahan
* Algoritma Bagging 
* Algoritma Boosting
* Contoh Kasus
— Aplikasi menggunakan Python
11.* Pendahuluan Imbalance Learning
* Contoh permasalahan
* Oversampling and under sampling
* Weighted Tree Model
* Weighted Margin Models 
* Contoh Kasus
— Aplikasi menggunakan Python
12.* Sekilas Ethics dan Legal terkait data
* Best Practices for academics and business
* Scrapping
* Crawling
* Streaming
* Basic Analytics pada data terstruktur media sosial
* Text Analytics.
* Contoh Kasus
— Aplikasi menggunakan Python
13.* Pendahuluan Graph Theory di Social media Analytics
* Network Visualizations
* Centrality Analysis
* Contoh Kasus
* Community and Modularity
* Contoh Kasus
* Network Advanced Visualizations* (Optional)
* Contoh Kasus
— Aplikasi menggunakan Python
14.* Pendahuluan NLP & Text Mining
* Text Preprocessing
* Stopwords Filtering
* Stemming & Lemma
* PosTag
* Analisis Sentimen sederhana
* Pendahuluan Topic Modelling
* Contoh Kasus
— Aplikasi menggunakan Python

Erata & Module Resources

Secara berkala modul ini akan terus di koreksi dan diperbaharui dengan interval waktu yang tidak ditentukan. Mohon gunakan kolom komentar hanya untuk errata atau keperluan lain. Pertanyaan dan diskusi harap dilakukan pada Forum yang telah disediakan. Secara umum setiap modul akan terdiri dari:

  1. video: Penjelasan umum yang disajikan secara less-formal yang cocok untuk mereka yang benar-benar baru dalam mempelajari topik yang dibahas. Video penjelasan ini juga cocok untuk para praktisi yang merasa tidak perlu mendalami teori terlalu dalam.
  2. Modul tertulis: Penjelasan semi-formal tentang teori dari topik yang sedang dibahas.
  3. Topik bahasan di Forum sebagai sarana diskusi antar pengguna (asynchronous).
  4. Latihan Soal: untuk pengguna umum (subscriber tau-data) akan berisi latihan soal dasar berdasarkan materi di video, modul, & bahan bacaan tugas di modul. Latihan soal (uji kompetensi yang komprehensif) beserta skor-nya hanya diberikan ke mitra tau-data.
  5. Python Codes yang dapat langsung diakses dengan Google Colaboratory.
  6. Synchronous Learning (lewat zoom/luring) hanya diberikan kepada mitra tau-data.

Catt: Anda wajib mendaftar di web tau-data (gratis) untuk dapat mengakses keseluruhan feature, materi, latihan soal, serta diskusi di forum tau-data.

Prasayarat :

Untuk dapat mengikuti modul ini dengan baik anda diharapkan telah mempelajari modul-modul berikut:

  1. Algorithms, Data Structures, and Programming (ADSP) (Link)
  2. Statistika Dasar
  3. Matematika Dasar

Evaluasi:

  1. Di setiap topik di modul ini diberikan beberapa latihan daring yang dapat diikuti pengguna untuk menguji pemahaman selama mempelajari materi di modul ini. Latihan ini akan diperbaharui dari waktu ke waktu pada interval waktu yang tidak ditentukan. Ketika telah menyelesaikan berbagai aktivitas seperti menyelesaikan materi modul, latihan, menonton (secara penuh) video di tau-data, dan kegiatan lainnya pengguna akan mendapatkan tau-points. tau-points akan dapat digunakan di masa depan untuk berbagai kegiatan tau-events.
  2. Skor latihan daring akan diberitahukan secara automatis oleh sistem, namun pembahasannya tidak diberikan. tau-data melarang materi latihan soal untuk dibahas di website tau-data dikarenakan akan mengurangi efektivitas pembelajaran yang dilakukan oleh pengguna lain. Namun demikian tau-data memperbolehkan untuk mendiskusikan permasalahannya di forum yang bersesuaian yang telah disediakan tau-data (tanpa menyatakan jawaban secara eksplisit). Pelanggaran akan berakibat user dihapus dan di blokir dari sistem.
  3. mitra tau-data akan mendapatkan evaluasi tambahan dan synchronous learning baik daring (misal melalui zoom) atau luring/offline (tatap muka lewat sistem flipped class).

Software/Tools:

Python (Anaconda/WinPython/Google Colaboratory).

Modules: Pandas, Numpy, Scipy, Scikit-Learn, etc.

Forum:

https://tau-data.id/forums/adm

Refferences (optional):

  1. Data Mining: Concepts and Techniques by J Han, M Kamber & J Pei, 2012, 3rd edition, Morgan Kaufmann.
  2. Aggarwal, C. C. (2015). Data mining: the textbook. Springer.
  3. P.Cabena, P. Hadjinian, R. Stadler, J. Verhees, and A. Zanasi. Discovering Data Mining: From Concept to Implementation. IBM, 1997
  4. U. Fayyad, G. Piatetsky-Shapiro, and P. Smith. From data mining to knowledge discovery. AI Magzine,Volume 17,  pages 37-54, 1996.
  5. Barry, A. J. Michael & Linoff, S. Gordon. 2004. Data Mining Techniques. Wiley Publishing, Inc. Indianapolis : xxiii + 615 hlm.
  6. Malik, U., Goldwasser, M., & Johnston, B. (2019). SQL for Data Analytics: Perform fast and efficient data analysis with the power of SQL. Packt Publishing Ltd.
  7. Vanderplas, J. T. (2016). Python data science handbook: tools and techniques for developers. O’Reilly.
  8. Bishop, C. M. (2006). Pattern recognition and machine learning. springer.
  9. Simovici, D. (2018). Mathematical Analysis for Machine Learning and Data Mining. World Scientific Publishing Co., Inc.
  10. Zheng, A. (2015). Evaluating machine learning models: a beginner’s guide to key concepts and pitfalls.
  11. Mitchell, T. M. (1997). Machine learning. 1997. Burr Ridge, IL: McGraw Hill45(37), 870-877.

Supplementary:

  • Tools Pendukung:
    – Google Colab
    – API to some social media’s platform.

Kembali ke Kurikulum Utama