Text Mining Logo

UDA: Unstructured Data Analysis

Combined Module: Pendahuluan Analisa Data Tidak Terstruktur

Big Data dan Data Science terlahir dari pesatnya perkembangan data tidak terstruktur. Penguasaan analisa data tidak terstruktur seperti text, graph, suara, gambar, atau video tidak jarang menjadi faktor penentu kompetisi bisnis di era industri 4.0. Modul UDA memperkenalkan dasar-dasar pengolahan data tidak terstruktur ini kepada para data scientist junior. Beberapa model analytics sederhana diperkenalkan sebagai tahap awal sebelum memulai pendalaman di masing-masing tipe data. Modul ini akan membahas setidaknya beberapa hal berikut:

  1. Pendahuluan Analisa Data Text dan Preprocessing
  2. Pendahuluan NLP dan Text Analytics
  3. Text Data Gathering from Web and Social Media
  4. Representasi Data Text Vector Space Model (VSM)
  5. Representasi Data Text Word Embeddings
  6. Document Classification & Sentiment Analysis
  7. Topic Modelling
  8. Pendahuluan Network (Graph) Analysis
  9. Centrality Analysis
  10. Modularity and Community Detection
  11. Pendahuluan Image Processing & OpenCV
  12. Object Detection and Classification dengan Deep Learning
  13. Pengenalan Video Processing
  14. Pengenalan Speech Recognition

Secara berkala modul ini akan terus di koreksi dan diperbaharui dengan interval waktu yang tidak ditentukan. Mohon gunakan kolom komentar hanya untuk errata atau keperluan lain. Pertanyaan dan diskusi harap dilakukan pada Forum yang telah disediakan. Secara umum setiap modul akan terdiri dari:

  1. video: Penjelasan umum yang disajikan secara less-formal yang cocok untuk mereka yang benar-benar baru dalam mempelajari topik yang dibahas. Video penjelasan ini juga cocok untuk para praktisi yang merasa tidak perlu mendalami teori terlalu dalam.
  2. Modul tertulis: Penjelasan semi-formal tentang teori dari topik yang sedang dibahas.
  3. Topik bahasan di Forum sebagai sarana diskusi antar pengguna (asynchronous).
  4. Latihan Soal: untuk pengguna umum (subscriber tau-data) akan berisi latihan soal dasar berdasarkan materi di video, modul, & bahan bacaan tugas di modul. Latihan soal (uji kompetensi yang komprehensif) beserta skor-nya hanya diberikan ke mitra tau-data.
  5. Synchronous Learning (lewat zoom/luring) hanya diberikan kepada mitra tau-data.

Catt: Anda wajib mendaftar di web tau-data (gratis) untuk dapat mengakses keseluruhan feature, materi, latihan soal, serta diskusi di forum tau-data.

Prasayarat :

Untuk dapat mengikuti modul ini dengan baik anda diharapkan telah mempelajari modul-modul berikut:

  1. Algorithms, Data Structures, and Programming (ADSP) (Link)
  2. Aplikasi Data Mining – ADM (Link)
  3. Supervised Learning – Classification Models (SLCM) (Link)
  4. Unsupervised Learning – Interdependence Methods (ULIM) (Link)

Tujuan Pembelajaran

Setelah menyelesaikan modul ini, diharapkan peserta mampu untuk melakukan berbagai analisa dasar dari berbagai tipe data tidak terstruktur dasar seperti text, graph, suara, gambar, dan video.

Evaluasi:

  1. Di setiap topik di modul ini diberikan beberapa latihan daring yang dapat diikuti pengguna untuk menguji pemahaman selama mempelajari materi di modul ini. Latihan ini akan diperbaharui dari waktu ke waktu pada interval waktu yang tidak ditentukan. Ketika telah menyelesaikan berbagai aktivitas seperti menyelesaikan materi modul, latihan, menonton (secara penuh) video di tau-data, dan kegiatan lainnya pengguna akan mendapatkan tau-points. tau-points akan dapat digunakan di masa depan untuk berbagai kegiatan tau-events.
  2. Skor latihan daring akan diberitahukan secara automatis oleh sistem, namun pembahasannya tidak diberikan. tau-data melarang materi latihan soal untuk dibahas di website tau-data dikarenakan akan mengurangi efektivitas pembelajaran yang dilakukan oleh pengguna lain. Namun demikian tau-data memperbolehkan untuk mendiskusikan permasalahannya di forum yang bersesuaian yang telah disediakan tau-data (tanpa menyatakan jawaban secara eksplisit). Pelanggaran akan berakibat user dihapus dan di blokir dari sistem.
  3. mitra tau-data akan mendapatkan evaluasi tambahan dan synchronous learning baik daring (misal melalui zoom) atau luring/offline (tatap muka lewat sistem flipped class).

Software/Tools:

Python (Anaconda/WinPython/Google Colaboratory).

Modules: Spacy, NLTK, Re, OpenCV, NetworkX, TensorFlow/Keras/Pytorch, etc.

Forum:

https://tau-data.id/forums/

Refferences (optional):

  1. Kao, A., & Poteet, S. R. (Eds.). (2007). Natural language processing and text mining. Springer Science & Business Media.
  2. Žižka, J., Dařena, F., & Svoboda, A. (2019). Text Mining with Machine Learning: Principles and Techniques. CRC Press.
  3. PM, K. R., Mohan, A., & Srinivasa, K. G. (2018). Practical Social Network Analysis with Python. Springer International Publishing.
  4. Fu, X., Luo, J. D., & Boos, M. (Eds.). (2017). Social network analysis: interdisciplinary approaches and case studies. CRC Press.
  5. Solem, J. E. (2012). Programming Computer Vision with Python: Tools and algorithms for analyzing images. ” O’Reilly Media, Inc.”.
  6. Manaswi, N. K., & Singh, T. (2018). Deep Learning with Applications Using Python: Chatbots and Face. Object, and Speech Recognition With Tensorflow and Keras, Bangalore, Karnataka, India: Apress.
  7. Kamath, U., Liu, J., & Whitaker, J. (2019). Deep learning for nlp and speech recognition (Vol. 84). Springer.

Supplementary:

  • Tools Pendukung:
    – Nvidia Card
    – Google Colab
    – GCP
    – API to some Social Media

Kembali ke Kurikulum Utama