About tau-data Indonesia

Pendahuluan Sains Data dan Big Data

DSBD – Introduction to Data Science & Big Data

Di era data, Data Science (DS) (Sains Data) dan Big Data (BD) telah menjadi salah satu kunci penting dalam mendukung kesuksesan industri dan pemerintahan di banyak tempat di seluruh dunia. Namun demikian karena DS dan BD adalah bidang ilmu yang cenderung baru, banyak pemula yang kesulitan dalam mendapatkan referensi dan acuan untuk bagaimana memulai mempelajari topik ini. Mengetahui gambaran umum akan tantangan, peluang, teknologi, dan metode terkait DS dan BD akan membantu para pemula untuk memberikan arahan yang baik dalam mendalami bidang ini.

Modul DSBD dimulai dengan pengenalan berbagai istilah dan sejarah mengapa teknologi dan metode baru terkait DS dan BD terlahir. Hubungan antara DS, BD, AI (Artificial Intelligence), Machine Learning, Statistika, dan berbagai bidang ilmu terkait data lainnya menjadi pembahasan selanjutnya. Overview dari berbagai metode dan teknologi yang ada di DS dan BD menjadi  fondasi bagi para pemula untuk mendalami lebih lanjut ilmu DS dan-atau BD.  Deskripsi, tugas, serta tanggung jawab berbagai profesi terkait data seperti Data Scientist, Data Engineer, dan Data Analyst menjadi salah satu pokok bahasan di modul ini. Berbagai isu terkait hukum dan ethics data, serta diskusi terkait masa depan teknologi dan metode di DS dan BD juga tidak luput dari pembahasan di modul ini.

Secara berkala modul ini akan terus di koreksi dan diperbaharui dengan interval waktu yang tidak ditentukan. Mohon gunakan kolom komentar hanya untuk errata atau keperluan lain. Pertanyaan dan diskusi harap dilakukan pada Forum yang telah disediakan. Secara umum setiap modul akan terdiri dari:

  1. video: Penjelasan umum yang disajikan secara less-formal yang cocok untuk mereka yang benar-benar baru dalam mempelajari topik yang dibahas. Video penjelasan ini juga cocok untuk para praktisi yang merasa tidak perlu mendalami teori terlalu dalam.
  2. Modul tertulis: Penjelasan semi-formal tentang teori dari topik yang sedang dibahas.
  3. Topik bahasan di Forum sebagai sarana diskusi antar pengguna.
  4. Latihan Soal: untuk pengguna umum (subscriber tau-data) akan berisi latihan soal dasar berdasarkan materi di video, modul, & bahan bacaan tugas di modul. Latihan soal (uji kompetensi yang komprehensif) beserta skor-nya hanya diberikan ke mitra tau-data.

Catt: Anda wajib mendaftar di web tau-data (gratis) untuk dapat mengakses keseluruhan feature, materi, latihan soal, serta diskusi di forum DSBD tau-data.

Posisi DSBD dalam tau-RoadMap.

Prasayarat :

Tidak ada.

Tujuan Pembelajaran

Modul ini bertujuan agar pengguna:

  1. Memahami pengertian dan ruang lingkup DS-BD, terutama perbedaannya dengan bidang terkait data lain seperti statistika, machine learning, AI, dan deep learning.
  2. Mengenal berbagai metode dan teknologi di DS-BD sebagai alat (tool) untuk membantu pemrosesan dan analisa data.
  3. Memahami berbagai profesi terkait data beserta tugas dan tanggung jawab yang diberikan.
  4. mengetahui tantangan, peluang, kelemahan, serta kelebihan berbagai metode dan teknologi DS-BD baik di dunia akademis, industri, maupun pemerintahan.
  5. Mengetahui tentang etika dan hukum terkait penggunaan data.
  6. Memiliki pengetahuan untuk mengembangkan ide (kreativitas dan inovasi) menggunakan data science dan big data.
  7. Menghindari kesalahan pemula (common fallacies) dalam menerapkan data science dan big data di institusinya masing-masing (atau dalam sebuah penelitian).

Evaluasi:

  1. Di setiap topik di modul ini diberikan beberapa latihan daring yang dapat diikuti pengguna untuk menguji pemahaman selama mempelajari materi di modul ini. Latihan ini akan diperbaharui dari waktu ke waktu pada interval waktu yang tidak ditentukan. Ketika telah menyelesaikan berbagai aktivitas seperti menyelesaikan materi modul, latihan, menonton (secara penuh) video di tau-data, dan kegiatan lainnya pengguna akan mendapatkan tau-points. tau-points akan dapat digunakan di masa depan untuk berbagai kegiatan tau-events.
  2. Skor latihan daring akan diberitahukan secara automatis oleh sistem, namun pembahasannya tidak diberikan. tau-data melarang materi latihan soal untuk dibahas di website tau-data dikarenakan akan mengurangi efektivitas pembelajaran yang dilakukan oleh pengguna lain. Namun demikian tau-data memperbolehkan untuk mendiskusikan permasalahannya di forum yang bersesuaian yang telah disediakan tau-data (tanpa menyatakan jawaban secara eksplisit). Pelanggaran akan berakibat user dihapus dan di blokir dari sistem.
  3. Pada kegiatan/acara tau-events (baik online/offline) studi kasus akan diberikan untuk didiskusikan bersama.
  4. Pada pelatihan corporate/institutional training dapat diajukan evaluasi/tugas lebih lanjut dalam sebuah laporan tertulis dan-atau presentasi  oleh peserta baik online maupun offline. Laporan evaluasi peserta oleh tau-data akan diberikan kepada institusi penyelenggara baik perorangan dan-atau pihak atasan/manajemen institusi sesuai perjanjian di awal kegiatan.

Silabus:

  1. DSBD-01: Pendahuluan Sains Data dan Big Data
  2. DSBD-02: Data Scientist: Profesi & Kompetensi
  3. DSBD-03: Pengenalan Berbagai Tipe Data
  4. DSBD-04: Pengenalan Berbagai Metode/Algoritma di Sains Data
  5. DSBD-05: Pengenalan Teknologi di Sains Data dan Big Data
  6. DSBD-06: Sekilas Ethics dan Hukum (Legal) Data
  7. DSBD-07: Big Data (Science): Peluang, Tantangan dan Trend
ID TopikJudul TopikBahasanPrasyarat
DSBD-01Pendahuluan Sains Data1. Kontrak Lesson (hanya bagi mitra taudata):
– Prasyarat, SKS, Aturan.
– Jadwal, Tujuan, manfaat mata kuliah
– ELO, BRP-SAP
– Referensi Khusus
– Tugas – Asessments

2. Pengertian Sains Data dan Bidang Ilmu Terkait
– Era Data: Industri 4.0 dan Big Data
– Big Data & Industri 4.0
– Data Science dan Big Data
– Aplikasi Sains Data dan Big Data
DSBD-02Data Scientist: Profesi, Kompetensi, dan Peran1. Profesi dan Roles:
– Data Analyst,
– Data Scientist,
– Data Engineer,
– Programmer.

2. Kompetensi yang dibutuhkan.
DSBD-01
DSBD-03Variety: Pengenalan Tipe Data 1. Data, Informasi, dan Insight
– Sumber data
– Error dan noise pada data
– Berbagai klasifikasi data (misal primer/sekunder, dsb).
2. Data Terstruktur:
– Tipe Data (Stevens) – Ratio, Interval, Ordinal, Nominal
– Tipe Data terstruktur Non-Stevens
– Time Series Data
– Spatial Data
– Transactional Data
3. Data Tidak terstruktur
– Text
– Graph/Network
– Genome/DNA
– Image/Video
– Sound
4. Semi-Terstruktur
DSBD-02
DSBD-04Pengenalan Singkat Berbagai Metode dalam Sains Data1. Interdependence (unsupervised):
– Pendahuluan EDA
– Preprocessing
– Visualisasi
– Pengelompokkan
– Sequential/transactional Analysis
2. Dependence (Supervised)
– Regresi
– Klasifikasi
– Time Series
– Spatial Analysis
3. Semi-Supervised Learning
4. Feature Selection, Extraction, and Engineering
5. Model rekomendasi
6. Social Network Analysis
7. Data representation methods
8. Concept Drift
9. Deep Learning
10. Transfer Learning
11. Reinforcement Learning
12. Advance/Hybrid Models in Data Science.
DSBD-03
DSBD-05Pendahuluan Teknologi dalam Sains Data dan Big Data1. Bahasa Pemrograman di Sains Data dan Big data
2.Tools GUI (non-pemrograman)
3. Teknologi Basis Data
– SQL, NoSQL, NewSQL
– Search Engines.
4. Teknologi Big Data Processing
– Centralized Data – Centralized Computing
– Distributed Data – Centralized Computing
Misal: in-database Processing.
– Centralized Data – Distributed Computing
Misal: HPC ~ MPI/OpenMP
– Distributed Data – Distributed Computing:
Misal: Hadoop, Spark.
5. Teknologi Pendukung Lain
– Sumber Data: IoT, Sensor, Web, dsb.
– Data Integration Technologies
– Cloud Technology
– Computing Technologies: GPU, TPU, FPGA, dsb.
– Development and Deployments
DSBD-04
DSBD-06Ethics dan Legal terkait Sains Data dan Big Data1. Data Governance
2. Data Ethics dan Privacy
3. Data Legals & Security
4. Block Chain
5. Contoh beberapa kasus umum
6. Kasus Indonesia
DSBD-05
DSBD-07Peluang, Tantangan dan Trend Sains Data dan Big Data1. Technoprenership, Innovation, and Creativity di era data.
2. Tantangan Teknis/Akademis
– High-dimensional visualization
– Curse of Dimensionality
– Scalability
– Statistika untuk Big Data
– Intrinsic challenges on unstructured data
– Real-time analytics
– Distributed Models
3. Tantangan non-Teknis.
4. Trend Metode & Teknologi sains data dan Big Data
DSBD-06
DSBD-07Diskusi DSBD
(Live online/Offline Discussion only)
(~tau-Events~)
Ringkasan DSBD1~DSBD4 + Studi kasus masalah pengolahan data di sebuah institusi (pemerintahan/swasta) dipandu dengan sebuah data story (sintetik) dan pertanyaan-pertanyaan (open ended) untuk umpan diskusi.

*. Batasan analisa Exploratory Data Analysis (EDA)
*. Ketika Big Data "overkill" atau "abused"
*. Kebutuhan sampling & experimen yang baru di Big Data
*. Big Data & Sistem Informasi
*. Big Data & Input Data
*. Tantangan dalam pembentukan, manajemen, & koordinasi team Data Science
*. Survey, Data Digital, dan Big Data
DSBD 1-7

Forum:

https://tau-data.id/forums/forum/dsbd/

Referensi:

  1. Baesens, B. (2014). Analytics in a big data world: The essential guide to data science and its applications. John Wiley & Sons. (general introduction to data science and big data)
  2. Cielen, D., Meysman, A., & Ali, M. (2016). Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co. (good technical reference to big data related problems)
  3. Berman, J. J. (2018). Principles and Practice of Big Data: Preparing, Sharing, and Analyzing Complex Information. Academic Press.
  4. Ratner, B. (2017). Statistical and Machine-Learning Data Mining:: Techniques for Better Predictive Modeling and Analysis of Big Data. Chapman and Hall/CRC.
  5. Furht, B., & Villanustre, F. (2016). Big data technologies and applications. Berlin, Germany: Springer.

Acknowledgements:

tau-data Indonesia berterima kasih atas dukungan dari berbagai lembaga/institusi berikut dalam pengembangan modul ini:

  1. Traveloka Indonesia : https://www.traveloka.com
  2. Badan Pusat Statistik (BPS) Republik Indonesia: https://www.bps.go.id

Supplementary:

  • Tools Pendukung:
    – Google Colab
    – GitHub
    – Colaborative office system (misal gSheets)
    – online forms
    – etc

Kembali ke Kurikulum Utama