Database icon

Pendahuluan Basis Data untuk Data Science (BDDS)

BDDS memperkenalkan dasar konsep, teori, dan aplikasi ilmu basis data untuk para profesional di bidang ilmu data. Berbeda dengan silabus ilmu basis data konvensional BDDS yang lebih memprioritaskan kompetensi ke arah Database Administrator (DBA) dengan memperkenalkan keamanan basis data, normalisasi, dsb, BDDS fokus ke penggunaan basis data untuk menunjang pengolahan data seperti berbagai macam query (optimal) dan pemanfaatan indexing pada basis data SQL dan NoSQL.

Interface yang akan digunakan dalam BDDS kebanyakan menggunakan bahasa pemrograman Python, pada beberapa kasus tertentu tools seperti PHPMyAdmin, MongoDB Compas, atau ElasticSearch Head juga akan digunakan.

Prasyarat         : Sebagian MFDS, ADSP, dan SFDS

Tujuan              :

  1. Memperkenalkan berbagai teknologi basis data, penggunaan, serta kelebihan dan kekurangannya.
  2. Kemampuan untuk melakukan query ke basis data secara optimal
  3. Mampu merubah bentuk struktur data dari basis data ke dalam bentuk yang dibutuhkan dalam pengolahan data.
  4. Memperkenalkan berbagai indexing dan kegunaannya dalam mendukung pengolahan data.
  5. Validasi data (quality checks)
  6. Optimizing sistem basis data untuk pengolahan data: mapping, nodes, etc.

Referensi:

  1. SQL Notes for Professionals, 2019, GoalKickers
  2. Silberschatz, A., Korth, H. F., & Sudarshan, S. (1997). Database system concepts(Vol. 4). New York: McGraw-Hill.
  3. DeBarros, A. (2018). Practical SQL: A Beginner’s Guide to Storytelling with Data. No Starch Press.
Topic IDTopic TitleLessons
DFDS1Getting Started, Selecting & Retrieving Data from database– Introduction to database engines
– Data modelling, ERD, cardinality, normalization
– Relational model
– API connect, data structures,
– SQL &/ NoSQL basic queries for data retrieval
– Key concepts: index, foreign key, null, etc.
– Parsing data structures/format.
(e.g. parsing json/objects in relational database)
DFDS2Filtering, Sorting, and Calculating Data with SQL– Clauses and operators (IF, Where, and, or, order, group by, etc.)
– Basic math operators, as well as aggregate functions like Average, Count, Max, Min.
– Wildcards best practice
– Data deduplication techniques
DFDS3Subqueries and Joins in SQL– Subqueries best practice
– Joins
– aliases
– Optimizing queries based on database type (columnar/row-based)
– Query cost analysis
DFDS4Modifying and Analyzing Data with SQL* Requirement: Basic topics in EDA
– Query results verification
– modify strings by concatenating, trimming, changing the case, and using the substring function.
– date and time strings
– window functions, Array & UNNEST functions
– SQL for EDA** (need some lessons in EDA module)

DFDS6Advance topic on relational database– Data normalization or not normalize
– Partitioning/sharding & replicas
– Cluster database (master, slave, data nodes)
– Indexing strategy (various indexing, including termvectors)
– Stored Procedures, etc
DFDS7Introduction to NoSQL/NewSQL Databases* Each database technology is one introductory topic
– MongoDB
– ElasticSearch
– Neo4j,
– Postgress
– HBase, etc.

Leave a Reply