Hai TS!

Pada kesempatan kali ini, kita akan membahas tentang visualisasi apa saja yang dapat dilakukan terhadap data kita.

Visualisasi data biasanya berupa grafik atau chart. Tujuan utama dari visualisasi data adalah untuk mengkomunikasikan informasi secara jelas dan efisien kepada pengguna lewat grafik informasi yang dipilih. Visualisasi yang mengubah angka menjadi knowledge tidak hanya sekedar merapikan data namun  juga dipresentasikan sehingga penggunanya memahami datanya hingga digunakan untuk mengambil keputusan. Namun, setiap tujuan dan karakteristik data yang berbeda akan membutuhkan visualisasi grafik atau chart yang berbeda dalam mengeluarkan potensi terbaik dari data yang kita miliki. Sebagai contoh, bar chart baik untuk perbandingan, sedangkan bagan garis berfungsi lebih baik untuk tren. Scatter plot baik untuk hubungan dan distribusi, tetapi pie chart harus digunakan hanya untuk komposisi sederhana – tidak pernah untuk perbandingan atau distribusi.

 

Tipe-tipe Grafik/Chart

Sebelum kita mulai memvisualisasikan data kita, ada beberapa pertanyaan yang perlu dijawab agar kita memahami tipe visualisasi seperti apa yang terbaik untuk data kita:

  1. Cerita seperti apa yang ingin diceritakan? (Apa yang ingin ditekankan?)
  2. Cerita tersebut akan diceritakan kepada siapa? (Ini akan menentukan gaya dan penekanan apa yang ingin disampaikan)
  3. Seberapa banyak variabel yang ingin ditunjukkan dalam chart tunggal? Satu, dua, atau banyak?
  4. Apakah kamu ingin mencari atau menganalisis trend tertentu?                                                                                                  Jika Ya, maka pilihlah tipe chart seperti line chart, column chart, atau area chart.
  1. Apakah kamu ingin memperlihatkan komposisi dari data?                                                                                                           Jika Ya, gunakan pie chart, waterfall chart, atau stacked chart.
  1. Apakah kamu ingin membandingkan dua atau lebih nilai?                                                                                                           Jika Ya, gunakan bubble chart, spider chart, bar chart, atau scatter plot.
  1. Apakah terdapat unsur waktu dalam data dan ingin divisualisasikan juga?                                                                              Jika Ya, gunakan dynamic line chart atau bar graph.

 

Kategori mendasar yang membedakan tujuan dari visualisasi data yakni:

  • Relationship (Hubungan)
  • Distribution (Distribusi)
  • Composition (Komposisi)
  • Comparison (Perbandingan)

Gambar 1. Pembagian Chart berdasarkan Presentasi Yang Ingin Ditunjukkan

 

Untuk lebih detilnya, ayo kita bahas tentang tipe-tipe chart dan bagaimana penggunaannya

Chart untuk menggambarkan relationship (hubungan):

Line Chart

Line chart atau grafik garis merupakan chart yang pada umumnya digunakan untuk mengilustrasikan trend atau menggambarkan hubungan dalam bagaimana data berubah dalam periode waktu tertentu. Kita dapat melihat pola dan fluktuasi dalam data, membandingkan variabel, dan membuat proyeksi dari data kita. Tipe data yang dapat digunakan dalam line chart umumnya adalah kontinu. Namun, line chart juga dapat digunakan untuk data diskrit, contohnya scree plot pada clustering K-Means untuk menentukan jumlah cluster, kurva ROC, dan cdf.

Gambar 2. Line Chart (trend/data kontinu)

Sumber: datapine.com

Gambar 3. Scree Plot (diskrit)

Jangan ikut sertakan terlalu banyak garis (yang mewakili variabel) dalam chart kita karena akan menjadi sulit untuk dilihat (maksimal 4 line). Buatlah garis yang solid, jangan putus-putus. Buat juga legend yang mudah dimengerti (tidak terlalu ramai). Dan yang perlu diperhatikan ketika menggunakan sumbu x dan sumbu y, gunakanlah full axis dimana sumbu grafik dimulai dari 0 sehingga grafik kita tidak misleading.

 

Scatter Plot

Scatter plot merupakan grafik yang biasa digunakan untuk melihat pola atau hubungan antara 2 variabel (variabel independen diwakili sumbu x dan variabel dependen diwakili sumbu y) dengan menggambarkan setiap titik sebagai pasangan x dan y. Scatter plot juga membantu dalam mencari outlier dan melihat distribusi dari data kita. Skala data yang digunakan haruslah interval dan rasio.

Gambar 4. Contoh Scatter Plot antara GDP per Kapita dan Harapan Hidup

Sumber: whaebusinesmath.blogspot.com

 

Bubble Chart

Bubble chart adalah grafik yang menampilkan hubungan antara 3 variabel atau lebih dengan tampilan 3 dimensi. Bubble chart merupakan variasi dari scatter plot dimana titik data diganti dengan gelembung dan ukuran gelembungnya menjadi dimensi tambahan dari data yang dipresentasikan.

Gambar 5. Bubble Chart (1)

Sumber: datapine.com

Dari gambar, kita dapat melihat hubungan antara beberapa produk (diwakili sumbu-x) dengan jumlah penjualan (diwakili sumbu-y) dan profit marginnya (diwakili ukuran gelembung). Bisa dilihat bahwa penjualan TV dan Home Theater merupakan produk dengan penjualan tertinggi dan juga dengan profit margin (keuntungan) terbesar oleh karena itu menjadi gelembung terbesar.

Gambar 6. Bubble Chart (2)

Sumber: help.gooddata.com

Selain seperti pada contoh pertama, bubble chart juga dapat seperti gambar di atas ini dimana warna juga dapat digunakan sebagai label atau dimensi untuk merepresentasikan data. Dalam contoh ini, melihat hubungan antara ‘Cart Additions’ (jumlah dimasukkan ke keranjang belanjaan) dengan ‘Checkouts’ (jumlah barang yang benar-benar dibayar), lalu ditambahkan dengan dimensi spend (seberapa banyak uang yang dibayarkan) yang diwakili dengan ukuran gelembung, lalu ditambahkan dengan warna-warna gelembung yang mewakili setiap negara yang berbeda-beda.

 

Chart untuk menggambarkan komposisi:

Pie Chart

Pie chart atau diagram lingkaran merupakan grafik yang paling sederhana dan paling sering digunakan dalam memvisualisikan komposisi dari data kita. Pie chart works best untuk data diskrit, nominal, ordinal (atau dengan kata lain data yang bersifat kategorik). Diagram lingkaran mewakili angka dalam persentase, dan jumlah total semua segmen harus sama dengan 100%. Yang perlu diperhatikan dalam pembuatan pie chart adalah jangan memasukkan terlalu banyak kategori agar dapat terlihat perbedaan antar komposisinya (biasanya 3 – 7 kategori saja). Lalu, urutkan komposisi/slice dari pie chart sesuai dengan ukurannya (dari kecil ke besar atau sebaliknya).

Pie chart didaulat sebagai visualisasi data yang tidak begitu baik untuk dipilih karena berbagai kekurangannya dalam membuat perbandingan yang akurat (misal perbedaan antar kategorinya hanya sedikit, maka akan sulit melihat perbedaannya di pie chart, dan pie chart cenderung melakukan pembulatan terhadap data), tidak dapat digunakan untuk melihat trend, dan tidak baik digunakan untuk variabel yang terlalu banyak. Namun bagaimanapun pie chart merupakan alat visual yang efektif membuat pembacanya menjadi lebih mengerti ketika melihatnya.

Gambar 7. Pie Chart

Sumber: Infogram

 

Waterfall Chart

Waterfall chart adalah salah satu grafik yang membantu dalam melihat jumlah atau efek kumulatif saat nilainya ditambah atau dikurangkan. Ini berguna untuk memahami bagaimana nilai awal dipengaruhi oleh serangkaian nilai positif dan negatif. Grafik ini banyak digunakan dalam pencapaian finansial (profit/revenue) suatu perusahaan.

Gambar 8. Waterfall Chart

Sumber: datapine.com

Waterfall chart merupakan static chart (dimana hanya menunjukkan data dalam satu time frame, tidak menunjukkan perubahan saat ditampilkan). Maka jika memerlukan grafik yang dinamis (dimana menjelaskan bagaimana nilainya naik-turun, bergerak di time frame yang berbeda), maka gunakan stacked chart akan lebih baik. Demikian juga, chart ini tidak dapat menunjukkan hubungan antar variabel.

 

Area Chart

Area chart adalah variasi dari line chart. Chart ini menggunakan daerah berbayang (atau area yang telah diwarnai) di bawah garis yang diplot pada grafik untuk menunjukkan volume data yang diwakili oleh garis. Area chart juga hanya jika kita ingin melihat perubahan atau perkembangan nilai data dari waktu ke waktu. Namun, jika kita ingin melihat perbedaan nilai kategori, lebih baik menggunakan bar chart. Area chart works best jika data kita memiliki perbedaan yang besar (jika tidak, gunakan line chart saja). Jangan gunakan area chart untuk data diskrit.

Gambar 9. Area Chart

Sumber: study.com

Kita juga dapat mengilustrasikan dan membandingkan perbedaan tiap item/variabel secara menyeluruh dengan area chart menggunakan stacked area chart. Biasanya gunakan hanya hingga 4 kategori agar mudah dibaca. Mulai sumbu-y grafik dari 0 (sepatutnya dan seharusnya), dan buat grafik kita mudah dibaca dengan menempatkan data yang sangat bervariasi di bagian atas grafik serta variabilitas (dan nilai) lebih rendah di bagian bawah.

Gambar 10. Stacked Area Chart

 

Chart untuk menggambarkan perbandingan:

Line Chart

(sudah dijelaskan di atas)

Line chart digunakan untuk membandingkan trend data kontinu dari waktu ke waktu (namun bisa juga untuk data diskrit).

 

Bar Chart/Column Chart

Bar chart atau diagram batang merupakan grafik yang works best untuk data diskrit dan nominal (tidak bisa untuk data kontinu). Bar chart digunakan jika kita ingin membandingkan data antar kategori dan melihat frekuensi atau besaran dari kategori/variabel tersebut. Bar chart dapat disajikan dalam bentuk vertikal maupun horizontal.

Terdapat beberapa jenis dari bar chart:

  • Column Chart/Vertical Bar Chart

Baik digunakan untuk memvisualisasikan double bar chart (membandingkan beberapa data antar kategori sekaligus), visualisasi data kronologis

Gambar 11. (Double) Column Chart

  • Horizontal Bar Chart

Merepresentasikan data yang kurang atau sulit ditunjukkan secara vertikal (misal label data terlalu panjang), atau ketika ingin memvisualisasikan data nominal (tanpa urutan) maupun dengan urutan/ranking.

Gambar 12. Horizontal Bar Chart

Sumber: datapine.com

  • Stacked Bar Chart

Digunakan ketika ingin membandingkan data terhadap dirinya sendiri (dalam periode atau kategori yang berbeda-beda), dengan kata lain membandingkan multiple variabel secara bersamaan à multiple part-to-whole relationship (ketika pie chart hanya dapat menghandle single part-to-whole relationship). Atau digunakan ketika ingin menghighlight bagian tertentu dari total suatu kategori. Perlu diingat, jangan membagi satu bar dalam beberapa part yang terlalu banyak agar lebih mudah dimengerti. Gunakan juga warna yang bagus dan mewakili.

Gambar 13. Stacked Bar Chart

 

Spider Chart

Spider chart (disebut juga radar chart) digunakan untuk membandingkan data multivariat dengan aspek atau variabel yang banyak (lebih dari 3). Setiap variabel dipetakan dengan sumbu yang dimulai dari titik yang sama dan dihubungkan dengan garis membentuk suatu poligon tidak beraturan. Spider chart bagus untuk melakukan ranking, review, atau performance, menunjukkan kelemahan dan kelebihan yang ditunjukkan oleh data. Namun spider chart memiliki beberapa kekurangan, yakni pembacanya lebih sulit untuk melihat data poin yang berbentuk lingkaran dibandingkan yang memiliki sumbu lurus, lalu spider chart prone untuk misleding dikarenakan skala yang berbeda antar variabelnya, serta persepsi pembaca yang mengutamakan area dari poligonnya (padahal area dan bentuk poligon tergantung sekali terhadap bagaimana sumbu dalam spider chart diposisikan).

Gambar 14. Spider Chart

Sumber: fusionchart.com

 

Chart untuk menggambarkan distribusi:

Distribusi dari suatu data dapat dilihat secara visual dengan grafik/plot. Biasanya, pengguna akan memplot data mereka untuk melihat apakah data mereka berdistribusi normal atau tidak. Data yang berdistribusi normal mempunya distribusi yang berbentuk seperti ‘lonceng’/bell-curve dan simetris terhadap nilai rata-ratanya. Mengapa data yang diinginkan penting untuk berdistribusi normal? Dikarenakan data-data dan analisis dalam statistik yang biasanya mempunyai asumsi dan lebih baiknya menggunakan data yang berdistribusi normal.

  • Scatter Plot

Scatter plot merupakan grafik yang memvisualisasikan data multivariat antara variabel independen (sumbu-x) dan variabel dependen (sumbu-y) (untuk scatter plot 2 dimensi). Scatter plot membantu mendeteksi kenormalan dari data kita dengan menggambarkan setiap pasangan x dan y. Dalam regresi linear, digunakan Q-Q-plot (quantile-quantile plot) dimana merupakan scatter plot yang dibuat dengan memplot dua set kuantil terhadap satu sama lain. Data dianggap normal apabila data mengikuti garis linear atau dengan kata lain lurus (jika makin menjauh dari garis lurus atau bengkok, maka tidak normal).

Gambar 15. Deteksi Normalitas dengan Normal Q-Q Plot

Sumber: Youtube – Phil Chan

  • Boxplot

Boxplot membantu dalam memahami distribusi data kita. Median dalam box menunjukkan pusat penyebaran datanya (mean) dan kesimetrisan dari distribusi data serta panjang box menunjukkan keragaman dan tingkat penyebaran datanya.

  • Jika data berdistribusi normal, maka boxplot akan simetris dengan garis mean dan median berada di tengah box, panjang whisker sama (terdapat beberapa outlier di kiri-kanan whisker)
  • Jika data tidak simetris (skewed), maka garis median tidak terletak di tengah box dan panjang whisker lebih panjang. Terjadi positive skeweness jika outlier berada di bagian atas (atau kanan) boxplot dan whisker bagian atas (atau kanan) lebih panjang. Terjadi negative skewness jika outlier berada di bagian bawah (atau kiri) boxplot dan whisker bagian bawah (atau kiri) lebih panjang.

Gambar 16. Distribusi Data: Normal, Negatively Skewed, Positively Skewed

Sumber: reserachgate.net

Gambar 17. Boxplot Distribusi Normal dan Tidak Normal

Sumber: Wikimedia Commons

  • Histogram dan Density Plot

Histogram adalah adalah grafik dari tabulasi frekuensi berbentuk batang yang mempresentasikan data numerik (kontinu) dan distribusinya (menunjukkan sebaran atau dispersi dari data). Histogram memberikan perkiraan di mana nilai terkonsentrasi, apa yang ekstrem, dan apakah ada kesenjangan atau nilai tidak biasa di seluruh rangkaian data. Untuk melihat apakah suatu data normal atau tidak biasanya membandingkan histogram data dengan kurva probabilitas normal, apakah sama atau tidak.

Gambar 18. Contoh Histogram Normal dan Tidak Normal

Sumber: University of Virginia Library Research Data Services

Selain histogram, terdapat density plot yang merupakan versi smooth dan kontinu dari histogram yang mengunakan kernel density untuk mengestimasi fungsi kepadatan probabilitas dari suatu variabel. Sama seperti histogram, density plot dapat menentukan distribusi serta sebaran suatu data.

Gambar 19. Density Plot untuk Data Normal dengan Mean dan Variance Berbeda

 

Violin Plot

Violin plot merupakan kombinasi dari boxplot dan kernel density plot. Violin plot digunakan untuk menunjukkan distribusi datanya dan probabilitas fungsi kepadatannya. Membaca bentuk violin plot sama seperti cara membaca density plot: bagian yang lebih tebal berarti nilai di bagian tersebut memiliki frekuensi yang lebih tinggi, dan bagian yang lebih tipis menyiratkan frekuensi yang lebih rendah. Disaat bersamaan, violin plot juga mempertahankan summary statistics seperti yang boxplot punya (median, mean, range). Violin plot dapat digunakan untuk memvisualisaikan sampel dalam jumlah kecil dan cocok digunakan meskipun data kita tidak normal (violin plot à non-parametrik).

Gambar 20. Violin Plot

Sumber: datavizcatalogue.com; gist.github.com

 

Chart untuk data spasial:

Maps

Untuk data spasial, visualisasinya identik dengan gambar geografis, biasanya berbentuk peta. Terdapat banyak jenis visualisasi maps dan menggunakan warna dalam menandai suatu daerah tertentu. Yang paling biasanya kita jumpai adalah choropleth map yang menggunakan shading warna untuk menunjukkan region dengan nilai yang berbeda-beda terhadap variabel tertentu. Selain dengan warna, bisa juga dengan penandaan tertentu seperti dengan cluster, dot, bubble (membantu menunjukkan dua variabel sekaligus dengan diwakili warna dan besar bubblenya), atau bentuk-bentuk tertentu.

Gambar 21. Choropleth Map

Sumber: Axis Maps

Gambar 22. Bubble Map

Sumber: visualizingrights.org

 

Dan masih banyak tipe-tipe grafik lainnya:

Sunburst Chart

Sankey Diagram

Gauge Chart

Treemap Chart

Dll.

 

Do and Don’ts dengan Grafik/Chart (Secara Umum)

Ada beberapa hal yang harus kita perhatikan ketika membuat grafik yaa.

Do:

  • Gunakan tipe chart yang sesuai dengan tipe data dan tujuan yang ingin kita sampaikan
  • Jika membandingkan dua atau lebih grafik yang memiliki skala sumbu y, jangan lupa pastikan skalanya sama
  • Skala chart mulai dari 0
  • Memilih chart yang mampu memvisualisasikan jumlah variabel yang sesuai (misal pie chart hanya untuk single variable, sedangkan stacked bar chart bisa lebih dari dua)

 

Don’t:

  • Terlalu banyak menggunakan warna
  • Terlalu banyak memasukkan variabel atau informasi dalam satu grafik
  • Membuat grafik yang misleading ☹

 

Demikian, pengenalan tentang bagaimana kita dapat memvisualisasikan data kita. Selain dapat menganalisis data dengan baik, ada baiknya kita juga mampu menyajikan hasil analisis kita dengan baik pula, sehingga mudah dipahami, efisien, dan tepat sasaran.

 

Referensi:

https://visme.co/blog/types-of-graphs/

https://www.studypug.com/statistics-help/advantages-and-disadvantages-of-different-graphs

https://visme.co/blog/dos-and-donts-chart-making/

https://www.easel.ly/blog/types-of-graphs-and-charts-for-visualizing-data/

https://www.datapine.com/blog/how-to-choose-the-right-data-visualization-types/

https://www.klipfolio.com/resources/articles/what-is-data-visualization

https://www.dundas.com/resources/dundas-data-visualization-blog/25-visualizations-for-25-years

https://blog.hubspot.com/marketing/types-of-graphs-for-data-visualization