Ketika kita membaca teorema Pytagoras:
“Jika diberikan segitiga siku-siku maka kuadrat panjang sisi miringnya adalah penjumlahan kuadrat dua sisi lainnya“
maka kita akan mudah memahami bahwa akibat (syarat perlu/necessary condition) hanya bisa dipastikan kebenarannya jika asumsi (syarat cukup/sufficient condition) terpenuhi. Artinya kalau diberikan segitiga yang bukan siku-siku, maka tidak ada jaminan (yang diberikan oleh teorema Pytagoras) bahwa panjang kuadrat suatu sisinya merupakan penjumlahan dari kuadrat sisi lainnya (Gambar 1).
![]() |
Gambar 1. Segitiga acute (tajam), right (siku), dan obtuse (tumpul) serta hubungan sisi-sisinya. |
Dalam hal ini asumsi adalah syarat (requirement), namun apakah asumsi di Statistika (atau Data Science/Data Mining/Machine Learning) juga sama dengan contoh ini? Hhmm… iya dan tidak; sayangnya tidak sesederhana contoh diatas dan sedihnya cukup banyak yang memahami asumsi model² statistik hanya sebatas requirement saja. Walhasil sering kita temui orang² yang melakukan analisa data, tapi terasa seperti hafalan tahapan²/procedural saja (sangat kaku).
Persis seperti orang yang baru belajar masak, lalu mengikuti resep kata-per-kata. Kalau ndak ada salah satu bahan atau bumbu kurang sedikit, ia fikir masakannya bukan lagi sayur asem. Padahal (misal) pakai atau ndak pakai oncom, sayur asem tetap sayur asem kok .. 🙂 .. Tapi sayur asem wajib pakai asem, karena kalau tidak masakannya tidak lagi bernama sayur asem. Nah, asumsi² di model statistik mirip seperti ini. Mari kita bahas lebih jauh.
Tulisan ini akan dibagi menjadi beberapa bagian:
- Kenapa sih ada asumsi? Bolehkah kita hiraukan?
- Hubungan asumsi dan interpretasi dan bagaimana jika asumsi tidak terpenuhi?
- Kenapa banyak paper (terutama data mining & machine learning) tidak membahas tentang asumsi modelnya?
- Beberapa catatan penutup.
Kenapa sih ada asumsi?

Dimana









![]() |
Gambar 2. Terdapat variasi nilai y yang mungkin untuk suatu nilai x [source]. |
Setelah memahami hal tersebut, mulailah kita membahas apa asumsi² yang muncul. Mari kita mulai dengan membahas bagaimana parameter dihitung. Salah satu cara dalam menghitung parameter
adalah dengan menggunakan metode Least Squares. Prosesnya relatif mudah, untuk yang tidak suka matematika (rumus²) jangan hawatir. Kita akan membahas filosofi (intuisi) rumusnya saja bukan proses matematisnya. Atau kalau ga bisa tahan juga skip ke kesimpulan di bawah penurunan rumusnya (tulisan biru).
Prosesnya diawali dengan menuliskan fungsi regresi diatas ke dalam bentuk eksplisit fungsi error, yaitu:
atau jika kita gunakan pengamatan individualnya menjadi
Kalau semua error tersebut dijumlahkan, maka berubah menjadi:
Orang Matematika suka dengan bentuk kuadrat (squares) alasannya karena nanti fungsinya mudah untuk diturunkan dan dicari nilai optimalnya. Nilai optimalnya dalam hal ini adalah minimum error. Persamaan terakhir berubah menjadi.
Nah kalau persamaan diatas diturunkan terhadap dan
untuk meminimumkan error
, maka didapat rumus untuk menghitung parameter regresi yang cukup tenar, yaitu:
Nah sekarang baru deh muncul asumsi. Perhatikan ada invers matriks di persamaan terakhir . Berarti kita harus mengasumsikan sesuatu agar kita yakin invers tersebut ada. Kalau tidak parameter persamaan regresi tidak dapat dihitung. Asumsi tersebut adalah:
1. jumlah data > jumlah variabel
2. Tidak ada kombinasi linear antar variabel (~multicollinearity)
Asumsi 2 juga sebenarnya mengatakan “hampir” kombinasi linear-pun sebaiknya tidak ada (biasa disebut sebagai multicollinearity). Mengapa? Silahkan baca buku Komputasi Sains (scientific computing) tentang matrix sensitivity (dan condition number). “Hampir” kombinasi linear mengakibatkan model regresi yang didapat menjadi sensitif. Perubahan sedikit pada data mengakibatkan perubahan drastis pada nilai parameter yang didapat. Dengan bahasa yang sederhana, kelak jika kita menginterpretasi model regresinya menggunakan parameter
maka bisa jadi interpretasi tersebut tidak reliabel atau bahkan tidak valid.
Selanjutnya kita tentu saja juga mengharapkan jika diberikan data x, maka errornya nol (0). Orang matematika menuliskan “harapan” sebagai ekspektasi (E) dan ditulis sebagai:
atau sering ditulis dalam bentuk singkat
Ekspektasi dari sesuatu kalau di (statistika) matematika adalah rata-rata (mean). Sehingga muncullah asumsi ke-3:
3.
Asumsi ini maknanya: untuk memprediksi y kita hanya butuh x atau jika ditulis secara matematis: (perhatikan
menghilang). Ada literatur yang menuliskan makna lain dari asumsi ini sebagai: Y dipengaruhi X secara langsung tanpa dipengaruhi variabel (confounding) lain. Apa itu variabel confounding? silahkan baca disini.
Masih ingat di pembahasan awal saya mengatakan interpretasi kedua regresi dengan menggunakan konsep rata-rata Y merupakan kunci penting dalam memahami tentang asumsi statistik? Sekarang kita akan membahasnya lebih lanjut. Agar persamaan regresi yang kita dapat bisa menjelaskan Y dengan baik maka masuk akal kalau kita menginginkan agar terdapat hubungan linear antara X dan Y (melalui ). Apa maksudnya melalui
? Maksudnya persamaan regresi itu linear terhadap
bukan X. Ingat pada aplikasinya X adalah data (konstan), yang masih berupa “variabel” adalah
.
Kemudian karena asumsi linear diatas, maka masuk akal jika kita menginginkan bahwa rata-rata Y di setiap nilai X-nya berada pada suatu garis lurus. Secara formal orang Statistik/Matematik bilangnya variasi dari error-nya konstan. Nah dari 2 paragraf terakhir ini muncullah 2 asumsi lain:
4. Terdapat hubungan linear antar Y dan X
5. Variasi konstan:
Jangan bingung dengan simbol , itu hanya simbol untuk menyatakan bahwa variasi tidak bergantung x (bukan
atau
).
Kita baru setengah jalan. Sabar ya … 🙂 … (mangkanya saya butuh beberapa hari untuk nulis post ini 🙁 ) …. Kemudian ada lagi hal yang kita inginkan dari pemodelan diatas. Kita ingin urutan data tidak mempengaruhi pemodelan. Jika saling mempengaruhi nanti jadinya Time Series Analysis atau Stochastic Modelling (kita bahas kapan-kapan saja 🙂 ). Dengan kata lain prediksi Y untuk 2 atau lebih nilai X tidak saling mempengaruhi satu sama lain. Orang Matematika bilangnya pengamatannya independent, orang Statistik lalu mengejawantahkan sebagai asumsi ke-6.
6. Error-nya tidak berkorelasi (biasa ditulis untuk
)
Perhatikan sejauh ini tidak dibutuhkan asumsi kenormalan. Kalau kita lihat di buku-buku statistik, estimasi parameter dengan cara diatas adalah BLUE (best linear unbiased estimator). Dengan bahasa sederhananya: “taksiran parameter yang baik”. Yang artinya lagi sebenarnya untuk sekedar prediksi dengan regresi kita tidak membutuhkan asumsi kenormalan.
“Loh, tunggu dulu Gan…. sesat ente … banyak literatur bilang salah satu asumsi regresi adalah datanya normal“. Tunggu dulu, sabar. Kita belum selesai membedah model regresi diatas. Asumsi 3,4,5,6 bisa “disederhanakan” dengan hanya satu asumsi yaitu error-nya berdistribusi normal. Yess… error-nya yang berdistribusi normal (lihat Gambar 3).
![]() |
Gambar 3. Error (hence Y) berdistribusi normal [source]. |
Loh?… tapi kitakan ndak punya nilai error (karena kita tidak tau true mean value dari Y). Lalu bagaimana cara memeriksanya? Untungnya para ilmuwan (Statistika Matematika) sudah mau berpusing-pusing untuk kita dan mereka bisa menunjukkan bahwa jika error berdistribusi normal maka begitu juga Y. Sehingga itulah sebab kita memeriksa kenormalan dari Y.
Tapiiii… tunggu dulu …. Kembali kita harus bersyukur kepada para ilmuwan Matematika/Statistika. Mereka mengemukakan Central Limit Theorem yang berbunyi kurang lebih: jika kita punya himpunan berbagai sampel dari sebuah populasi, maka rata-rata dari kumpulan sampel tersebut akan mendekati distribusi normal jika ukuran sampel membesar. Apa akibat atau artinya? berarti untuk data yang relatif besar (menurut beberapa literatur n>50) Regresi robust terhadap asumsi kenormalan. Robust dalam bahasa yang sederhana artinya kurang lebih “tidak terlalu bergantung”.
Asumsi dan Interpretasi
Sebenarnya masih ada asumsi-asumsi lain yang belum dibahas (baca disini). Namun karena post-nya sudah kepanjangan dan bikin saya laper maka saya cukupkan sampai disini dulu. Setidaknya sampai disini sudah jelas bahwa “asumsi statistika tidak selalu merupakan requirement“. Utamanya ia muncul dari bagaimana kita melakukan pemodelan/perhitungan-nya serta ekspektasi kita akan sifat dari model. Beberapa model juga tidak sensitif (baper) terhadap asumsi tertentu, sehingga sedikit melanggar biasanya masih tidak mengapa (i.e. robust).
Jika asumsi tidak terpenuhi maka minimal ada dua kemungkinan yang akan terjadi: hasil perhitungan tidak bisa dipertanggung-jawabkan atau ada sifat model (konsekuensi) yang tidak bisa kita simpulkan (infer). Dengan kata lain asumsi mempengaruhi interpretasi. Kita bahas lebih detail jika kita ketemu di mata kuliah Statistik/Data Science … 🙂 …
Kenapa ada literatur (paper) tidak membahas asumsi?
Ada beberapa kemungkinan akan hal ini:
- Husnudzan (berbaik sangka): di balik layar sudah diperiksa oleh penulis.
- Kalau di tulis semua detail asumsi akan membuat paper tidak fokus dan bulky (kepanjangan).
- Su’udzan (buruk sangka): penulis tidak paham pentingnya asumsi dalam modelnya.
- Untuk objektif yang diutarakan paper beberapa asumsi tidak penting. Misal cuma untuk prediksi atau datanya relatif besar (sehingga memeriksa kenormalan tidak perlu – di Regresi).
- Penulis hanya melakukan data eksplorasi (Knowledge Discovery in Databases ~ Data Mining) dimana kesimpulan dan informasi seringnya dilakukan hanya atas data observasi dan tidak (belum) ada inferensia ke populasi dilakukan.
Penutup
- Persamaan regresi (konvensional) sebenarnya lebih tepat jika ditulis sebagai:
- Selain metode least squares diatas ada cara lain dalam menghitung parameter: MLE (Maximum Likelihood Estimator). Namun jika asumsi kenormalan terpenuhi maka OLS=MLE.
- Jika X kategorik maka kenormalan diperiksa pada setiap kelas di variabel tersebut.
- Kenormalan dibutuhkan untuk hypothesis testing di Regresi (kalau dibahas panjang).
- Jika asumsi tidak terpenuhi ada beberapa cara yang bisa dilakukan untuk menanganinya (e.g. baca disini). Tapiiii… hati-hati, interpretasi modelnya menjadi lebih sulit (berbeda).
- Kita hanya membahas Regresi, namun untuk model lain peran asumsi di model tersebut juga bisa dianalogikan (serupa filosofinya).
- Kita sebenarnya butuh asumsi, agar perhitungan parameter menjadi mudah (seragam) dan kita yakin bahwa interpretasi (kesimpulan) yang kita buat valid.
- Konsekuensinya belajar Data Science (mining) bukan hanya tentang memanggil modul di R (Python) atau library di Hadoop/Spark. Tapi memahami dengan baik filosofi dari setiap model yang digunakan. Gagal memahami hal ini bisa mengakibatkan kerugian sangat besar (hingga milyaran rupiah) bagi perusahaan. Bukan hanya dari biaya cloud/infrastruktur yang terbuang percuma, tapi juga decision making yang salah akibat model (& interpretasinya) yang tidak tepat.
- Semua model pada prinsipnya salah (tidak tepat karena probabilistik/stokastik), tapi sebagian dari model-model yang salah tersebut berguna – George Box
You must log in to post a comment.