Apakah metode Monte Carlo itu? Bagaimana cara kerjanya? Pada situasi seperti apa saya memerlukan metode Monte Carlo?

Untuk menjawab pertanyaan – pertanyaan tersebut, perhatikan contoh berikut.

Pada contoh model Poisson (link), diperoleh distribusi posterior dari parameter  dan  adalah:

Ada dugaan bahwa banyaknya kasus korupsi di lembaga B lebih banyak dibandingkan dengan di lembaga A. Secara matematis, dugaan ini dapat dituliskan sebagai

,

untuk suatu nilai   .

Bagaimana menghitung nilai  ?




Dengan menyelesaikan integral berikut,

 

 

Bagi yang tidak terlalu menyukai kalkulus , aproksimasi Monte Carlo bisa menjadi alternatif pilihan untuk mencari nilai dari integral di atas.

 

Bagaimana caranya?

  • Misalkan kita tertarik terhadap parameter .
  • Misalkan pula  adalah realisasi dari sampel yang berasal dari distribusi .
  • Seandainya kita bisa mengambil sampel, misal sebanyak  nilai  dari distribusi posterior , yaitu:

Maka, distribusi empiris dari sampel  merupakan aproksimasi untuk ,

dengan tingkat ‘keakuratan’ makin tinggi untuk  yang lebih besar.

 

Law of large numbers

Jika adalah sampel i.i.d dari distribusi , maka   untuk .

 

Yang berarti:

  • distribusi empiris dari
  • median dari 

Dan berbagai bentuk informasi lain tentang  dalam bentuk  yang berbeda, dapat diaproksimasi menggunakan sampel yang diperoleh menggunakan Monte Carlo.

Misal, untuk distribusi posterior dari  pada contoh di atas,

.

Jika diambil sampel untuk  menggunakan metode Monte Carlo, maka seperti dalam grafik berikut:

Histogram dan densitas (empiris = merah, sebenarnya = biru) untuk data dari distribusi Gamma (38,43) menggunakan metode Monte Carlo. M adalah ukuran sampel.
Histogram dan densitas (empiris = merah, sebenarnya = biru) untuk data dari distribusi Gamma (38,43) menggunakan metode Monte Carlo. M adalah ukuran sampel.

Terlihat bahwa semakin besar ukuran sampel, maka distribusi empiris makin mendekati distribusi yang sebenarnya.

Untuk contoh model Poisson di atas, karena dapat diperoleh solusi analitik untuk distribusi posteriornya:

, dan

maka, beberapa ringkasan numerik untuk kedua parameter tersebut juga dapat diperoleh langsung.

Misal untuk data A:

  • mean 
  • Interval kepercayaan   sedemikian sehingga

Menggunakan R,

Perbandingan ketiga nilai kuantitas di atas secara eksak dengan metode Monte Carlo dapat dirangkum dalam dalam tabel berikut:

Terlihat bahwa semakin besar ukuran sampel, maka taksiran Monte Carlo makin mendekati nilai yang sesungguhnya.

 

Sebesar apakah ukuran sample yang diperlukan?

Tergantung pada seberapa besar tingkat toleransi kita terhadap penyimpangan nilai taksiran terhadap nilai sesungguhnya.

Bagaimana mengukurnya?

Gunakan standar error Monte Carlo.

Central limit theorem:

Misalkan  adalah mean dari sampel Monte Carlo, maka

Sehingga, standar error Monte Carlo adalah

 , dengan .

Aproksimasi Monte Carlo untuk interval kepercayaan 95% dari mean posterior  adalah .

Bagaimana menggunakannya?

Misal, dari sampel Monte Carlo berukuran M=100 diperoleh .

Maka, standard error Monte Carlo adalah .

Jika ingin selisih antara hasil estimasi dari Monte Carlo dengan  sekecil mungkin, misal dengan probabilitas tinggi, maka ukuran sampel Monte Carlo harus ditambah menjadi:

.

 

Secara grafis juga bisa ditentukan kira – kira ukuran sampel yang diperlukan supaya estimasi Monte Carlo sedekat mungkin dengan nilai sebenarnya.

Dengan syntax R berikut,

 

diperolah grafik perubahan nilai mean, , dan kuantil ke 97.5% ( dimana ) untuk ukuran sampel Monte Carlo hingga 1000.

Nilai estimasi berdasarkan sampel Monte Carlo. Saat ukuran sampel membesar, estimasi semakin stabil. Garis horizontal adalah nilai eksak.
Nilai estimasi berdasarkan sampel Monte Carlo. Saat ukuran sampel membesar, estimasi semakin stabil. Garis horizontal adalah nilai eksak.

Bagaimana jika ingin melakukan prediksi?

Gunakan distribusi predictive.

Kembali pada contoh model Poisson:

  • Jika diketahui nilai  sebenarnya, maka dapat ditentukan probabilitas terjadi  kasus korupsi di lembaga A menggunakan :

Model sampling : .

Akan tetapi, nilai kita tidak tahu nilai sebenarnya dari , sehingga diduga melalui prior .

Untuk prediksi, selanjutnya berdasarkan apakah ada tambahan informasi data sampel atau tidak.

  • Seandainya tidak ada data sample, maka distribusi predictivenya adalah:

 

Bentuk di atas disebut prior predictive distribution.

  • Seandainya ada data sample  , maka distribusi predictive adalah:

Bentuk di atas disebut posterior predictive distribution.

Dalam aplikasinya,  cukup rumit untuk dievaluasi secara langsung.

Prosedur Monte Carlo bisa digunakan dalam hal ini, secara tidak langsung.

 adalah sampel dari distribusi marginal posterior ,  a.k.a distribusi posterior predictive. Penghitungan statistik yang akan diprediksi dengan mudah dilakukan pada data sampel ini.

 

Sebagai contoh, kembali pada pertanyaan di awal pembahasan:

Ada dugaan bahwa banyaknya kasus korupsi di lembaga B lebih banyak dibandingkan dengan di lembaga A. Secara matematis, dugaan ini dapat dituliskan sebagai

,

dengan suatu nilai   .

Bagaimana menghitung nilai  ?

 

Dengan menggunakan R, prosedur di atas adalah:

Hasil di atas menunjukkan bahwa probabilitas mendapatkan lebih banyak kasus korupsi di lembaga B dibandingkan dengan lembaga A adalah 0.3457?

Apakah angka ini cukup menunjang klaim kebijakan e-budgeting menekan angka korupsi?

Syntax R untuk contoh di atas dapat diunduh di sini(montecarlo).