Data Kategorik yang Beragam

Viewing 1 reply thread
  • Author
    Posts
    • #6804
      Tubagus HadiTubagus Hadi
      Participant

      Salam Pak Taufik,

      Izin tanya terkait dengan yang bapak sampaikan di EDA 01 tentang data preprocessing untuk hati2 mengolah data kategorik yang beragam, yang ingin saya tanyakan, jika ada case data kategoriknya adalah nama2 kecamatan disuatu daerah yang jumlahnya bisa lebih dari 20 data kemudian ingin dimasukkan kedalam model, sebaiknya dilakukan one hot encoding atau dengan label encoder?saya sudah coba keduanya, jika :
      one hot encoding –> attributnya jadi banyak sehingga fitur di modelnya jadi banyak dan ketika feature selection hanya berkurang sedikit, running time model jadi agak lama
      label encoder –> data kecamatan akan berurutan mulai dari 1-20 misalnya, khawatir model akan menganggap data kecamatan memiliki peringkat 1-20.

      mohon sarannya, terimakasih

    • #6813
      Taufik SutantoTaufik Sutanto
      Keymaster

      Salam kenal mas,

      Sebenarnya bergantung pada model yang digunakan dan implementai (module) yang dipilih. Tapi jika ada variabel kategori yang memiliki banyak class, maka ada beberapa hal yang bisa dilakukan untuk menghindari sparseness/Curse of Dimensionality (CoD) pada data. Lebih jelasnya silahkan dibaca disini Mas: https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809

      Tapi saran saya, sebaiknya bandingkan semua approaches, lalu pilih yg paling optimal untuk kasus Mas. Pengalaman saya, these kind of things they are not set in stones. Seringnya hasilnya berbeda-beda bergantung kasus yang dihadapi.

      Good Luck.

Viewing 1 reply thread
  • You must be logged in to reply to this topic.