Open Knowledge is Our Main Pillar › Forums › Exploratory Data Analysis › Data Kategorik yang Beragam
- This topic has 1 reply, 2 voices, and was last updated 4 months ago by
Taufik Sutanto.
-
AuthorPosts
-
-
28/10/2020 at 08:36 #6804
Tubagus Hadi
ParticipantSalam Pak Taufik,
Izin tanya terkait dengan yang bapak sampaikan di EDA 01 tentang data preprocessing untuk hati2 mengolah data kategorik yang beragam, yang ingin saya tanyakan, jika ada case data kategoriknya adalah nama2 kecamatan disuatu daerah yang jumlahnya bisa lebih dari 20 data kemudian ingin dimasukkan kedalam model, sebaiknya dilakukan one hot encoding atau dengan label encoder?saya sudah coba keduanya, jika :
one hot encoding –> attributnya jadi banyak sehingga fitur di modelnya jadi banyak dan ketika feature selection hanya berkurang sedikit, running time model jadi agak lama
label encoder –> data kecamatan akan berurutan mulai dari 1-20 misalnya, khawatir model akan menganggap data kecamatan memiliki peringkat 1-20.mohon sarannya, terimakasih
-
31/10/2020 at 10:35 #6813
Taufik Sutanto
KeymasterSalam kenal mas,
Sebenarnya bergantung pada model yang digunakan dan implementai (module) yang dipilih. Tapi jika ada variabel kategori yang memiliki banyak class, maka ada beberapa hal yang bisa dilakukan untuk menghindari sparseness/Curse of Dimensionality (CoD) pada data. Lebih jelasnya silahkan dibaca disini Mas: https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809
Tapi saran saya, sebaiknya bandingkan semua approaches, lalu pilih yg paling optimal untuk kasus Mas. Pengalaman saya, these kind of things they are not set in stones. Seringnya hasilnya berbeda-beda bergantung kasus yang dihadapi.
Good Luck.
-
-
AuthorPosts
- You must be logged in to reply to this topic.