Forum Replies Created
-
AuthorPosts
-
Taufik Sutanto
KeymasterJika rule klasifikasi-nya bisa dilakukan hanya berdasarkan token/(frase) kata sederhana maka tidak perlu machine learning (NLP/Text Mining cukup). Sebenarnya rule-based ini juga cara kerja decision tree sih … anyway namun rule-based solution walau outdated (1950’s) namun (IMHO) jika permasalahannya mmg sederhana, maka ndak perlu solusi yang kompleks.
Taufik Sutanto
KeymasterRencananya akan dibuat public via utube … cuma mohon maaf saat ini taudata sdg agak hectic, mungkin bulan depan baru available.
Taufik Sutanto
KeymasterWa’alaikumsalam Wr Wb,
Maaf telat respons Pak ….
[1]. Iya penting Pak, tapi bukan penurunan rumusnya. Bahkan dibanyak kasus perhitungan manual juga tidak perlu (untuk level praktisi/profesional).
[2]. Yang terpenting adalah memahami logika rumus. Mulai dari rumus dasar terlebih dahulu. Supaya nanti ketika ketemu model jadi lebih mudah memahami logikanya. Coba saja simak beberapa bahasan di tau-data, pendekatan tau-data adalah logikanya, atau biasa disebut Mathematical/Statistical Thinking.
[3]. Sejauh logika/filosofinya saja Pak. Agar tau why and what-if dari model Data Science.Cheers.
Taufik Sutanto
KeymasterSilahkan jalankan perintah berikut:
print(tweets.columns)
Most likely column “text” tidak ada di dataframe tersebut.
-
This reply was modified 3 months ago by
Taufik Sutanto.
Taufik Sutanto
KeymasterBisa … pada dasarnya algoritmanya
– Buat array/dictionary A berukuran 100
– initialize array A = 1-10=1, 11-20=2, …, dst
– Acak/randomized index Array A.Taufik Sutanto
KeymasterOh I see… iya ini bisa dilihat dari berbagai perspektif … yang paling dasar CTR belaka. Tapi bisa juga buat proporsi email sent/CTR. Atau bahkan juga mempertimbangkan spent bucket-nya. Tapi hati-hati kalau lihat yg 0-500 sepertinya ada indikasi bahwa email delivered lebih penting ketimbang CTR.
“ada indikasi” karena ini hanya analisa lewat EDA/eksplorasi via visualisasi dan statistika dasar.
Taufik Sutanto
KeymasterMaaf, Gambarnya ndak muncul …
Taufik Sutanto
KeymasterSepertinya kesalahan terjadi bukan di elasticsearch-nya … tapi setting di streamer. Request tidak bisa melepas semua resources connection-nya saat response ditutup. Silahkan coba solusi disini: https://stackoverflow.com/questions/26638329/incompleteread-error-when-retrieving-twitter-data-using-python
Taufik Sutanto
KeymasterSalam kenal mas,
Sebenarnya bergantung pada model yang digunakan dan implementai (module) yang dipilih. Tapi jika ada variabel kategori yang memiliki banyak class, maka ada beberapa hal yang bisa dilakukan untuk menghindari sparseness/Curse of Dimensionality (CoD) pada data. Lebih jelasnya silahkan dibaca disini Mas: https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809
Tapi saran saya, sebaiknya bandingkan semua approaches, lalu pilih yg paling optimal untuk kasus Mas. Pengalaman saya, these kind of things they are not set in stones. Seringnya hasilnya berbeda-beda bergantung kasus yang dihadapi.
Good Luck.
Taufik Sutanto
KeymasterSalah satu cara yang paling mudah (bukan paling efisien) adalah lakukan search pola phone number dengan reguler expression biasa seperti yang dijelaskan di module NLPTM-01, lalu lakukan filtering dengan cara berikut (kurang lebih):
- Misal L = List kumpulan phone number seperti yg dicontohkan dari NLPTM-01
hasil = []
for l in L:
____if l[:3]==’021′ and l[-2:]==’27’:
________hasil.append(l)print(hasil)
-
This reply was modified 4 months, 4 weeks ago by
Taufik Sutanto.
Taufik Sutanto
KeymasterMudahnya kaau kita bandingnkan dengan VSM (vector space model) seperti TFIDF di scikit learn vectorizer. Maka di tfidf tsb sebenarnya ada beberapa optimasi yang kita lakukan yang sebenarnya terkait model. Sebut saja MaxDf, mindf, smooth_IDF, dsb.
Di Deep Learning, Feature yang terbentuk sudah di optimalkan thd model klasifikasinya. Bahkan lebih tepatnya “hanya” ke model klasifikasinya. COntohnya Word2Vec dan fastText di representasi feature Text di DL, sebenarnya bisa di “flatten” dengan merata-ratakan tensornya, sehingga membentuk “seperti” VSM. Tapi kalau kita lakukan ini dan masukkan “VSM” gadungan tadi ke model ML (misal Support Vector Machine) maka akurasinya akan sangat buruk.
Hence, input data tidak terstruktur di DL kemudian dikatakan secara automatis dirubah ke dalam bentuk terstrukturnya (Tensor) untuk secara optimal digunakan model klasifikasinya (misal LSTM/CNN).
Taufik Sutanto
Keymasteritu terjadi biasanya karena pakai replace dan bukan tokenisasi terlebih dahulu. Sebaiknya utk menggunakan (set of) stopwords dilakukan atas Token, bukan atas string/kalimat menggunakan replace.
Taufik Sutanto
Keymaster- Sebenarnya bergantung Text Mining apa yang ingin dilakukan.
- Cara paling dasar sebenarnya lakukan Language detection, baru kemudian lakukan Lemma. Namun cara ini computational Cost dan kompleksitas model cukup tinggi.
- Cara lain terjemahkan ke satu bahasa lalu lakukan lemma (seperti yang ditulis di pertanyaan).
Bagaimana caranya silahkan lihat di https://tau-data.id/nlptm-01/ dan https://tau-data.id/nlptm-02/
Taufik Sutanto
KeymasterNdak ada yang satu tempat, tapi bisa buat 2 scrap engine lalu jadikan satu di database:
* http://poskobanjirdsda.jakarta.go.id/
* http://dataonline.bmkg.go.id/homeTambahan: https://bpbd.jakarta.go.id/waterlevel
Please do ethical scrap ya … request jangan terlalu sering ke server pemerintah. Kita harus jaga milik bersama negeri ini.
Taufik Sutanto
KeymasterAda penjelasannya di DSBD-03 dan DSBD-04 … intinya pada pengolahan data tidak terstruktur apapun (text, image, video, suara, dsb) maka prosesnya adalah merubah data tidak terstruktur tsb menjadi data terstruktur (array/matrix/tensor). Proses perubahannya di machine learning konvensional bersifat (semi) manual, misal TF-IDF di vector Space Model di data text. Tapi di Deep learning perhitungan representasi data terstruktur ini automatis di optimasi untuk performa prediksinya. Misal Word Embedding (fastText/Word2Vec) di data text.
Sebelum belajar Deep Learning, sebaiknya perkuat konsep Machine Learning biasa. Walau sekarang banyak tools untuk melakukan deep learning dengan mudah, tapi pemahaman konsep yang baik akan sangat membantu ketika menghadapi berbagai kesulitan di kemudian hari.
-
This reply was modified 3 months ago by
-
AuthorPosts