Forum Replies Created

Viewing 15 posts - 1 through 15 (of 22 total)
  • Author
    Posts
  • in reply to: NLP&Text Mining #7018
    Taufik SutantoTaufik Sutanto
    Keymaster

    Jika rule klasifikasi-nya bisa dilakukan hanya berdasarkan token/(frase) kata sederhana maka tidak perlu machine learning (NLP/Text Mining cukup). Sebenarnya rule-based ini juga cara kerja decision tree sih … anyway namun rule-based solution walau outdated (1950’s) namun (IMHO) jika permasalahannya mmg sederhana, maka ndak perlu solusi yang kompleks.

    in reply to: link video tdk bisa diakses_ADSP-03 #7010
    Taufik SutantoTaufik Sutanto
    Keymaster

    Rencananya akan dibuat public via utube … cuma mohon maaf saat ini taudata sdg agak hectic, mungkin bulan depan baru available.

    in reply to: S2 Data Science #7000
    Taufik SutantoTaufik Sutanto
    Keymaster

    Wa’alaikumsalam Wr Wb,

    Maaf telat respons Pak ….
    [1]. Iya penting Pak, tapi bukan penurunan rumusnya. Bahkan dibanyak kasus perhitungan manual juga tidak perlu (untuk level praktisi/profesional).
    [2]. Yang terpenting adalah memahami logika rumus. Mulai dari rumus dasar terlebih dahulu. Supaya nanti ketika ketemu model jadi lebih mudah memahami logikanya. Coba saja simak beberapa bahasan di tau-data, pendekatan tau-data adalah logikanya, atau biasa disebut Mathematical/Statistical Thinking.
    [3]. Sejauh logika/filosofinya saja Pak. Agar tau why and what-if dari model Data Science.

    Cheers.

    in reply to: Social Media Analytics (SMA) #6975
    Taufik SutantoTaufik Sutanto
    Keymaster

    Silahkan jalankan perintah berikut:

    print(tweets.columns)

    Most likely column “text” tidak ada di dataframe tersebut.

    in reply to: Penggunaan R untuk Statistika #6952
    Taufik SutantoTaufik Sutanto
    Keymaster

    Bisa … pada dasarnya algoritmanya
    – Buat array/dictionary A berukuran 100
    – initialize array A = 1-10=1, 11-20=2, …, dst
    – Acak/randomized index Array A.

    in reply to: Membaca graph #6897
    Taufik SutantoTaufik Sutanto
    Keymaster

    Oh I see… iya ini bisa dilihat dari berbagai perspektif … yang paling dasar CTR belaka. Tapi bisa juga buat proporsi email sent/CTR. Atau bahkan juga mempertimbangkan spent bucket-nya. Tapi hati-hati kalau lihat yg 0-500 sepertinya ada indikasi bahwa email delivered lebih penting ketimbang CTR.

    “ada indikasi” karena ini hanya analisa lewat EDA/eksplorasi via visualisasi dan statistika dasar.

    in reply to: Membaca graph #6887
    Taufik SutantoTaufik Sutanto
    Keymaster

    Maaf, Gambarnya ndak muncul …

    in reply to: Social Media Analytics (SMA) #6814
    Taufik SutantoTaufik Sutanto
    Keymaster

    Sepertinya kesalahan terjadi bukan di elasticsearch-nya … tapi setting di streamer. Request tidak bisa melepas semua resources connection-nya saat response ditutup. Silahkan coba solusi disini: https://stackoverflow.com/questions/26638329/incompleteread-error-when-retrieving-twitter-data-using-python

    in reply to: Data Kategorik yang Beragam #6813
    Taufik SutantoTaufik Sutanto
    Keymaster

    Salam kenal mas,

    Sebenarnya bergantung pada model yang digunakan dan implementai (module) yang dipilih. Tapi jika ada variabel kategori yang memiliki banyak class, maka ada beberapa hal yang bisa dilakukan untuk menghindari sparseness/Curse of Dimensionality (CoD) pada data. Lebih jelasnya silahkan dibaca disini Mas: https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809

    Tapi saran saya, sebaiknya bandingkan semua approaches, lalu pilih yg paling optimal untuk kasus Mas. Pengalaman saya, these kind of things they are not set in stones. Seringnya hasilnya berbeda-beda bergantung kasus yang dihadapi.

    Good Luck.

    in reply to: Regular Expression #6700
    Taufik SutantoTaufik Sutanto
    Keymaster

    Salah satu cara yang paling mudah (bukan paling efisien) adalah lakukan search pola phone number dengan reguler expression biasa seperti yang dijelaskan di module NLPTM-01, lalu lakukan filtering dengan cara berikut (kurang lebih):

    • Misal L = List kumpulan phone number seperti yg dicontohkan dari NLPTM-01

    hasil = []
    for l in L:
    ____if l[:3]==’021′ and l[-2:]==’27’:
    ________hasil.append(l)

    print(hasil)

    in reply to: Penjelasan Deep Learning #6554
    Taufik SutantoTaufik Sutanto
    Keymaster

    Mudahnya kaau kita bandingnkan dengan VSM (vector space model) seperti TFIDF di scikit learn vectorizer. Maka di tfidf tsb sebenarnya ada beberapa optimasi yang kita lakukan yang sebenarnya terkait model. Sebut saja MaxDf, mindf, smooth_IDF, dsb.

    Di Deep Learning, Feature yang terbentuk sudah di optimalkan thd model klasifikasinya. Bahkan lebih tepatnya “hanya” ke model klasifikasinya. COntohnya Word2Vec dan fastText di representasi feature Text di DL, sebenarnya bisa di “flatten” dengan merata-ratakan tensornya, sehingga membentuk “seperti” VSM. Tapi kalau kita lakukan ini dan masukkan “VSM” gadungan tadi ke model ML (misal Support Vector Machine) maka akurasinya akan sangat buruk.

    Hence, input data tidak terstruktur di DL kemudian dikatakan secara automatis dirubah ke dalam bentuk terstrukturnya (Tensor) untuk secara optimal digunakan model klasifikasinya (misal LSTM/CNN).

    in reply to: Filtering stopwords #6553
    Taufik SutantoTaufik Sutanto
    Keymaster

    itu terjadi biasanya karena pakai replace dan bukan tokenisasi terlebih dahulu. Sebaiknya utk menggunakan (set of) stopwords dilakukan atas Token, bukan atas string/kalimat menggunakan replace.

    in reply to: Lematisasi dan Stemming #6541
    Taufik SutantoTaufik Sutanto
    Keymaster
    • Sebenarnya bergantung Text Mining apa yang ingin dilakukan.
    • Cara paling dasar sebenarnya lakukan Language detection, baru kemudian lakukan Lemma. Namun cara ini computational Cost dan kompleksitas model cukup tinggi.
    • Cara lain terjemahkan ke satu bahasa lalu lakukan lemma (seperti yang ditulis di pertanyaan).

    Bagaimana caranya silahkan lihat di https://tau-data.id/nlptm-01/ dan https://tau-data.id/nlptm-02/

    in reply to: Data Mining-open data set for flood forecasting #6536
    Taufik SutantoTaufik Sutanto
    Keymaster

    Ndak ada yang satu tempat, tapi bisa buat 2 scrap engine lalu jadikan satu di database:
    * http://poskobanjirdsda.jakarta.go.id/
    * http://dataonline.bmkg.go.id/home

    Tambahan: https://bpbd.jakarta.go.id/waterlevel

    Please do ethical scrap ya … request jangan terlalu sering ke server pemerintah. Kita harus jaga milik bersama negeri ini.

    in reply to: Penjelasan Deep Learning #6446
    Taufik SutantoTaufik Sutanto
    Keymaster

    Ada penjelasannya di DSBD-03 dan DSBD-04 … intinya pada pengolahan data tidak terstruktur apapun (text, image, video, suara, dsb) maka prosesnya adalah merubah data tidak terstruktur tsb menjadi data terstruktur (array/matrix/tensor). Proses perubahannya di machine learning konvensional bersifat (semi) manual, misal TF-IDF di vector Space Model di data text. Tapi di Deep learning perhitungan representasi data terstruktur ini automatis di optimasi untuk performa prediksinya. Misal Word Embedding (fastText/Word2Vec) di data text.

    Sebelum belajar Deep Learning, sebaiknya perkuat konsep Machine Learning biasa. Walau sekarang banyak tools untuk melakukan deep learning dengan mudah, tapi pemahaman konsep yang baik akan sangat membantu ketika menghadapi berbagai kesulitan di kemudian hari.

Viewing 15 posts - 1 through 15 (of 22 total)