Filtering stopwords

Viewing 1 reply thread
  • Author
    Posts
    • #6545
      Gery Ferdian AlyGery Ferdian Aly
      Participant

      Izin saya Gery Ferdian Aly mau bertanya

      Saat mencoba mengolah data teks twitter saya menemukan tweet 1 huruf saja seperti “a”,”u”,dst. Karena lumayan noise terhadap data, pada tahap preprocessing data ,saya mencoba menghilangkan stopwords tersebut dengan menambahkan huruf seperti diatas ke dalam list stopwordnya supaya datanya menjadi lebih bersih. Ternyata setelah diolah, terdapat beberapa kata yang hurufnya ada di list stopwordnya hilang, misal kata “bagus” jadi “bags” ,dst. Apakah menambahkan 1 huruf saja ke list dapat memengaruhi keseluruhan token atau sebaiknya langkah apa supaya data yang mengandung 1 huruf itu bisa diremove dengan baik?

      Terima Kasih

    • #6553
      Taufik SutantoTaufik Sutanto
      Keymaster

      itu terjadi biasanya karena pakai replace dan bukan tokenisasi terlebih dahulu. Sebaiknya utk menggunakan (set of) stopwords dilakukan atas Token, bukan atas string/kalimat menggunakan replace.

Viewing 1 reply thread
  • You must be logged in to reply to this topic.