Document Classification with SOM (Self Organizing Map) Method

Metode SOM (Self Organizing Map) atau Kohonen adalah salah satu metode ANN (Artificial Neural Network) yang termasuk ke dalam unsupervised learning atau pelatihan tidak terbimbing, dimana dengan mempergunakan metode ini dapat dilakukan sebuah proses klasifikasi data. Contoh : pengklasifikasian dokumen.

Tujuan dari sebuah sistem klasifikasi dokumen, diantaranya :
  • Untuk memudahkan dan mengefisiensikan pengambilan / pencarian dokumen yang relevan
  • Untuk melakukan optimisasi serta meningkatkan akurasi terhadap pencarian dokumen dari topik yang diinginkan.

Unsupervised learning pada SOM yaitu pelatihan yang tidak membutuhkan vektor target untuk menghasilkan keluaran. Pelatihan ini hanya terdiri dari vektor-vektor masukan sebagai pengubah bobot jaringan untuk menghasilkan pola vektor.
Rumusnya (1) :
 dan Modifikasi Bobot (2) :

Pendekatan SOM lebih ke arah clustering, meskipun dapat pula dimanfaatkan untuk classification.
Proses clustering dengan menggunakan Kohonen dilakukan pada tahap training, yaitu untuk menghasilkan sejumlah cluster yang diinginkan. Sedangkan proses classification dilakukan pada tahap testing, yaitu untuk mengklasifikasikan data-data testing ke dalam cluster yang ada dan yang sesuai.

Proses klasifikasi dokumen dengan SOM dapat terdiri atas tiga tahap :

1. Tahap Pre-Processing
    • Stop Words
      • Merupakan pengecekkan lexicon setiap dokumen untuk memisahkan kata-kata dalam teks dokumen
        • Contoh teks : "Data Mining Technique"
        • Lexicon => "Data", "Mining", "Technique" bukan "Data Mining", "Technique"
      • Mengurangi total kata sebanyak 20%-30% yang berhasil dipisahkan (word list) dengan mencari kata-kata yang signifikan untuk dapat digunakan sebagai kata kunci
    • Stemming
      • Merupakan proses normalisasi bentuk linguistik
        •  Contoh : "Connect", "Connection", "Connected", "Connective" diambil bentuk => "Connect"
      • Metode Stemming salah satunya adalah algoritma Porter's English Stemmer
    • Term Weighting
      • Memberikan bobot pada term-term hasil stemming setiap dokumen untuk menghasilkan matriks fitur (m x n) dimana m adalah jumlah term, dan n adalah jumlah dokumen.
      • Formula term weighting (3) :
    • Dimensionality Reduction
      • LSI (Latent Semantic Indexing)
      • PCA (Principal Component Analysis)

2. Tahap Training
  • Tahap dimana dilakukan untuk menghasilkan sejumlah cluster dengan bobot-bobot yang sesuai

3. Tahap Testing
  • Merupakan tahap untuk mengklasifikasikan data testing ke dalam cluster/kelas yang sesuai
  • Tahap ini akan mempergunakan bobot-bobot dari hasil training untuk mengelompokkan dokumen testing ke dalam kelas yang sesuai

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

5 comments:

Ahmad Faza said...

terima kasih
sangat membantu artikelnya untuk tugas akhir saya

Dian Pratiwi said...

u're welcome fazza...

Unknown said...

halo

Dian Pratiwi said...

Ya hallo juga

Buku Harianku said...

terima kasi ibu, artikel ibu sangat membantu untuk tugas akhir saya

Post a Comment

UNIVERSITAS TRISAKTI - Takwa Tekun Terampil - Asah Asih Asuh - Setia Satria Sportif

Total Pageviews