Document Classification with SOM (Self Organizing Map) Method

8:00 AM | Labels: Artificial Intelligence

Metode SOM (Self Organizing Map) atau Kohonen adalah salah satu metode ANN (Artificial Neural Network) yang termasuk ke dalam unsupervised learning atau pelatihan tidak terbimbing, dimana dengan mempergunakan metode ini dapat dilakukan sebuah proses klasifikasi data. Contoh : pengklasifikasian dokumen.

Tujuan dari sebuah sistem klasifikasi dokumen, diantaranya :

Untuk memudahkan dan mengefisiensikan pengambilan / pencarian dokumen yang relevan
Untuk melakukan optimisasi serta meningkatkan akurasi terhadap pencarian dokumen dari topik yang diinginkan.

Unsupervised learning pada SOM yaitu pelatihan yang tidak membutuhkan vektor target untuk menghasilkan keluaran. Pelatihan ini hanya terdiri dari vektor-vektor masukan sebagai pengubah bobot jaringan untuk menghasilkan pola vektor.

Rumusnya (1) :

dan Modifikasi Bobot (2) :

Pendekatan SOM lebih ke arah clustering, meskipun dapat pula dimanfaatkan untuk classification.

Proses clustering dengan menggunakan Kohonen dilakukan pada tahap training, yaitu untuk menghasilkan sejumlah cluster yang diinginkan. Sedangkan proses classification dilakukan pada tahap testing, yaitu untuk mengklasifikasikan data-data testing ke dalam cluster yang ada dan yang sesuai.

Proses klasifikasi dokumen dengan SOM dapat terdiri atas tiga tahap :

1. Tahap Pre-Processing

Stop Words

Merupakan pengecekkan lexicon setiap dokumen untuk memisahkan kata-kata dalam teks dokumen

Contoh teks : "Data Mining Technique"
Lexicon => "Data", "Mining", "Technique" bukan "Data Mining", "Technique"

Mengurangi total kata sebanyak 20%-30% yang berhasil dipisahkan (word list) dengan mencari kata-kata yang signifikan untuk dapat digunakan sebagai kata kunci

Stemming

Merupakan proses normalisasi bentuk linguistik

Contoh : "Connect", "Connection", "Connected", "Connective" diambil bentuk => "Connect"

Metode Stemming salah satunya adalah algoritma Porter's English Stemmer

Term Weighting

Memberikan bobot pada term-term hasil stemming setiap dokumen untuk menghasilkan matriks fitur (m x n) dimana m adalah jumlah term, dan n adalah jumlah dokumen.
Formula term weighting (3) :

Dimensionality Reduction

LSI (Latent Semantic Indexing)
PCA (Principal Component Analysis)

2. Tahap Training

Tahap dimana dilakukan untuk menghasilkan sejumlah cluster dengan bobot-bobot yang sesuai

3. Tahap Testing

Merupakan tahap untuk mengklasifikasikan data testing ke dalam cluster/kelas yang sesuai
Tahap ini akan mempergunakan bobot-bobot dari hasil training untuk mengelompokkan dokumen testing ke dalam kelas yang sesuai