ISSN: 1304-7191 | E-ISSN: 1304-7205
Effects of Text Representation Methods in Semantic Space on Classifying Performance
1
Sigma J Eng Nat Sci 2013; 5(): 8-14
Full Text PDF (Turkish)

Abstract

The most discussed issue about classification of texts is how to represent them. Words, stem words, character ngrams and semantic spaces are the common methods. In this research latent semantic indexing and semantic space based on co-occurrence matrix methods are compared with other methods on 30 classed data set. According to other methods the semantic space based on co-occurrence matrix method performs higher success. In addition, performance success of this method does not decrease as much as other methods while number of classes increased.


Metinlerin Anlamsal Uzaydaki Temsil Yöntemlerinin Sınıflandırma Performansına Etkileri
1Yıldız Teknik Üniversitesi, Elektrik-Elektronik Fakültesi, Bilgisayar Müh. Bölümü, Esenler, İSTANBUL
Sigma Journal of Engineering and Natural Sciences 2013; (5): 8-14

Metinlerin sınıflandırılmasında en çok tartışılan sorun metinlerin nasıl temsil edileceğidir. Kelimelerin kendileri, kökleri, karakter ngramları ve anlamsal uzaylar en yoğun olarak kullanılan yöntemlerdir. Bu çalışmada saklı anlam indeksleme ve önerdiğimiz birlikte geçiş matrisi tabanlı anlamsal uzay yöntemleri diğer yöntemlerle 30 sınıflı bir veri kümesi üzerinde karşılaştırılmıştır. Birlikte geçme matrisi tabanlı yöntemin diğer tüm yöntemlere göre çok daha yüksek başarılara ulaştığı görülmüştür. Ayrıca yöntemin diğer tüm yöntemlerin aksine veri kümesindeki sınıf sayısı arttıkça başarısında büyük düşüşler olmadığı görülmüştür.