Analisis dan Implementasi Kesamaan Semantik Antar Kata Berbahasa Inggris Menggunakan Pointwise Mutual Information Max dengan Wikipedia Sebagai Corpus


  • Shervano Naodias Siagian Telkom University
  • Moch. Arif Bijaksana Telkom University


Abstrak Sejumlah besar data informasi dapat disimpan dalam basis data di internet. Salah satu jenis data informasi yang sering digunakan oleh manusia adalah data dalam bentuk teks. Selama menggunakan data teks untuk mencari sesuatu di internet biasanya memanfaatkan kata kunci, padahal satu kata bisa saja memiliki makna yang berbeda. Misalnya mencari kata “bat†di internet, bisa saja search engine akan menampilkan artikel tentang kelelawar atau alat pemukul baseball. Seiring adanya kasus tersebut memicu penelitian yang terkait data teks meningkat, penelitian ini sering disebut dengan text mining. Salah satu implementasi dari penelitian data teks adalah semantic similarity yaitu melihat kemiripan makna pasangan kata dengan memberikan nilai similarity. Untuk menganalisis kemiripan makna pada pasangan kata diperlukan adanya suatu sistem yang dapat menghitung nilai kemiripan antara sepasang kata dengan menggunakan metode PMImax dan menggunakan gold standard untuk mendapatkan nilai korelasi sistem sebagai evaluasi. Dari hasil penelitian menggunakan korelasi pearson, didapat nilai korelasi terbesar yaitu 0.71 (Miller-Charles) dan nilai korelasi terkecil adalah -0.03 (SimLex-999). Hal tersebut disebabkan karena banyak pasangan kata yang ada didalam gold standard (Miller-Charles) ada didalam korpus wikipedia sehingga memiliki nilai similarity. Sedangkan untuk gold standard (SimLex-999) banyak pasangan kata yang tidak ada didalam korpus wikipedia, sehingga nilai similarity menghasilkan nilai 0.

Kata kunci : Semantic Similarity, Pointwise Mutual Information Max, Wikipedia, Gold

Standard, Pearson Correlation Abstract Majority of data information stored in the internet nowadays are based on texts, this system ease the internet users to search with keywords they attemp for search engine, e.g. word â€bat†would probably show up as animal or in the otherhand would probably show up as with the article about baseball. Over the existence of such cases trigger has also increased the text data related research, which is often referred to as text mining. One of the implementations on the data text research is the semantic similarity, that by giving couples the value of the similarity to measure the resemblance of the meaning of the word-pairs. To analyze the similarity of meaning to the word-pairs, a system was built that can calculate the value of the similarity between a pair of words semantically using Pointwise Mutual Information Max (PMImax) and use the gold standard to evaluate and to get the value of the correlation system. The result of PMImax method, obtained the largest correlation value i.e. 0.71 with gold standard dataset Miller-Charles use Pearson Correlation. While the smallest correlation value is -0.03 with the gold standard dataset of (SimLex-999). This is because many of the gold standard dataset Miller-Charles word-pairs were also be found in the wikipedia corpus. consequently, these word-pairs will obtain their similarity value. Consequently, for those word-pairs that were of gold standard dataset SimLex-999 but they were not be in the wikipedia corpus, they will produces a similarity value of 0.

Keywords: Semantic Similarity, Pointwise Mutual Information Max, Wikipedia, Gold Standard, Pearson Correlation






Program Studi S1 Informatika