Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą

Pavel Stefanovič; Olga Kurasova

doi:10.15388/Im.2013.0.2058

-

Pavel Stefanovič

Olga Kurasova

Publikuota 2013-01-01

https://doi.org/10.15388/Im.2013.0.2058

24-33.pdf

Kaip cituoti

Stefanovič, P., & Kurasova, O. (2013). Tekstinių dokumentų panašumų paieška naudojant saviorganizuojančius neuroninius tinklus ir k vidurkių metodą. Information & Media, 65, 24-33. https://doi.org/10.15388/Im.2013.0.2058

Atsisiųsti citatas

Anotacija

Straipsnyje nagrinėjama dokumentų panašumų paieška naudojant du populiarius metodus: saviorganizuojančius neuroninius tinklus (SOM) ir k vidurkių metodą. Vienas iš šių metodų tikslų – suskirstyti duomenis į klasterius pagal jų panašumą. Analizuota tekstinių dokumentų matricos sudarymo faktorių įtaka gautiems rezultatams. SOM kokybei įvertinti pasiūlyti du nauji matai, skirti klasifi kuotiems duomenims, kurių reikšmės parodo susidariusių klasterių išsidėstymą SOM žemėlapyje. Pirmasis matas parodo, kaip gerai tos pačios klasės duomenys išsidėsto žemėlapyje vienas šalia kito, antrasis matas – kaip toli yra skirtingų klasių centrai. K vidurkių metodu gautų rezultatų kokybei įvertinti skaičiuota suma nuo klasterio centro iki klasterio narių bei įvertintas klasių nesutapimas su klasteriais. Eksperimentiniams tyrimams atlikti pasirinkti tekstiniai dokumentai, paimti iš Lietuvos Respublikos Seimo dokumentų bazės.

Similarity analysis of text documents by self-organizing maps and k-means
Pavel Stefanovič, Olga Kurasova

Summary
In this paper, we try to fi nd similarities of different text documents by the self-organizing map (SOM) and k-means method. One of the main goals of these methods is to cluster a dataset. Using SOM, the similarities of documents can be observed visually. Both methods can be used only for numerical information, so we analyse the different options by converting text data on to numerical in order to get better results. To estimate the SOM quality, when the classifi ed data are analysed, we propose two new measures: distances between SOM cells, corresponding to data items assigned to the same class, and the distance between centres of SOM cells, corresponding to different classes. We also analyse the results of visualization by self-organizing maps. In order to estimate the k-means quality, we calculate the sum of distances between cluster centres and class members and also we estimate assignment of the data from particular classes to the clusters. The experiments have been carried out using three datasets ocquired from the document database of Seimas of the Republic of Lithuania.

font-family: Calibri, sans-serif;">

24-33.pdf

Nuorodos

Atsisiuntimai

Nėra atsisiuntimų.

Dažniausiai skaitomi to paties autoriaus (-ių) straipsniai

Ričardas Toliušis, Olga Kurasova, Jolita Bernatavičienė, Akies dugno nuotraukų semantinis segmentavimas naudojant konvoliucinius neuroninius tinklus , Information & Media: T. 85 (2019): Informacijos mokslai
Tomas Petkus, Olga Kurasova, Ilona Ciunel, Mokytojų poreikio prognozė , Information & Media: T. 72 (2015): Informacijos mokslai
Kotryna Paulauskienė, Olga Kurasova, Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti , Information & Media: T. 65 (2013): Informacijos mokslai
Olga Kurasova, Virginijus Marcinkevičius, Viktor Medvedev, Aurimas Rapečka, Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis , Information & Media: T. 65 (2013): Informacijos mokslai
Alma Molytė, Olga Kurasova, Vektorių kvantavimo metodų ir daugiamačių skalių junginys daugiamačiams duomenims vizualizuoti , Information & Media: T. 50 (2009): Informacijos mokslai
Pavel Stefanovič, Olga Kurasova, Saviorganizuojančių neuroninių tinklų sistemų lyginamoji analizė , Information & Media: T. 50 (2009): Informacijos mokslai