Grafic Sociologie Românească: rețeaua cuvânt cheie – an
După primul material în care construiam rețeaua dintre anii de publicare (1990-2010) și autori, a venit timpul să vă prezint un grafic cu rețeaua dintre cuvintele cheie și anul de publicare, cu o varianta interactivă. Realizat tot cu Sci2 și Gephi, acesta conturează un profil al temelor abordate de revista Sociologie Românească în intervalul 1990-2010. Înainte de toate, câteva detalii despre realizarea graficului, în speranța evitării unor eventuale neînțelegeri. Articolele nu au fost selectate, fiind incluse toate tipurile de materiale publicate: recenzii, prezentări de conferințe, interviuri etc. Baza de date [*] a fost exportată în format csv și importată în aplicația Sci2. Pentru că în intervalul menționat articolele publicate in Sociologie Românească nu au avut cuvinte cheie sau rezumat în mod constant (mai degrabă nu au avut) am ales să utilizez temenii din titlurile materialelor. Relevanța folosirii acestora pentru a analiza temele abordate de revista Sociologie Românească este, probabil, discutabilă și va face obiectul unui articol separat. Momentan, consider că modul de utilizare al titlurilor specific comunității sociologice locale (evitarea formulărilor „smart”, descriptive, tonul rezervat și specific pentru conținut) este adecvat pentru a contura o tematică a articolelor și a identifica o orientare a politicilor editoriale.
Următorul pas este transformarea titlurilor prin simbolizare, extragerea tulpinii și eliminarea cuvintelor pe care le putem ignora (cu alte cuvinte tokenize, stem and stopword). Normalizarea textului pentru utilizarea în analize calitative de rețea reprezintă un pas important în vizualizarea datelor, iar deciziile pot influența caracteristicile rezultatelor. Simbolizarea reprezintă transformarea titlului în cuvinte separate de un delimitator specific. De exemplu, articolul din 1990 semnat de Ion Mihăilescu „Dificultăți și posibilități în dezvoltarea agriculturii” devine „Dificultăți│și│posibilități│în│dezvoltarea│agriculturii”, permițând tratarea acestuia în mod programatic. Extragerea tulpinii presupune eliminarea sufixelor și prefixelor și păstrarea rădăcinii termenilor. Același titlu poate deveni, în acest fel, prin utilizarea algoritmului SnowBall „Dificultăț│și│posibilităț│în│dezvolt│agricultur”. În lingvistica computațională păstrarea sensului semantic al cuvintelor după extragerea tulpinii reprezintă o provocare și codificarea din cadrul de marcare lexical (ISO/TC 37) în cazul unui simplu articol nu reprezenta un scop în sine. De aceea, am ales o variantă „soft” în care am păstrat sensul intact și pluralul cuvintelor, în forma „Dificultăți│și│posibilități│în│dezvoltare│agricultură”. Următorul pas, eliminarea cuvintelor de legătură și termenilor pe care-i putem ignora, cum ar fi „și, unde, între” etc., termeni fără valoare pentru tipul de analiză pe care l-am propus. Întrucât afișarea caracterelor românești este problematică de-a lungul procesării textului, am decis să transform ăîâșț în literele complementare fără diacritice. În final, pentru că denumirea titlurilor includea nume proprii, orașe sau edituri, am ales ca toți termenii să înceapă cu literă mare, titlul din exemplu devenind la final „Dificultati│Posibilitati│Dezvoltare│Agricultura”. Baza de date cu articolele publicate de revista Sociologie Românească conține, după aceste transformări, 2.997 de concepte (noduri în termenii rețelelor) și 5.343 de relații între acestea.
Graficul, realizat în Gephi, se bazează pe algoritmul Force Atlas 2, schemă adecvată pentru interpretarea calitativă a relațiilor dintre concepte. Fiind un algoritm linear, informațiile sunt prezentate sub forma unui model în care atracția și respingerea este proporțională cu distanța dintre noduri. Modularitatea utilizează comunalitățile dintre concepte pentru a trasa o hartă a rețelei (modularitatea 0,50, numărul de comunalități 17), la primul nivel local („micile comunalități”), apoi agregate iterativ pentru a crea o structură a rețelei de noduri. Ierarhizarea nodurilor și modulelor are la bază distanța medie (7,018), cu cât un nod sau modul fiind mai apropiat de centru rețelei, cu atât legăturile acestuia fiind mai numeroase și diverse. Conceptele sunt filtrate pentru ale elimina pe cele care au mai puțin de două comunalități din dorința de a face graficul mai ușor de citit.
Distribuția și caracteristicile articolelor publicate în revista Sociologie Românească ne pot arăta măsura în care aceasta este reprezentativă pentru comunitatea sociologică, deschiderea către autorii internaționali, variația și influența în timp a unor autori și ne permite identificarea unor tipare publicistice sau teme dominante. Fiind doar un articol de prezentare a modului în care a fost realizată rețeaua, las pentru un material viitor interpretarea acesteia.
[*] Se cuvin mulțumiri Redactorului Șef al revistei Sociologie Românească, Sergiu Bălțătescu, pentru consolidarea bazei de date disponibile cu informațiile bibliografice în format specializat și colectivului de la Institutul de Cercetare a Calității Vieții pentru implicarea în elaborarea acesteia.Bibliografie
Blondel, V.D., Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre (2008) Fast unfolding of communities in large networks, Journal of Statistical Mechanics: Theory and Experiment (10). Retrieve from http://arxiv.org/abs/0803.0476v2.
Lambiotte, R., J.-C. Delvenne and M. Barahona (2009) Laplacian Dynamics and Multiscale Modular Structure in Networks. Retrieve from http://arxiv.org/abs/0812.1770v3.
Gephi. An Open Source Software for Exploring and Manipulating Networks. Gephi Consortium. URL: http://www.gephi.org
Sci2 Team. (2009). Science of Science (Sci2) Tool. Indiana University and SciTech Strategies, https://sci2.cns.iu.edu.