Plantão

Software levanta literatura científica e identifica comunidades

Software levanta literatura científica e identifica comunidades
Programa permite rastrear os artigos mais relevantes de cada área e mapear a organização dessas áreas, com suas comunidades e conexões.[Imagem: Filipe N. Silva]

Busca científica

A busca de informação na internet por meio de palavras-chave é uma atividade trivial, integrada ao cotidiano de usuários do mundo todo.

Mas selecionar em meio a milhares de referências aquelas que realmente possuem relevância científica é algo bem mais complicado. Mais ainda saber como as informações relevantes estão organizadas, como se estrutura a grande área daquele campo de estudos, quais são suas subáreas, quais são as comunidades que nelas atuam ou que conexões as diferentes comunidades mantêm entre elas. E tudo isso é fundamental para quem precisa fazer um levantamento da literatura especializada em qualquer domínio da ciência.

"A metodologia permite visualizar a área, inteirar-se das palavras-chave mais importantes de cada subárea, conhecer as conexões entre as subáreas, e, finalmente, ter acesso aos artigos que realmente interessam", disse Filipi Nascimento Silva.

Considerando que as publicações em revistas indexadas constituem bases de dados de alta relevância e que já existem sistemas de busca por meio de palavras-chave muito eficientes, o desafio que os autores do estudo se propuseram foi o de organizar todo o material que pode ser levantado.

"Procuramos dispor essas informações em uma estrutura hierárquica em forma de árvore. Para isso, combinamos dois procedimentos distintos. O primeiro foi determinar, em cada conjunto de artigos, os artigos mais relevantes. O segundo foi rotular as diferentes comunidades que compõem as diversas áreas", explicou o coordenador do estudo, Osvaldo Novais de Oliveira Júnior, professor do Instituto de Física de São Carlos.

Comunidades do saber

A determinação dos artigos mais relevantes foi feita por meio de redes de citações. Nestas, cada artigo é tratado como um nó da rede. E cada citação de um artigo por outro é considerada uma conexão.

Artigos muito citados tornam-se nós com muitas conexões e grupos de nós muito conectados entre eles, mas não conectados a nós de outros grupos, definem comunidades, como subconjuntos mais específicos do conjunto geral. Isso tudo foi feito com técnicas usualmente empregadas na ciência das redes.

Para rotular as diferentes comunidades - o segundo procedimento - foi utilizada tecnologia de análise de texto. A partir do título e do resumo de cada artigo, e descartando-se palavras que têm alta frequência em qualquer tipo de texto (como as conjugações dos verbos ser e haver, artigos, preposições e substantivos que aparecem com igual frequência nas mais diversas áreas), foram levantados os tópicos mais importantes de cada artigo. Com isso, estabeleceram-se os rótulos.

"Juntando os dois tipos de informação, temos um mapa de cada área, com suas diferentes comunidades e conexões, seus artigos mais importantes e influentes, e assim por diante", disse Osvaldo.

Reunindo comunidades científicas

Para testar o modelo, os pesquisadores escolheram duas áreas para as quais havia especialistas na equipe, de modo que estes pudessem avaliar subjetivamente se o resultado obtido fazia sentido. Foram escolhidas as áreas de redes complexas e cristais fotônicos.

"Ao testar nossa metodologia nessas áreas, descobrimos fortuitamente coisas bastante interessantes. Por exemplo, na área de cristais fotônicos, identificamos duas comunidades muito bem constituídas: uma comunidade de engenheiros, voltados para telecomunicações, e outra comunidade maior, de físicos e químicos, que desenvolvem os conceitos e fabricam os materiais", contou Novais.

"Constatamos que essas comunidades são muito pouco conectadas entre si. O que significa que conhecimento existente e disponível na área pode não estar sendo utilizado por pesquisadores da própria área, pelo fato de uma comunidade quase não saber o que se passa na outra. Foi uma descoberta acidental, mas que evidenciou a importância de se dispor de um método computacional para levantar a literatura especializada", disse.

O professor conta que os scripts dos programas empregados pelos pesquisadores já estão disponíveis para quem os solicitar, mas, para poder utilizá-los, o usuário precisa ter conhecimento das linguagens da computação. O próximo passo é transformar esses scripts em um software com interface acessível para não especialistas em computação.

Bibliografia:

Using network science and text analytics to produce surveys in a scientific topic
Filipi Nascimento Silva, Diego R. Amancio, Maria Bardosova, Luciano da F. Costa, Osvaldo Novais de Oliveira Júnior
Vol.: 10, Issue 2, May 2016, Pages 487-502
DOI: 10.1016/j.joi.2016.03.008
http://arxiv.org/pdf/1506.05690v2.pdf




Outras notícias sobre:

Mais Temas