VARRA: validação de relações semânticas

VARRA: Validação, Avaliação e Revisão de Relações semânticas no AC/DC, usando as relações do PAPEL
O VARRA é um novo serviço que liga dois dos recursos e serviços criados pela Linguateca - o AC/DC e o PAPEL. O objetivo do VARRA é usar recursos corpóreos para validar relações semânticas na forma de triplos palavra RELAÇÂO palavra.

Embora inicialmente projetado para validar as relações do PAPEL, o VARRA pode e deve ser usado para validar relações semânticas entre palavras oriundas de quaisquer outros recursos lexicais.

O VARRA pode ser usado para:

  1. Procurar (e validar) nos corpos relações semânticas entre pares de palavras
  2. Testar (e descobrir) nos corpos padrões da língua que expressam relações semânticas entre pares de palavras. Pode ver alguns exemplos de padrões, utilizados por exemplo pelo VARRA (padrões usados internamente pelo VARRA) ou por estudos independentes, aqui.
Em qualquer dos usos, o que o VARRA faz é gerar dossiês que contêm as relações em contexto - isto é, frases dos corpos do projeto AC/DC.

O que o VARRA faz

Se o interesse está em validar ou observar a relação entre as palavras casa e adega, por exemplo, o VARRA irá buscar, nos corpos do projeto AC/DC, frases que contenham essas palavras. O resultado da busca aparece no que chamamos de dossiê, ou seja, uma página que contém cinco colunas:
  1. triplo que se pretende validar (adega PARTE_DE casa, por exemplo);
  2. procura efetuada no corpo;
  3. frases dos corpos que contêm essas palavras (os contextos);
  4. espaço para julgar a adequação da frase à relação pretendida (e que deve ser preenchido com uma entre 4 alternativas de resposta para a pergunta "Os textos dos exemplos ilustram a relação entre as duas palavras apresentada na primeira coluna?");
  5. espaço para comentários.
O usuário do VARRA pode então copiar a página/dossiê para um programa editor de textos, criando dossiês.
Ao utilizar dados de corpos para validar relações semânticas, tornamos a tarefa de validação/julgamento mais parecida com a interpretação humana, uma vez que as palavras são sempre consideradas em contextos autênticos.

Além disso, com os dossiês criados com o VARRA, tentamos construir uma base confiável de julgamentos sobre uma dada relação semântica entre palavras.


Dossiês reutilizáveis

Aqui estão alguns dossiês já prontos para serem usados. Cada dossiê contém contextos para uma série de triplos. De maneira complementar, para cada dossiê existe um documento que contém apenas os triplos, sem os contextos. Boa parte desses dossiês (com e sem contexto) já foi usada por um conjunto de varredores, e os primeiros resultados dessa comparação serão tornados públicos em breve.

Os dossiês foram criados a partir de triplos do PAPEL (Palavras Associadas Porto Editora - Linguateca), uma ontologia lexical pública para o português cujas relações semânticas foram automaticamente extraídas de um dicionário de língua geral.

Para mais informação sobre o VARRA e a elaboração dos dossiês, veja-se o poster Freitas et al. (2010) e o artigo Freitas et al. (2011).


Colaboração entre a Linguateca, o CISUC e o Departamento de Letras da PUC-Rio, envolvendo o grupo de pesquisa em Linguística Computacional - CLIC - e alunos de graduação.
Equipe: Cláudia Freitas (PUC-Rio / Linguateca), Diana Santos (Linguateca), Hugo Gonçalo Oliveira (CISUC) e Violeta Quental (PUC-Rio).
Última atualização desta página: 04 de Julho de 2016

Perguntas, comentários e sugestões