Acesso a recursos e serviços

Linguateca

This page in English


Um dos objectivos da Linguateca é melhorar significativamente as condições para o processamento do português, nomeadamente Nesta página descrevemos so principais recursos, programas ou serviços criados no âmbito da Linguateca.

AC/DC Acesso a corpora /Disponibilização de corpora

Principais objectivos do projecto AC/DC
Os corpora são anotados pelo PALAVRAS, analisador sintáctico de Eckhard Bick (projecto VISL).

CETEMPúblico

O CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público) é um corpus de aproximadamente 180 milhões de palavras em português de Portugal, criado pelo projecto Processamento computacional do português após a assinatura de um protocolo entre o Ministério da Ciência e Tecnologia português (MCT) e o jornal PÚBLICO.

CETENFolha

O CETENFolha (Corpus de Extractos de Textos Electrónicos NILC/Folha de São Paulo) é um corpus de cerca de 24 milhões de palavras em português brasileiro, criado pelo projecto Processamento computacional do português com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus NILC/São Carlos, compilado pelo Núcleo Interinstitucional de Lingüística Computacional (NILC).

COMPARA

Corpus paralelo de textos em português e inglês com uma interface (DISPARA) associada. Este é um projecto de colaboração com Ana Frankenberg-Garcia. O COMPARA pode ser utilizado para pesquisar a tradução de palavras e expressões nestas duas línguas.

Corpógrafo

O Corpógrafo, criado pelo pólo do CLUP/FLUP da Linguateca, é um sistema para facilitar a criação de corpora especializados próprios, do tipo «faça-você-mesmo», com capacidades de extracção de terminologia e de preparação de definições. Um conjunto de ferramentas é posto à disposição do utilizador, assim como a gestão dos seus próprios recursos e bases de dados terminológicas.

Esfinge

O Esfinge é um sistema de resposta automática a perguntas (RAP) de domínio geral em português, consultando a Rede.

Floresta sintá(c)tica

O projecto da Floresta Sintá(c)tica, em colaboração com o projecto VISL, visa a obtenção de um conjunto de árvores sintácticas em português que possam ser usadas quer para o avanço da sintaxe computacional quer para servir como base de avaliação para várias aplicações que processem o português.

PAPEL

O PAPEL, criado pelo pólo de Coimbra da Linguateca, é um projecto destinado a criar uma ontologia lexical para o português pública, a partir do Dicionário da Língua Portuguesa da Porto Editora.

REPENTINO

O REPENTINO é um repositório público que contém exemplos de entidades nomeadas, ou seja, de entidades concretas ou abstractas que possuem um nome próprio. Os exemplos armazenados no REPENTINO encontram-se divididos por várias categorias conceptuais, cada uma das quais contendo diversas sub-categorias, numa estrutura em árvore, garantindo assim uma razoável organização destes exemplos. O REPENTINO é também um recurso de construção colectiva e cresce com a ajuda e as sugestões de todos quantos quiserem colaborar.

Repositório

Neste espaço providenciamos uma "estante electrónica" para todos quantos quiserem ter os seus trabalhos relacionados com o processamento computacional da língua portuguesa acessíveis directamente da rede. Assim, facilitamos o acesso a colecções para avaliação de sistemas de recolha de informação, léxicos para tradução automática e corpora de resumos.

WebJspell

O WebJspell é um serviço na rede desenvolvido pelo pólo de Braga da Linguateca com o objectivo de dar acesso, através da rede, às potencialidades oferecidas pelo analisador morfológico Jspell, desenvolvido pelo projecto Natura, para português e inglês. Além de analisar morfologicamente uma palavra ou propor alternativas de correcção ortográfica, é possível através desta interface usar o WebJspell para fazer a correcção ortográfica de páginas da Web , e sugerir palavras para incluir no dicionário do Jspell.

WPT 03 e 05

A WPT 03 é uma colecção de páginas da Web criada a partir de toda a Web portuguesa em 2003. Tanto quanto foi possível determinar, a WPT 03 é a primeira e única colecção de páginas Web representativa de toda a Web um país e que é disponibilizada livremente.
A WPT 03 foi recolhida recorrendo aos batedores do motor de pesquisa tumba! entre Março e Junho de 2003, disponibilizando ainda os logs das pesquisas no tumba! num período de 6 meses, após um processo de tornar as pesquisas anónimas.

A WPT 05 é uma colecção de páginas da Web criada a partir de toda a Web portuguesa em 2005. As WPT 03 e WPT05 foram criadas pelo grupo XLDB e são disponibilizadas pela Linguateca, em WPT.

Veja também o serviço de procura geral de recursos em várias línguas em: OLAC Language Resource CatalogSearch for language resources.


Última actualização: 30 de junho de 2016
Perguntas, comentários e sugestões