Erros ortográficos em português de Portugal e sua correcção

Os dados aqui disponibilizados, correspondentes a erros ortográficos e sua correcção, foram desenvolvidos no âmbito da tese de mestrado de José Carlos Medeiros, intitulada Processamento Morfológico e Correcção Ortográfica do Português, apresentada ao Instituto Superior Técnico, Universidade Técnica de Lisboa, em 1995, durante o período em que o autor era membro do Grupo de Linguagem Natural do INESC.

Estes dados foram usados ou para teste ou treino do sistema desenvolvido, ou para a comparação do desempenho de vários sistemas à época, e não foram editados nem melhorados deste então.

Chama-se assim a atenção para o facto de que não estão de acordo com o recente acordo ortográfico, além de apenas se referirem ao português de Portugal da altura.

O recurso corresponde a um conjunto de ficheiros de texto, de três formas distintas:

Todos os ficheiros se encontram num arquivo ZIP, que pode ser levantado aqui.

Alguns ficheiros correspondem a tipos diferentes de erros, possivelmente recuperáveis através do nome do ficheiro. Notamos que alguns erros se encontram em múltiplos ficheiros.

Se fizer uso destes dados, agradecemos que seja citada uma das seguintes referências:


Última actualização: 26 de Agosto de 2009.

Perguntas, comentários e sugestões