Projeto AC/DC: corpo ANCIB

AC/DC : Linguateca
O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Procurar:     

Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Opções
Resultados por ordem alfabética (só distribuições)
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Amostra aleatória de linhas.

Tipo Lista electrónica
Variante(s) BR
Tamanho (unidades) 1.7 milhões
Tamanho (palavras) 1.3 milhões

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil DiaCLAV Diáspora TL-PT ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago Moçambula Museu da Pessoa Natura/Minho OBras P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

Procurar: Resultado:
a palavra inteirointeiroconcordância
palavras terminando em ístico ".*ístico" concordância
adjectivos antecedidos por uma preposição [pos="PRP"] [pos="ADJ"] concordância
formas do verbo reunir[lema="reunir"] concordância
substantivos modificados por muito[lema="muito"& pos="DET" & func=">N"] @[pos="N.*"] distribuição de lema

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 02 de Agosto de 2016
Perguntas, comentários e sugestões