Projeto AC/DC: corpo ANCIB

AC/DC : Linguateca

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Procurar:
Resultado:
Concordância
Distribuição das formas (word)
Distribuição dos lemas (lema)
Distribuição da categoria gramatical (PoS) (pos)
Distribuição do tempo verbal e/ou do caso pronominal (temcagr)
Distribuição de pessoa e/ou número (pessnum)
Distribuição do género morfológico (gen)
Distribuição da função sintáctica (func)
Distribuição por campo semântico (sema)
Distribuição por grupo (de cor, roupa, etc.) (grupo)
Distribuição de papéis temáticos (papel)
Distribuição das dependências (dependente_de)
Distribuição de molduras (frames) (moldura)
Opções
Resultados por ordem alfabética (só distribuições)
Resultados em formato separado por ponto e vírgula
Ignorar maiúsculas/minúsculas (não admite parâmetros)
Fazer nuvem com limite de
Amostra aleatória de linhas.

Tipo Lista electrónica
Variante(s) BR
Tamanho (unidades) 1.7 milhões
Tamanho (palavras) 1.3 milhões

Carateres úteis: | { } [ ]
Página principal
Procure noutros corpos:
AmostRA-NILC ANCIB Avante! Corpus Brasileiro CD HAREM CETEMPúblico CHAVE Ciência Viva Colonia CONDIVport CONDIVport2 CoNE C-Oral-Brasil CORDIAL-SIN CorpiRef CorTrad, lado português DHBB DiaCLAV Diáspora TL-PT DisPR ECI-EBR ECI-EE ENPCPUB (parte em português) Floresta FrasesPB FrasesPP Mariano Gago LeMe Literateca Marielle, presente! Moçambula Museu da Pessoa Natura/Minho NOBRE OBras PANTERA, lado português P'lo Norte Português Falado - Documentos Autênticos ReLi NILC/São Carlos todos juntos Tycho Brahe Vercial

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

Veja um excerto do corpo e informação adicional.

Exemplo de pesquisas

	Procurar:	Resultado:
a palavra inteiro	inteiro	concordância
palavras terminando em ístico	".*ístico"	concordância
adjectivos antecedidos por uma preposição	[pos="PRP"] [pos="ADJ"]	concordância
formas do verbo reunir	[lema="reunir"]	concordância
substantivos modificados por muito	[lema="muito"& pos="DET" & func=">N"] @[pos="N.*"]	distribuição de lema

Dados quantitativos

Para informação sobre como foram obtidos este valores, consulte a página dos Corpos

Agradecimentos

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]

Última atualização: 27 de Julho de 2024

Perguntas, comentários e sugestões