Acesso a corpos de português: Projeto AC/DC

Linguateca

Information in English


O projeto AC/DC (Acesso a corpos/Disponibilização de corpos), iniciado em 1999, surgiu da necessidade de juntar os poucos recursos disponíveis num único ponto na rede e dessa forma facilitar a comparação e a reutilização do material, permitindo ao mesmo tempo acesso a uma ferramenta poderosa de interrogação de corpos, o Open CWB (versão nova do IMS corpus workbench), para a qual desenvolvemos esta interface.

Desde 2000, a anotação dos corpos tem sido feita automaticamente pelo PALAVRAS de Eckhard Bick, e convertida para o "formato AC/DC", descrito pormenorizadamente na página de Anotação.

Uma descrição quantitativa inicial dos corpos servidos presentemente pelo AC/DC encontra-se na tabela abaixo. Clique num dos corpos para o interrogar. Para cada corpo, pode pedir concordâncias, distribuição e frequências simples e complexas, veja alguns exemplos. (Ao longo do tempo, fomos desenvolvendo uma série de serviços especializados para consultar os corpos de forma mais complexa.) Se é a primeira vez que visita o AC/DC e quer apenas experimentar, procure no corpo Vercial. Veja também a nossa PJR: lista de perguntas já respondidas.

Breve descrição dos corpos

Corpo Tamanho
(unidades)
Tamanho
(palavras)
Tamanho
(frases)
Variante(s) Breve descrição
AmostRA-NILC128.51799.2674.965BRAmostRA-NILC
ANCIB1.698.1481.257.78583.504BRCorreio electrónico correspondente ao tráfego na lista ANCIB
Avante!7.790.5156.611.270193.107PTSemanário político Avante!, 1997-2002
Corpus Brasileiro1.074.930.997908.625.70641.252.530BRCorpus Brasileiro, um bilhão (mil milhões) de palavras de português do Brasil de vários géneros
CD HAREM290.001225.76612.558PT BRColecção dourada do HAREM
CETEMPúblico239.113.359195.231.4217.017.260PTJornal PÚBLICO, dividido em extractos, 1991-1998
CHAVE127.881.425101.324.9064.762.290PT BRJornais PÚBLICO e Folha de São Paulo, 1994-1995
Ciência Viva805.307663.48727.270PTTextos escritos sobre ciência em Portugal
Colonia6.965.2905.196.107299.171PT BRObras dos séculos XVI a XX
CONDIVport7.200.7955.627.261301.077PT BRJornais desportivos e revistas de moda e saúde
CONDIVport2212.075175.2776.533PT BRJornais diários
CoNE921.366681.37731.563PT BRMensagens de correio electrónico não-endereçadas
C-Oral-Brasil439.519267.10230.634BRC-Oral-Brasil, português brasileiro oral informal
CORDIAL-SIN1.494.736857.06698.010PTTextos orais transcritos correspondendo a entrevistas em Portugal
CorTrad, lado português1.739.0291.307.74565.370BRObras traduzidas de ou para o inglês
DHBB16.096.07514.177.792461.808BRTextos escritos sobre políticos brasileiros
DiaCLAV7.854.9746.701.348210.373PTDiário de Coimbra, Diário de Leiria, Diário de Aveiro, Viseu Diário
Diáspora TL-PT27.40921.9081.035TLDiáspora TL-PT, entrevistas a timorenses em Portugal
DisPR322.819269.98810.334PT BRDiscursos presidenciais
ECI-EBR924.904728.95144.381BRTexto do corpo Borba-Ramsey, compilado pelo ECI
ECI-EE30.27725.779789PTTexto de chamada do programa europeu ESPRIT
ENPCPUB (parte em português)92.67972.7984.371PT BRLiteratura traduzida do inglês proveniente do ENPC
Floresta5.815.3594.779.248257.017PT BRFloresta Sintá(c)tica
FrasesPB23.25919.185652BRFrases em português do Brasil
FrasesPP20.03016.266594PTFrases em português de Portugal
Mariano Gago693.884569.84322.931PTTextos sobre e de José Mariano Gago
LeMe3.496.7952.581.509178.686PTBulas de medicamentos
Literateca52.236.91537.469.0522.317.725PT BRTextos literários lusófonos
Marielle, presente!506.032409.83120.444BRTextos de e sobre Marielle Franco
Moçambula69.46959.0382.285MOTextos de leitores de jornais moçambicanos
Museu da Pessoa1.847.2921.431.27793.466PT BREntrevistas realizadas pelo Museu da Pessoa
Natura/Minho2.255.4421.800.22370.277PTJornal regional Diário do Minho, antes da revisão
NOBRE12.290.9648.960.605511.308PTObras portuguesas
OBras14.626.22810.369.863639.986BRObras brasileiras
PANTERA, lado português939.091636.18943.240todasObras traduzidas de ou para o norueguês
P'lo Norte52.75141.2262.381PTBlogues escritos por portugueses sobre a Noruega
Português Falado - Documentos Autênticos148.582107.2157.569todasTextos orais transcritos (1995-1997)
ReLi157.560128.7847.231BRReLi, corpo de resenhas de livros
NILC/São Carlos46.194.78635.145.8952.148.320BRTexto do corpo NILC, contendo maioritariamente texto jornalístico, mas também cartas comerciais e textos didácticos
todos juntos1.518.927.9641.261.058.29956.970.430todasTodos os corpos juntos
Tycho Brahe4.220.0573.341.892135.842PT BRTexto do corpo Tycho Brahe
Vercial21.025.64914.872.077995.834PTClássicos da literatura portuguesa, séculos XVI a XX
Total (incluindo repetições)3.182.508.3252.633.947.624119.345.151todastodos os corpos

Para uma contabilização mais detalhada de todos os corpos, veja a página dos Corpos.

Projetos relacionados e mais informação

Finalmente, veja os vários artigos diretamente associados ao projeto AC/DC, consultando o catálogo de publicações, com a marca acdc.

[ Anotação | Atomização | Corpos | Exemplos | Agradecimentos ]


Última actualização: 04 de Dezembro de 2024
Perguntas, comentários e sugestões