Projecto AC/DC: Anotação dos corpos

Projecto AC/DC, Linguateca

Esta página pretende documentar cabalmente a informação adicionada a todos os corpos, explicando as opções tomadas na sua codificação. Para a utilização do sistema de processamento de corpos subjacente, o IMS Open CWB (tutorial), com exemplos pormenorizados de como os corpos anotados podem ser inquiridos e algumas procuras pertinentes, consulte-se a página de exemplos.

A anotação dos corpos é feita automaticamente pelo PALAVRAS, um analisador sintáctico automático para o português desenvolvido por Eckhard Bick. Para a compreensão dos fundamentos linguísticos deste sistema, a referência fundamental é Bick 2000. Veja-se também

o sítio do analisador, Automatic Analysis of Portuguese e do projecto VISL
as páginas intituladas Portuguese VISL symbol set
e o livro Portuguese Syntax: Teaching manual (HTML) ou Portuguese Syntax (Word).

Sobre o processo de anotação que resulta no formato usado no AC/DC, consultar a descrição do processo de anotação abaixo.

Depois os corpos são passados por um anotador semântico (de momento em duas fases) que coloca informação no atributo sema e, em alguns casos, no atributo grupo.

Informação fundamental
Informação por atributo
Casos complexos
Processo de anotação
Resumo quantitativo dos corpos em termos a sua anotação
Anotação semântica
Mais informação

Informação de base

Muito resumidamente, o PALAVRAS, o analisador sintáctico automático utilizado no projecto AC/DC, atribui, a cada unidade do corpo, o seu lema ("base form"), a sua categoria gramatical, características morfológicas (associadas à palavra no dicionário), e a sua função sintáctica, que codificámos, respectivamente, nos atributos lema, pos, temcagr, pessnum e gen e func. Além disso, o analisador tenta identificar, através de heurísticas morfológicas, palavras não constantes do dicionário, e que codificamos através do atributo deriv. Alguns exemplos simples do uso destes atributos podem ser vistos aqui.

De uma forma mais completa, documentamos em seguida a procura de informação morfossintáctica constante dos atributos pos, temcagr, pessnum, gen e func, assim como o conteúdo dos atributos lema e deriv.

Informação presente no atributo `pos`

O atributo pos (do inglês "part of speech") contém a classe gramatical produzida pelo analisador sintáctico PALAVRAS de Eckhard Bick (Word class tags, http://visl.sdu.dk/visl/pt/portsymbol.html#morftags), além de um conjunto de outras especificações que poderíamos chamar indicações de subclasse, que podem ser consultadas em http://visl.sdu.dk/visl/pt/portsymbol.html#sectags.

A classe gramatical e as indicações de subclasse podem ter os seguintes valores (todos atribuídos pelo PALAVRAS):

Nome Classe gramatical Indicações de subclasse

N Substantivo prop

PROP Nome próprio kc (nomes próprios que incluem o caracter &)

SPEC Especificador (pronome ou adjectivo) rel, interr, dem, quant, diff

DET Determinante (artigo, pronome ou adjectivo) artd, arti, quant, dem, poss, diff, rel, ident, interr

PERS Pronome pessoal refl, obj, coll, reci

ADJ adjectivo NUMord, prop, KOMP, n, mente

ADV advérbio rel, quant, kc, ks, prp, interr, co-vfin, prop, dem, co-fmc, parkc-2*

V verbo n, prop, fmc, quant

NUM numeral card, prop

KS conjunção subordinativa

KC conjunção coordenativa co-fmc, co-vfin, co-inf, co-pcv, co-prparg, co-ger, co-advl, co-acc, co-sc, co-pred, co-app, co-subj, co-postnom, parkc-1*, parkc-2*

PRP preposição

IN interjeição

EC prefixo

* parkc corresponde a pares de conjunções (tais como ou... ou, ou nem... nem) em que a primeira é marcada 1 e a segunda 2, ou a pares de advérbios (tanto ... como, tal qual como, ) em que apenas o segundo é marcado parkc-2.

O projecto AC/DC junta a informação primária e a secundária (por esta ordem) por meio de um caracter de sublinhado (ou mais do que um, se tal for o caso). Exemplos:

DET_arti determinante que é artigo indefinido
SPEC_rel especificador relativo
ADJ_n_NUMord numeral ordinal que pode ser usando como substantivo (n)
ADV_rel advérbio relativo
ADJ_prop_KOMP adjectivo comparativo em nome próprio (por exemplo em Superior)

Informação morfológica presente no atributos `temcagr`, `pessnum` e `gen`

A informação morfológica produzida pelo analisador sintáctico PALAVRAS está descrita no seguinte URL: http://visl.sdu.dk/visl/pt/portsymbol.html#morftags (sob a rubrica "inflection tags").

Na versão que utilizamos para o projecto AC/DC, o analisador tenta propagar essa informação a cada terminal, donde, por exemplo, se a expressão os turistas foi reconhecida como sintagma nominal, "turistas" será classificado como M e não M/F como vem do léxico.

As classes sem flexão têm 0 (zero) como valor dos atributos morfológicos.

O atributo `temcagr`: tempo verbal e/ou caso pronominal

Este atributo contém o tempo e modo para verbos (tem), o caso para pronomes (ca) e o grau (gr).

Quando indica os tempos, tem como possíveis valores

PR_IND presente do indicativo

INF infinitivo

GER gerúndio

IMPF_IND imperfeito do indicativo

PCP particípio passado

IMPF_SUBJ imperfeito do conjuntivo

FUT_IND futuro do indicativo

PR_SUBJ presente do conjuntivo

FUT_SUBJ futuro do conjuntivo

FUT_IND futuro do indicativo

COND condicional

MQP_IND mais que perfeito simples

PS_IND perfeito do indicativo

PS/MQP_IND perfeito ou mais que perfeito

IMP imperativo

No caso dos tempos compostos, ou seja, sequências de formas verbais que tenham pelo menos um auxiliar e um verbo principal não finito (IMV - infinite main verb), para facilidade de pesquisa adicionou-se -- automaticamente -- os seguintes marcadores de tempo:

COMP indicação de que o tempo é composto (com o auxiliar ter, ou é passivo)

PPC pretérito perfeito composto

MQP mais que perfeito (composto)

PASSIVA passiva

PROG progressiva

FUTPER futuro perifrástico com ir

FUTHAVER futuro perifrástico com haver

Quando indica os casos (dos pronomes pessoais), tem os possíveis valores:

NOM nominativo

ACC acusativo

DAT dativo

PIV objeto de preposição

ACC/DAT ou acusativo ou dativo: me, te, nos, vos, se

NOM/PIV ou nominativo ou objeto de preposição: ele, ela, eles, elas, nós, vós

Por enquanto, não contém informação de grau, que seria COMP (comparativo), SUPR (superlativo relativo), SUPA (superlativo absoluto), DIM (diminutivo) e AUM (aumentativo). Só em alguns casos (relativos a entidades anotadas semanticamente) existe DIM e AUM.

O atributo `pessnum`: pessoa e/ou número

Este atributo indica o número: S, P ou S/P para todas as categorias gramaticais com essa informação, excepto para verbos e pronomes pessoais, para os quais indica a pessoa: 1S, 1P, 2S, 2P, 3S, 3P, 1/3S, 0/1/3S.

O atributo `gen`: género

Este atributo apenas pode ter os valores M, F ou M/F (indeterminado).

Exemplos de codificação de atributos morfológicos

Teremos, pois, classificações como

forma temcagr pessnum gen comentário

classes 0 P F feminino plural

atraído PCP S M particípio passado masculino singular

fazem PR_IND 3P 0 presente do indicativo, terceira pessoa do plural

sê IMP 2S 0 imperativo, segunda pessoa do singular

reagirias COND 2S 0 condicional, segunda pessoa do singular

as ACC 3P F feminino, terceira pessoa do plural, acusativo

fazeres INF 2S 0 infinitivo pessoal, segunda pessoa do singular

sonhando GER 3 0 gerúndio

atrapalhar INF 3 0 infinitivo

Por uma opção condicionada por questões técnicas, e como já referido acima, temos como unidade o verbo seguido de clíticos, cujos valores são concatenados depois do sinal "+". Alguns exemplos do valor dos vários atributos morfológicos nesses casos encontram-se em Tratamento de contracções e de verbos com clíticos, abaixo. Para exemplos de procuras especializadas sobre morfologia, consulte-se mais uma vez a página dos exemplos.

Informação sintáctica presente no atributo `func`

A informação sintáctica produzida pelo analisador PALAVRAS de Eckhard Bick encontra-se descrita em http://visl.sdu.dk/visl/pt/portsymbol.html#syntags. (Note-se que o caracter @, indicando que a informação é de carácter sintáctico, foi consistentemente retirado do valor do atributo func.)

A informação produzida pelo PALAVRAS e retida no AC/DC pode ser dividida em vários categorias:

classificação de função sintáctica duma palavra ou sintagma em relação ao constituinte a que pertence
- argumento de uma oração: sujeito (SUBJ), objecto directo (ACC), objecto indirecto (DAT), objecto preposicional (PIV), predicativo do sujeito (SC), predicativo do objecto (OC), agente da passiva (PASS), complemento circunstancial (ADVL, ADVS), aposto (APP) ou PRED, e outras categorias que não são necessariamente consensualmente sintácticas, tais como foco (FOC), ou tópico (TOP)
- dependente de outras categorias não verbais, sem que existam designações vulgarizadas para estes conceitos (>N, >A, N<, A<, P<, S<, KOMP< ...)
- função sintáctica de elementos verbais: verbo principal, finito ou não finito (FMV,IMV), verbo auxiliar, finito ou infinito (FAUX, IAUX), preposições que fazem parte da expressão verbal (PRT-AUX)
- função sintáctica de conectores entre orações ou sintagmas: subordinação (SUB), coordenação (CO), orações relativas finitas, infinitivas ou sem verbo (#FS, #ICL, #AS)
- classificação de uma dada palavra ou expressão (PRD)
- função sintáctica de topo: oração declarativa, imperativa ou interrogativa (DECL, COM, QUES), ou sintagma nominal (NPHR)
indicação de dependência (através de < ou >, que indicam se a função liga à direita ou à esquerda)

Para exemplos de procuras especializadas sobre a função sintáctica, consulte-se mais uma vez a página dos exemplos.

Informação presente no atributo `lema`

Este atributo corresponde ao que Eckhard Bick chama a forma base, e contém:

para palavras invariáveis, nas quais incluímos os advérbios, o mesmo valor que o atributo word (excepto em casos de contracções ou de locuções)
para verbos, o infinitivo impessoal
para substantivos, a forma singular (assim o lema de directores é director, e de directora directora)
para adjectivos, a forma masculina singular
para pronomes pessoais, o analisador usa a forma do nominativo (masculino), eu é lema de me, nós lema de nos, eles lema de lhes...
para pronomes possessivos (meu, teu, seu, etc.), o lema é o masculino singular na pessoa correspondente. Dele, dela, etc. são considerados contracções da preposição de com pronomes pessoais, não pronomes possessivos.
para pronomes relativos (cujo, cuja, etc.), demonstrativos (este, esta, etc.) e interrogativos (quanto, quanta, etc.) o lema é o masculino singular.

Informação semântica presente nos atributos `sema` e `grupo`

Informação presente no atributo `sema`

O atributo sema identifica o campo semântico a que a unidade em causa pertence. Os campos por agora marcados são: cor, roupa, corpo, emoções (emo), família, saúde e lugar. Em cada campo semântico existem vários subtipos associados, identificados por dois pontos seguidos de uma nova identificação, tal como cor:raça, roupa:original ou corpo:centralidade. A documentação mais ou menos extensiva de tal prática encontra-se respetivamente no Arco-íris, no Guarda-fatos, no Esqueleto, no Emocionário, em Saúde, em Família e em Viagem.

É importante referir que uma palavra pertencer a um grupo semântico não implica que a frase em que ela está inserida exprima essa informação. Assim, a frase Eu não tenho medo! embora contenha uma palavra do campo emo:medo não pode ser considerada como denotando medo. Por outro lado, a frase ela não aprendeu isso de cor não inclui qualquer elemento do campo semântico cor. De facto, essa frase exemplifica a necessidade da anotação semântica, visto que a procura pela palavra (ou lema) cor produziria resultados errados devido à homonímia.

Informação presente no atributo `grupo`

No caso dos campos semânticos de cor e roupa (contendo portanto sema igual a cor ou igual a roupa), anotámos também outra informação que nos pareceu pertinente, no atributo grupo, que nos permite agrupar vários lemas diferentes sob uma mesma designação. No caso da cor, uma cor básica, no caso da roupa, uma função, essencialmente e simplificando, em termos de parte do corpo coberta, em termos de que sujeitos vestidos (mulheres, homens ou crianças) e em termos de período de tempo (noite/dia, estação).

Mais uma vez documentação sistemática encontra-se no Arco-íris e no Guarda-fatos.

Mais do que uma análise

É possível ter uma desambiguação incompleta, ou seja, a uma palavra podem estar atribuídas várias funções sintácticas, ou várias características morfológicas entre as quais o analisador não conseguiu escolher.

Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:

Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
- Palavras que podem estar no singular ou no plural (S/P) [pessnum="S/P"] ou cujo género não foi determinado [gen="M/F"]
- Formas da terceira ou primeira pessoa (1/3) do singular [pessnum="1/3S"]
- Palavras que podem ser objecto directo ou indirecto da oração a que pertencem [temcagr="ACC/DAT"]
- Infinitivo pessoal ou impessoal [pessnum="0/1/3S"]
Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.

Existem contudo alguns casos de diferentes funções sintácticas ligadas por sublinhado, que se referem à função sintáctica do constituinte como um todo (função externa), e função sintáctica da palavra (núcleo do constituinte) dentro do constituinte que lidera (função interna). Nesses casos, a segunda função é sempre precedida do caracter #. Note-se, a propósito, que aqui não estamos em presença de funções alternativas, mas concomitantes. O sublinhado antes de # não indica, portanto, neste caso, ambiguidade. Alguns exemplos:

Entidade que representa o objecto da frase, objecto esse em forma de oração, cujo objecto é o próprio pronome relativo (por exemplo que em faz o que pode) ACC>_#FS-<ACC.
Advérbio de lugar (dentro da oração), oração subordinada finita associado a um nome à esquerda (p. ex. onde em na minha região, onde se opera ...) ADVL>_#FS-N<

É preciso também notar as seguintes características do ACDC que, embora também pareçam descritíveis como "mais do que uma análise", correspondem sim a "várias análises amalgamadas" (e serão descritas em mais pormenor abaixo):

o tratamento das contracções e dos verbos com clíticos: os seus atributos foram codificados unindo-os com o sinal "+"
e o tratamento das palavras compostas ("multiword expressions" e "polylexicals"): os seus lemas encontram-se juntos pelo sinal "=" no caso de serem nomes próprios ou pertencentes a classes de palavras fechadas.

Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.

Tratamento de contracções e de verbos com clíticos

Por razões explicadas em Santos e Bick (2000), nomeadamente a necessidade de ter um separador de palavras o mais simples possível (e não dependente de uma análise sintáctica), a separação em unidades básicas -- e de forma a manter uma fidelidade absoluta ao corpo -- é feita simplesmente com base em espaços, sinais de pontuação, e uma lista de abreviaturas em português (e algumas em francês e inglês). (Ver a página de Atomização.)

Isso implica que, embora o analisador sintáctico considere como duas ou mais unidades as contracções e os verbos com enclíticos, o processo de criar os corpos do projecto AC/DC repõe a forma original considerando-os apenas como uma unidade. Os valores das diversas partes são contudo mantidos de forma a não se perder a informação devida à análise.

Alguns exemplos:

word lema pos temcagr pessnum gen func

nestas em+este PRP+DET_dem 0 P F A<ADVS+>N

pela por+a PRP+DET_artd 0 S F A<PASS+>N

àquela a+aquele PRP+DET_dem 0 S F <ADVL+>N

connosco com+nós PRP+PERS PIV 1P M/F <SC_<ADVL+P<

fá-lo-iam fazer+lo V_fmc+PERS COND+ACC 3P+3S 0+M FMV+<ACC

retirar-lhos retirar+lhe&lhes+eles V+PERS+PERS INF+DAT+ACC 3+3S/P+3P 0+M/F+M IMV+<DAT+ACC>

transmite-as transmitir+elas V_fmc+PERS PR_IND+ACC 3S+3P F

estragá-lo estragar+ele V+PERS FUT_IND+ACC 3S+3S M

juntar-se-iam juntar+se V_fmc+PERS_refl_coll* COND+ACC 3P+3P M/F

lhas lhe&lhes+elas PERS+PERS DAT+ACC 3S/P+3P M/F+F

* Nota: fmc (verbo da oração principal) e refl_coll (pronome reflexo com interpretação colectiva) são indicações que podem estar associadas (ou não) à ocorrência de (no caso presente) juntar-se-iam

Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.

Tratamento de expressões com várias palavras

O analisador PALAVRAS é muito liberal na forma como junta conjuntos de palavras que para ele são uma única unidade. O projecto AC/DC, pelo contrário, pretende fazer uso de uma separação tão simples e indiscutível quanto possível, para maximizar a utilidade do sistema pressupondo o mínimo de concordância com as opções linguísticas professadas pelo autor do PALAVRAS.

Podemos considerar três casos distintos de expressões com várias palavras:

nomes próprios
locuções gramaticais
expressões mais ou menos fixas pertencendo a classes de palavras abertas

Nomes próprios

Para os nomes próprios identificados como tal pelo analisador (e notamos, a este propósito, que ainda existem muitos casos em que a identificação é demasiado abrangente), fazemos apenas uma nova atomização (uma unidade separada por espaços ou outras características gráficas) mantendo como lema de cada um dos constituintes todas as palavras, amalgamadas pelo sinal "=". Alguns exemplos de lemas:

Fernando=Henrique=Cardoso, Presidência=da=República, Minas=Gerais, Procuradoria=Geral=da=República, Conferência=Nacional=dos=Bispos=do=Brasil, Nossa=Senhora, São=Sebastião, Dr.=Andrew=Jordan, J.=J., Luís=XIV, Midnight=in=the=Garden=of=Good=and=Evil.

Note-se que o analisador tende a analisar nomes de livros ou filmes (entre aspas) como nomes próprios, e o mesmo se passa com títulos ou subtítulos grafados com inicial maiúscula. Alguns exemplos nos nossos corpos:

Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.

Quanto à questão da distribuição, e devido à forma como codificámos os corpos, cada nome próprio conta tantas vezes quanto o número de palavras que inclui. É importante ter em conta esse facto na contabilização dos resultados, visto que cada elemento vai ter os mesmos valores: pos será PROP, func, se for por exemplo o sujeito, contará tantos sujeitos quantas palavras tiver o nome próprio. Sugerimos algumas formas de ter isto em conta:

Contabilizar separadamente todos os casos de nomes próprios [pos="PROP"] e descontar/adicionar os números respectivos
garantir, que numa dada expressão de procura, só venha uma solução por nome próprio (por exemplo, testando que o resultado tenha de ser a palavra final): [func="<SUBJ"] [pos!="PROP"]

Expressões com várias palavras que não são nomes próprios

Para todos os outros casos de expressões consideradas indivisas pelo analisador, foi compilado um dicionário intermédio, que para cada entrada indica qual a sua análise interna (ainda de acordo com o PALAVRAS, bem entendido). De momento o nosso repositório de polilexicais tem 5054 entradas, e mais 3816 esperam a sua inclusão.

Fazemos, contudo, diferença entre expressões com várias palavras com função gramatical e outras expressões (verbais, nominais, adjectivais ou adverbiais) que são consideradas pela análise sintáctica como grupos lexicais.

a) Expressões com várias palavras com função gramatical

Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.

Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.

Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.

Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.

De notar que, no caso de haver contracção com a palavra seguinte (como por exemplo em além do), optámos por pô-la fora do atributo MWE, o que significa que para efeitos de procura nos corpos, existem "expressões com várias palavras" de comprimento um.

b) Expressões com várias palavras correspondendo a categorias lexicais

Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).

Exemplos: orgãos de comunicação social, árvore genealógica, viola de arco, varinha de condão, unicidade sindical, tubo de raios catódicos, teoria dos conjuntos, são favas contadas, serviço militar obrigatório, sem eira nem beira, saco de água quente, salva de palmas, sabedoria das nações.

Eventualmente, estamos a considerar a possibilidade de manter a categoria gramatical originalmente obtida pelo analisador, a fim de não perdermos essa informação. Isso faria com que tivéssemos <mwe tipo=adj> para casos como pele vermelha (que será analisado, internamente, como N ADJ). (Estamos gratos a Elisabete Ranchhod por nos ter chamado a atenção para o facto de, nestes casos, a análise interna, ao substituir a do analisador, perder informação.)

Palavras compostas com hífen

Dado que as palavras compostas por aglutinação, tais como guarda-chuva, primeiro-ministro, couve-flor também são susceptíveis de ser abrangidas pela denominação "expressões com várias palavras", devemos indicar qual a forma como aparecem no AC/DC: Elas são codificadas com o lema mantendo o hífen (ao contrário de verbos com clíticos, documentados acima). Para as recuperar, basta, pois, procurar [lema=".*-.*"].

Processo de anotação

O processo mínimo que leva à actualização das versões dos corpos anotados é o seguinte:

Criação do corpo não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
Análise do corpo pelo PALAVRAS
(OPCIONAL) Detecção de expressões polilexicais constantes desse corpo que ainda não estejam presentes no dicionário polilexical
(OPCIONAL) Actualização do dicionário polilexical
Adição de informação semântica e sintática através de regras CG
Anotação semântica através do corte-e-costura
Adição de informação semântica (campos sinonimo, antonimo e hiperonimo) a partir do PAPEL e do TEP
Criação da respetiva versão anotada e sua disponibilização a partir do projecto AC/DC

Alguns comentários a este processo e ao seu resultado são necessários aqui:

De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detetados nos vários corpos, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpos anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais atualizada do dicionário, faz com que alguns corpos estejam mais "bem processados" do que outros. Esta questão tem de ser melhor resolvida no futuro, visto que o dicionário polilexical está muito desatualizado.)
Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpos. Por isso o nosso cuidado em indicar a versão do corpo, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpo (anotado), é registada a data da criação do corpo não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpo a que se dá acesso, além de uma numeração de versões única.
O facto de usarmos vários tipos de sistemas para a anotação semântica (um para a cor e roupa, outros para as emoções) tem a sua origem em razões históricas, e é possível que seja alterado no futuro.

Contabilização dos corpos com base na sua anotação

De forma ao volume da informação associado aos corpos ser mais facilmente conhecido e apreciado (e eventualmente também comparado entre os diferentes corpos), produzimos a seguinte descrição quantitativa, cujos valores, para cada corpo, se encontram disponíveis na página de Corpos.

Número e tipo de atributos estruturais
Distribuição em termos de propriedades superficiais (gráficas) das unidades do corpo, para responder à pergunta aparentemente simples de qual o número de palavras de cada corpo, identificando: o número de nomes próprios (e a quantos tokens/unidades correspondem), o número de elementos polilexicais (e a quantas unidades correspondem), o número de tokens (palavras gráficas) existente, e finalmente o número de palavras do corpo (contando uma locução ou um nome próprio como uma palavra só), e separando marcas de pontuação e números.
Distribuição em termos de categoria gramatical: para o que se poderá chamar categorias gramaticais primárias (cuja identificação é dependente, claro, do analisador sintáctico subjacente, neste caso o PALAVRAS), fornecemos uma contabilização em número de unidades e percentagem. De notar que, visto que o número de palavras gráficas identificado pelo AC/DC pode conter mais do que uma categoria gramatical (por exemplo as contracções, PRP+DET, contam tanto para preposição como para determinante, ou os verbos com clíticos, V+PRON para aumentar a categoria verbo e a categoria pronome), a soma das percentagens por forma excede claramente os 100%.

Mais do que uma análise

Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:

Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
- Palavras que podem estar no singular ou no plural (S/P) [pessnum="S/P"] ou cujo género não foi determinado [gen="M/F"]
- Formas da terceira ou primeira pessoa (1/3) do singular [pessnum="1/3S"]
- Palavras que podem ser objecto directo ou indirecto da oração a que pertencem [temcagr="ACC/DAT"]
- Infinitivo pessoal ou impessoal [pessnum="0/1/3S"]
Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.

Entidade que representa o objecto da frase, objecto esse em forma de oração, cujo objecto é o próprio pronome relativo (por exemplo que em faz o que pode) ACC>_#FS-<ACC.
Advérbio de lugar (dentro da oração), oração subordinada finita associado a um nome à esquerda (p. ex. onde em na minha região, onde se opera ...) ADVL>_#FS-N<

o tratamento das contracções e dos verbos com clíticos: os seus atributos foram codificados unindo-os com o sinal "+"
e o tratamento das palavras compostas ("multiword expressions" e "polylexicals"): os seus lemas encontram-se juntos pelo sinal "=" no caso de serem nomes próprios ou pertencentes a classes de palavras fechadas.

Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.

Tratamento de contracções e de verbos com clíticos

Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.

Tratamento de expressões com várias palavras

Podemos considerar três casos distintos de expressões com várias palavras:

nomes próprios
locuções gramaticais
expressões mais ou menos fixas pertencendo a classes de palavras abertas

Nomes próprios

Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.

Contabilizar separadamente todos os casos de nomes próprios [pos="PROP"] e descontar/adicionar os números respectivos
garantir, que numa dada expressão de procura, só venha uma solução por nome próprio (por exemplo, testando que o resultado tenha de ser a palavra final): [func="<SUBJ"] [pos!="PROP"]

Expressões com várias palavras que não são nomes próprios

a) Expressões com várias palavras com função gramatical

Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.

Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.

Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.

Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.

b) Expressões com várias palavras correspondendo a categorias lexicais

Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).

Palavras compostas com hífen

Processo de anotação

O processo mínimo que leva à actualização das versões dos corpos anotados é o seguinte:

Criação do corpo não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
Análise do corpo pelo PALAVRAS
(OPCIONAL) Detecção de expressões polilexicais constantes desse corpo que ainda não estejam presentes no dicionário polilexical
(OPCIONAL) Actualização do dicionário polilexical
Adição de informação semântica e sintática através de regras CG
Anotação semântica através do corte-e-costura
Adição de informação semântica (campos sinonimo, antonimo e hiperonimo) a partir do PAPEL e do TEP
Criação da respetiva versão anotada e sua disponibilização a partir do projecto AC/DC

Alguns comentários a este processo e ao seu resultado são necessários aqui:

De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detetados nos vários corpos, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpos anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais atualizada do dicionário, faz com que alguns corpos estejam mais "bem processados" do que outros. Esta questão tem de ser melhor resolvida no futuro, visto que o dicionário polilexical está muito desatualizado.)
Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpos. Por isso o nosso cuidado em indicar a versão do corpo, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpo (anotado), é registada a data da criação do corpo não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpo a que se dá acesso, além de uma numeração de versões única.
O facto de usarmos vários tipos de sistemas para a anotação semântica (um para a cor e roupa, outros para as emoções) tem a sua origem em razões históricas, e é possível que seja alterado no futuro.

Contabilização dos corpos com base na sua anotação

Número e tipo de atributos estruturais
Distribuição em termos de propriedades superficiais (gráficas) das unidades do corpo, para responder à pergunta aparentemente simples de qual o número de palavras de cada corpo, identificando: o número de nomes próprios (e a quantos tokens/unidades correspondem), o número de elementos polilexicais (e a quantas unidades correspondem), o número de tokens (palavras gráficas) existente, e finalmente o número de palavras do corpo (contando uma locução ou um nome próprio como uma palavra só), e separando marcas de pontuação e números.
Distribuição em termos de categoria gramatical: para o que se poderá chamar categorias gramaticais primárias (cuja identificação é dependente, claro, do analisador sintáctico subjacente, neste caso o PALAVRAS), fornecemos uma contabilização em número de unidades e percentagem. De notar que, visto que o número de palavras gráficas identificado pelo AC/DC pode conter mais do que uma categoria gramatical (por exemplo as contracções, PRP+DET, contam tanto para preposição como para determinante, ou os verbos com clíticos, V+PRON para aumentar a categoria verbo e a categoria pronome), a soma das percentagens por forma excede claramente os 100%.

Anotação semântica

A partir de meados da década de 2000, o AC/DC começou a anotar também algumas características semânticas, indicadas nos atributo sema e grupo, já mencionados acima. A grande diferença em relação à anotação sintática é que também começámos a rever essa anotação, tentando que ficasse 100% correta. Isso provoca algum desfasamento entre os vários corpos.

Informação presente no atributo `grupo`

No caso dos campos semânticos de cor, roupa e corpo(contendo portanto sema igual a "cor" ou igual a "roupa", ou igual a "corpo"), anotámos também outra informação que nos pareceu pertinente, no atributo grupo, que nos permite agrupar vários lemas diferentes sob uma mesma designação. No caso da cor, uma cor básica, no caso da roupa, uma função, essencialmente e simplificando, em termos de parte do corpo coberta, em termos de que sujeitos vestidos (mulheres, homens ou crianças) e em termos de período de tempo (noite/dia, estação).

Mais uma vez documentação sistemática encontra-se no Arco-íris, no Guarda-fatos, e no Esqueleto. Nos casos em que não marcamos grupo, os agrupamentos são feitos através da forma sema:subgrupo, no atributo sema.

Mais informações

Além da página de Exemplos, já mencionada, refira-se:

O artigo Santos e Bick (2000) apresentou pela primeira vez o projecto AC/DC a uma audiência internacional. Nele se descrevem algumas fases do processo de conversão do formalismo usado pelo analisador sintáctico PALAVRAS (formato CG) para a codificação usada no projecto AC/DC, assim como os primeiros corpos anotados.
O artigo Santos e Sarmento (2003) pretende aliciar um público de linguistas a usar e apreciar os recursos presentes no AC/DC;
enquanto que Santos e Ranchhod (1999) foi o primeiro a descrever em português as capacidades de procura em corpos (embora ainda não anotados!) acessíveis deste projecto.
Em Santos & Gasperin (2002) fazem-se algumas considerações sobre a avaliação da qualidade da anotação à data.
Santos (2003) descreve vários usos de corpos, e Santos (2004) e Santos (2007) alguns usos não triviais do AC/DC.
Rocha e Santos (2007) descreve em algum pormenor a criação de um corpo no AC/DC a partir de uma colecção anotada com informação semântica, mostrando as capacidades do projecto AC/DC de dar acesso a vários tipos de informação.
Costa et al. (2009) dá uma panorâmica mais recente sobre os usos e a estratégia a seguir.
Santos (2011) tentou estabelecer o AC/DC na história mais vasta dos corpos em português
E por último mantemos uma lista de perguntas já respondidas sobre o AC/DC, em constante atualização

Para informação sobre outros projectos que podem, de certa forma, ser compreendidos como extensões ou variações do projecto AC/DC, integrando a revisão humana do material anotado automaticamente pelo PALAVRAS, veja-se:

A Floresta sintá(c)tica, projecto de colaboração com Eckhard Bick e o projecto VISL, em que criamos corpos analisados em formato de árvores, revistos por linguistas, e em que algumas das escolhas de atomização são distintas das do AC/DC;
O COMPARA, projecto de criação de um corpo paralelo em colaboração com Ana Frankenberg-Garcia, em que a anotação sintáctica da parte portuguesa tem sido revista e corrigida.
O CorTrad, que é um corpo paralelo multiversão, em colaboração com o projecto COMET, liderado por Stella E.O. Tagnin, com o NILC, e com Elisa Duarte Teixeira, também do COMET, em que outros géneros de texto estão a ser anotados.

Todos têm muito material publicado sobre as opções tomadas e os eventuais problemas da anotação automática.

[ Acesso | Atomização | Corpos | Exemplos | Agradecimentos ]

Diana Santos
Última atualização: 31 de agosto de 2020.

Perguntas, comentários e sugestões

Nome	Classe gramatical	Indicações de subclasse
N	Substantivo	prop
PROP	Nome próprio	kc (nomes próprios que incluem o caracter &)
SPEC	Especificador (pronome ou adjectivo)	rel, interr, dem, quant, diff
DET	Determinante (artigo, pronome ou adjectivo)	artd, arti, quant, dem, poss, diff, rel, ident, interr
PERS	Pronome pessoal	refl, obj, coll, reci
ADJ	adjectivo	NUMord, prop, KOMP, n, mente
ADV	advérbio	rel, quant, kc, ks, prp, interr, co-vfin, prop, dem, co-fmc, parkc-2*
V	verbo	n, prop, fmc, quant
NUM	numeral	card, prop
KS	conjunção subordinativa
KC	conjunção coordenativa	co-fmc, co-vfin, co-inf, co-pcv, co-prparg, co-ger, co-advl, co-acc, co-sc, co-pred, co-app, co-subj, co-postnom, parkc-1, parkc-2
PRP	preposição
IN	interjeição
EC	prefixo

PR_IND	presente do indicativo
INF	infinitivo
GER	gerúndio
IMPF_IND	imperfeito do indicativo
PCP	particípio passado
IMPF_SUBJ	imperfeito do conjuntivo
FUT_IND	futuro do indicativo
PR_SUBJ	presente do conjuntivo
FUT_SUBJ	futuro do conjuntivo
FUT_IND	futuro do indicativo
COND	condicional
MQP_IND	mais que perfeito simples
PS_IND	perfeito do indicativo
PS/MQP_IND	perfeito ou mais que perfeito
IMP	imperativo

COMP	indicação de que o tempo é composto (com o auxiliar ter, ou é passivo)
PPC	pretérito perfeito composto
MQP	mais que perfeito (composto)
PASSIVA	passiva
PROG	progressiva
FUTPER	futuro perifrástico com ir
FUTHAVER	futuro perifrástico com haver

NOM	nominativo
ACC	acusativo
DAT	dativo
PIV	objeto de preposição
ACC/DAT	ou acusativo ou dativo: me, te, nos, vos, se
NOM/PIV	ou nominativo ou objeto de preposição: ele, ela, eles, elas, nós, vós

forma	temcagr	pessnum	gen	comentário
classes	0	P	F	feminino plural
atraído	PCP	S	M	particípio passado masculino singular
fazem	PR_IND	3P	0	presente do indicativo, terceira pessoa do plural
sê	IMP	2S	0	imperativo, segunda pessoa do singular
reagirias	COND	2S	0	condicional, segunda pessoa do singular
as	ACC	3P	F	feminino, terceira pessoa do plural, acusativo
fazeres	INF	2S	0	infinitivo pessoal, segunda pessoa do singular
sonhando	GER	3	0	gerúndio
atrapalhar	INF	3	0	infinitivo

word	lema	pos	temcagr	pessnum	gen	func
nestas	em+este	PRP+DET_dem	0	P	F	A<ADVS+>N
pela	por+a	PRP+DET_artd	0	S	F	A<PASS+>N
àquela	a+aquele	PRP+DET_dem	0	S	F	<ADVL+>N
connosco	com+nós	PRP+PERS	PIV	1P	M/F	<SC_<ADVL+P<
fá-lo-iam	fazer+lo	V_fmc+PERS	COND+ACC	3P+3S	0+M	FMV+<ACC
retirar-lhos	retirar+lhe&lhes+eles	V+PERS+PERS	INF+DAT+ACC	3+3S/P+3P	0+M/F+M	IMV+<DAT+ACC>
transmite-as	transmitir+elas	V_fmc+PERS	PR_IND+ACC	3S+3P	F
estragá-lo	estragar+ele	V+PERS	FUT_IND+ACC	3S+3S	M
juntar-se-iam	juntar+se	V_fmc+PERS_refl_coll*	COND+ACC	3P+3P	M/F
lhas	lhe&lhes+elas	PERS+PERS	DAT+ACC	3S/P+3P	M/F+F

Projecto AC/DC: Anotação dos corpos

O atributo gen: género

Exemplos de codificação de atributos morfológicos

Informação semântica presente nos atributos sema e grupo

Nomes próprios

Expressões com várias palavras que não são nomes próprios

a) Expressões com várias palavras com função gramatical

b) Expressões com várias palavras correspondendo a categorias lexicais

Nomes próprios

Expressões com várias palavras que não são nomes próprios

a) Expressões com várias palavras com função gramatical

b) Expressões com várias palavras correspondendo a categorias lexicais

O atributo `gen`: género

Informação semântica presente nos atributos `sema` e `grupo`