Projecto AC/DC: Anotação dos corpos
Projecto AC/DC, Linguateca
Esta página pretende documentar cabalmente a informação adicionada a todos os corpos, explicando as opções tomadas na sua codificação.
Para a utilização do sistema de processamento de corpos subjacente, o IMS Open CWB (tutorial), com exemplos pormenorizados de como os corpos anotados podem ser inquiridos e algumas procuras pertinentes, consulte-se a página de exemplos.
A anotação dos corpos é feita automaticamente pelo PALAVRAS, um analisador sintáctico automático para o português desenvolvido
por Eckhard Bick. Para a compreensão dos fundamentos linguísticos deste sistema, a referência fundamental é Bick 2000. Veja-se também
Sobre o processo de anotação que resulta no formato usado no AC/DC, consultar a descrição do processo de anotação abaixo.
Depois os corpos são passados por um anotador semântico (de momento em duas fases) que coloca informação no atributo sema e, em alguns casos, no atributo grupo.
Muito resumidamente, o PALAVRAS, o analisador sintáctico automático utilizado no projecto AC/DC, atribui, a cada unidade do corpo, o seu lema ("base form"), a sua categoria gramatical, características morfológicas (associadas à palavra no dicionário), e a sua função sintáctica, que codificámos, respectivamente, nos atributos lema, pos, temcagr, pessnum e gen e func. Além disso, o analisador tenta identificar, através de heurísticas morfológicas, palavras não constantes do dicionário, e que codificamos através do atributo deriv. Alguns exemplos simples do uso destes atributos podem ser vistos aqui.
De uma forma mais completa, documentamos em seguida a procura de informação morfossintáctica constante dos atributos pos, temcagr, pessnum, gen e func, assim como o conteúdo dos atributos lema e deriv.
O atributo pos (do inglês "part of speech") contém a classe gramatical produzida pelo analisador sintáctico PALAVRAS de Eckhard Bick (Word class tags, http://visl.sdu.dk/visl/pt/portsymbol.html#morftags), além de um conjunto de outras especificações que poderíamos chamar indicações de subclasse, que podem ser consultadas em http://visl.sdu.dk/visl/pt/portsymbol.html#sectags.
A classe gramatical e as indicações de subclasse podem ter os seguintes valores (todos atribuídos pelo PALAVRAS):
Nome | Classe gramatical | Indicações de subclasse |
N | Substantivo | prop |
PROP | Nome próprio | kc (nomes próprios que incluem o caracter &) |
SPEC | Especificador (pronome ou adjectivo) | rel, interr, dem, quant, diff |
DET | Determinante (artigo, pronome ou adjectivo) | artd, arti, quant, dem, poss, diff, rel, ident, interr |
PERS | Pronome pessoal | refl, obj, coll, reci |
ADJ | adjectivo | NUMord, prop, KOMP, n, mente |
ADV | advérbio | rel, quant, kc, ks, prp, interr, co-vfin, prop, dem, co-fmc, parkc-2* |
V | verbo | n, prop, fmc, quant |
NUM | numeral | card, prop |
KS | conjunção subordinativa | |
KC | conjunção coordenativa | co-fmc, co-vfin, co-inf, co-pcv, co-prparg, co-ger, co-advl, co-acc, co-sc, co-pred, co-app, co-subj, co-postnom, parkc-1*, parkc-2* |
PRP | preposição | |
IN | interjeição | |
EC | prefixo |
* parkc corresponde a pares de conjunções (tais como ou... ou, ou nem... nem) em que a primeira é marcada 1 e a segunda 2, ou a pares de advérbios (tanto ... como, tal qual como, ) em que apenas o segundo é marcado parkc-2.
O projecto AC/DC junta a informação primária e a secundária (por esta ordem) por meio de um caracter de sublinhado (ou mais do que um, se tal for o caso).
Exemplos:
- DET_arti determinante que é artigo indefinido
- SPEC_rel especificador relativo
- ADJ_n_NUMord numeral ordinal que pode ser usando como substantivo (n)
- ADV_rel advérbio relativo
- ADJ_prop_KOMP adjectivo comparativo em nome próprio (por exemplo em Superior)
A informação morfológica produzida pelo analisador sintáctico PALAVRAS está
descrita no seguinte URL:
http://visl.sdu.dk/visl/pt/portsymbol.html#morftags (sob a rubrica "inflection tags").
Na versão que utilizamos para o projecto AC/DC, o analisador tenta propagar essa informação a cada terminal, donde, por exemplo, se a expressão os turistas foi reconhecida como sintagma nominal, "turistas" será classificado como M e não M/F como vem do léxico.
As classes sem flexão têm 0 (zero) como valor dos atributos morfológicos.
O atributo temcagr: tempo verbal e/ou caso pronominal
Este atributo contém o tempo e modo para verbos (tem), o caso para pronomes (ca) e o grau (gr).
Quando indica os tempos, tem como possíveis valores
PR_IND | presente do indicativo |
INF | infinitivo |
GER | gerúndio |
IMPF_IND | imperfeito do indicativo |
PCP | particípio passado |
IMPF_SUBJ | imperfeito do conjuntivo |
FUT_IND | futuro do indicativo |
PR_SUBJ | presente do conjuntivo |
FUT_SUBJ | futuro do conjuntivo |
FUT_IND | futuro do indicativo |
COND | condicional |
MQP_IND | mais que perfeito simples |
PS_IND | perfeito do indicativo |
PS/MQP_IND | perfeito ou mais que perfeito |
IMP | imperativo |
No caso dos tempos compostos, ou seja, sequências de formas verbais que tenham pelo menos um auxiliar e um verbo principal não finito (IMV - infinite main verb), para facilidade de pesquisa adicionou-se -- automaticamente -- os seguintes marcadores de tempo:
COMP | indicação de que o tempo é composto (com o auxiliar ter, ou é passivo) |
PPC | pretérito perfeito composto |
MQP | mais que perfeito (composto) |
PASSIVA | passiva |
PROG | progressiva |
FUTPER | futuro perifrástico com ir |
FUTHAVER | futuro perifrástico com haver |
Quando indica os casos (dos pronomes pessoais), tem os possíveis valores:
NOM | nominativo |
ACC | acusativo |
DAT | dativo |
PIV | objeto de preposição |
ACC/DAT | ou acusativo ou dativo: me, te, nos, vos, se |
NOM/PIV | ou nominativo ou objeto de preposição: ele, ela, eles, elas, nós, vós |
Por enquanto, não contém informação de grau, que seria COMP (comparativo), SUPR (superlativo relativo), SUPA (superlativo absoluto), DIM (diminutivo) e AUM (aumentativo). Só em alguns casos (relativos a entidades anotadas semanticamente) existe DIM e AUM.
O atributo pessnum: pessoa e/ou número
Este atributo indica o número: S, P ou S/P para todas as categorias gramaticais com essa informação, excepto para verbos e pronomes pessoais, para os quais indica a pessoa: 1S, 1P, 2S, 2P, 3S, 3P, 1/3S, 0/1/3S.
O atributo gen: género
Este atributo apenas pode ter os valores M, F ou M/F (indeterminado).
Exemplos de codificação de atributos morfológicos
Teremos, pois, classificações como
forma | temcagr | pessnum | gen | comentário |
classes | 0 | P | F | feminino plural |
atraído | PCP | S | M | particípio passado masculino singular |
fazem | PR_IND | 3P | 0 | presente do indicativo, terceira pessoa do plural |
sê | IMP | 2S | 0 | imperativo, segunda pessoa do singular |
reagirias | COND | 2S | 0 | condicional, segunda pessoa do singular |
as | ACC | 3P | F | feminino, terceira pessoa do plural, acusativo |
fazeres | INF | 2S | 0 | infinitivo pessoal, segunda pessoa do singular |
sonhando | GER | 3 | 0 | gerúndio |
atrapalhar | INF | 3 | 0 | infinitivo |
Por uma opção condicionada por questões técnicas, e como já referido acima, temos como unidade o verbo seguido de clíticos, cujos valores são concatenados depois do sinal "+".
Alguns exemplos do valor dos vários atributos morfológicos nesses casos encontram-se em Tratamento de contracções e de verbos com clíticos, abaixo.
Para exemplos de procuras especializadas sobre morfologia, consulte-se mais uma vez a página dos exemplos.
A informação sintáctica produzida pelo analisador PALAVRAS de Eckhard Bick encontra-se descrita em http://visl.sdu.dk/visl/pt/portsymbol.html#syntags. (Note-se que o caracter @, indicando que a informação é de carácter sintáctico, foi consistentemente retirado do valor do atributo func.)
A informação produzida pelo PALAVRAS e retida no AC/DC pode ser dividida em vários categorias:
- classificação de função sintáctica duma palavra ou sintagma em relação ao constituinte a que pertence
- argumento de uma oração: sujeito (SUBJ), objecto directo (ACC), objecto indirecto (DAT), objecto preposicional (PIV), predicativo do sujeito (SC), predicativo do objecto (OC), agente da passiva (PASS), complemento circunstancial (ADVL, ADVS), aposto (APP) ou PRED, e outras categorias que não são necessariamente consensualmente sintácticas, tais como foco (FOC), ou tópico (TOP)
- dependente de outras categorias não verbais, sem que existam designações vulgarizadas para estes conceitos (>N, >A, N<, A<, P<, S<, KOMP< ...)
- função sintáctica de elementos verbais: verbo principal, finito ou não finito (FMV,IMV), verbo auxiliar, finito ou infinito (FAUX, IAUX), preposições que fazem parte da expressão verbal (PRT-AUX)
- função sintáctica de conectores entre orações ou sintagmas: subordinação (SUB), coordenação (CO), orações relativas finitas, infinitivas ou sem verbo (#FS, #ICL, #AS)
- classificação de uma dada palavra ou expressão (PRD)
- função sintáctica de topo: oração declarativa, imperativa ou interrogativa (DECL, COM, QUES), ou sintagma nominal (NPHR)
- indicação de dependência (através de < ou >, que indicam se a função liga à direita ou à esquerda)
Para exemplos de procuras especializadas sobre a função sintáctica, consulte-se mais uma vez a página dos exemplos.
Este atributo corresponde ao que Eckhard Bick chama a forma base, e contém:
- para palavras invariáveis, nas quais incluímos os advérbios, o mesmo valor que o atributo word (excepto em casos de contracções ou de locuções)
- para verbos, o infinitivo impessoal
- para substantivos, a forma singular (assim o lema de directores é director, e de directora directora)
- para adjectivos, a forma masculina singular
- para pronomes pessoais, o analisador usa a forma do nominativo (masculino), eu é lema de me, nós lema de nos, eles lema de lhes...
- para pronomes possessivos (meu, teu, seu, etc.), o lema é o masculino singular na pessoa correspondente. Dele, dela, etc. são considerados contracções da preposição de com pronomes pessoais, não pronomes possessivos.
- para pronomes relativos (cujo, cuja, etc.), demonstrativos (este, esta, etc.) e interrogativos (quanto, quanta, etc.) o lema é o masculino singular.
Informação semântica presente nos atributos sema e grupo
O atributo sema identifica o campo semântico a que a unidade em causa pertence. Os campos por agora marcados são: cor, roupa, corpo, emoções (emo), família, saúde e lugar. Em cada campo semântico existem vários subtipos associados, identificados por dois pontos seguidos de uma nova identificação, tal como cor:raça, roupa:original ou corpo:centralidade. A documentação mais ou menos extensiva de tal prática encontra-se respetivamente no Arco-íris, no Guarda-fatos, no Esqueleto, no Emocionário, em Saúde, em Família e em Viagem.
É importante referir que uma palavra pertencer a um grupo semântico não implica que a frase em que ela está inserida exprima essa informação. Assim, a frase Eu não tenho medo! embora contenha uma palavra do campo emo:medo não pode ser considerada como denotando medo. Por outro lado, a frase ela não aprendeu isso de cor não inclui qualquer elemento do campo semântico cor. De facto, essa frase exemplifica a necessidade da anotação semântica, visto que a procura pela palavra (ou lema) cor produziria resultados errados devido à homonímia.
No caso dos campos semânticos de cor e roupa (contendo portanto sema igual a cor ou igual a roupa), anotámos também outra informação que nos pareceu pertinente, no atributo grupo, que nos permite agrupar vários lemas diferentes sob uma mesma designação. No caso da cor, uma cor básica, no caso da roupa, uma função, essencialmente e simplificando, em termos de parte do corpo coberta, em termos de que sujeitos vestidos (mulheres, homens ou crianças) e em termos de período de tempo (noite/dia, estação).
Mais uma vez documentação sistemática encontra-se no Arco-íris e no Guarda-fatos.
É possível ter uma desambiguação incompleta, ou seja, a uma palavra podem estar atribuídas várias funções sintácticas, ou várias características morfológicas entre as quais o analisador não conseguiu escolher.
Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:
- Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
- Palavras que podem estar no singular ou no plural (S/P)
[pessnum="S/P"]
ou cujo género não foi determinado
[gen="M/F"]
- Formas da terceira ou primeira pessoa (1/3) do singular
[pessnum="1/3S"]
- Palavras que podem ser objecto directo ou indirecto da oração a que pertencem
[temcagr="ACC/DAT"]
- Infinitivo pessoal ou impessoal
[pessnum="0/1/3S"]
- Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
- Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.
Existem contudo alguns casos de diferentes funções sintácticas ligadas por sublinhado, que se referem à função sintáctica do constituinte como um todo (função externa), e função sintáctica da palavra (núcleo do constituinte) dentro do constituinte que lidera (função interna). Nesses casos, a segunda função é sempre precedida do caracter #. Note-se, a propósito, que aqui não estamos em presença de funções alternativas, mas concomitantes. O sublinhado antes de # não indica, portanto, neste caso, ambiguidade. Alguns exemplos:
- Entidade que representa o objecto da frase, objecto esse em forma de oração, cujo objecto é o próprio pronome relativo (por exemplo que em faz o que pode)
ACC>_#FS-<ACC.
- Advérbio de lugar (dentro da oração), oração subordinada finita associado a um nome à esquerda (p. ex. onde em na minha região, onde se opera ...)
ADVL>_#FS-N<
É preciso também notar as seguintes características do ACDC que, embora também pareçam descritíveis como "mais do que uma análise", correspondem sim a "várias análises amalgamadas" (e serão descritas em mais pormenor abaixo):
- o tratamento das contracções e dos verbos com clíticos: os seus atributos foram codificados unindo-os com o sinal "+"
- e o tratamento das palavras compostas ("multiword expressions" e "polylexicals"): os seus lemas encontram-se juntos pelo sinal "=" no caso de serem nomes próprios ou pertencentes a classes de palavras fechadas.
Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.
Por razões explicadas em Santos e Bick (2000), nomeadamente a necessidade de ter um separador de palavras o mais simples possível (e não dependente de uma análise sintáctica), a separação em unidades básicas -- e de forma a manter uma fidelidade absoluta ao corpo -- é feita simplesmente com base em espaços, sinais de pontuação, e uma lista de abreviaturas em português (e algumas em francês e inglês). (Ver a página de Atomização.)
Isso implica que, embora o analisador sintáctico considere como duas ou mais unidades as contracções e os verbos com enclíticos, o processo de criar os corpos do projecto AC/DC repõe a forma original considerando-os apenas como uma unidade. Os valores das diversas partes são contudo mantidos de forma a não se perder a informação devida à análise.
Alguns exemplos:
word | lema | pos | temcagr | pessnum | gen | func |
nestas | em+este | PRP+DET_dem | 0 | P | F | A<ADVS+>N |
pela | por+a | PRP+DET_artd | 0 | S | F | A<PASS+>N |
àquela | a+aquele | PRP+DET_dem | 0 | S | F | <ADVL+>N |
connosco | com+nós | PRP+PERS | PIV | 1P | M/F | <SC_<ADVL+P< |
fá-lo-iam | fazer+lo | V_fmc+PERS | COND+ACC | 3P+3S | 0+M | FMV+<ACC |
retirar-lhos | retirar+lhe&lhes+eles | V+PERS+PERS | INF+DAT+ACC | 3+3S/P+3P | 0+M/F+M | IMV+<DAT+ACC> |
transmite-as | transmitir+elas | V_fmc+PERS | PR_IND+ACC | 3S+3P | F |
estragá-lo | estragar+ele | V+PERS | FUT_IND+ACC | 3S+3S | M |
juntar-se-iam | juntar+se | V_fmc+PERS_refl_coll* | COND+ACC | 3P+3P | M/F |
lhas | lhe&lhes+elas | PERS+PERS | DAT+ACC | 3S/P+3P | M/F+F |
* Nota: fmc (verbo da oração principal) e refl_coll (pronome reflexo com interpretação colectiva) são indicações que podem estar associadas (ou não) à ocorrência de (no caso presente) juntar-se-iam
Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.
O analisador PALAVRAS é muito liberal na forma como junta conjuntos de palavras que para ele são uma única unidade.
O projecto AC/DC, pelo contrário, pretende fazer uso de uma separação tão simples e indiscutível quanto possível, para maximizar a utilidade do sistema pressupondo o mínimo de concordância com as opções linguísticas professadas pelo autor do PALAVRAS.
Podemos considerar três casos distintos de expressões com várias palavras:
- nomes próprios
- locuções gramaticais
- expressões mais ou menos fixas pertencendo a classes de palavras abertas
Nomes próprios
Para os nomes próprios identificados como tal pelo analisador (e notamos, a este propósito, que ainda existem muitos casos em que a identificação é demasiado abrangente), fazemos apenas uma nova atomização (uma unidade separada por espaços ou outras características gráficas) mantendo como lema de cada um dos constituintes todas as palavras, amalgamadas pelo sinal "=". Alguns exemplos de lemas:
Fernando=Henrique=Cardoso, Presidência=da=República, Minas=Gerais, Procuradoria=Geral=da=República, Conferência=Nacional=dos=Bispos=do=Brasil, Nossa=Senhora, São=Sebastião, Dr.=Andrew=Jordan, J.=J., Luís=XIV, Midnight=in=the=Garden=of=Good=and=Evil.
Note-se que o analisador tende a analisar nomes de livros ou filmes (entre aspas) como nomes próprios, e o mesmo se passa com títulos ou subtítulos grafados com inicial maiúscula. Alguns exemplos nos nossos corpos:
Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.
Quanto à questão da distribuição, e devido à forma como codificámos os corpos, cada nome próprio conta tantas vezes quanto o número de palavras que inclui. É importante ter em conta esse facto na contabilização dos resultados, visto que cada elemento vai ter os mesmos valores: pos será PROP, func, se for por exemplo o sujeito, contará tantos sujeitos quantas palavras tiver o nome próprio. Sugerimos algumas formas de ter isto em conta:
- Contabilizar separadamente todos os casos de nomes próprios [pos="PROP"] e descontar/adicionar os números respectivos
- garantir, que numa dada expressão de procura, só venha uma solução por nome próprio (por exemplo, testando que o resultado tenha de ser a palavra final): [func="<SUBJ"] [pos!="PROP"]
Expressões com várias palavras que não são nomes próprios
Para todos os outros casos de expressões consideradas indivisas pelo analisador, foi compilado um dicionário intermédio, que para cada entrada indica qual a sua análise interna (ainda de acordo com o PALAVRAS, bem entendido).
De momento o nosso repositório de polilexicais tem 5054 entradas, e mais 3816 esperam a sua inclusão.
Fazemos, contudo, diferença entre expressões com várias palavras com função gramatical e outras expressões (verbais, nominais, adjectivais ou adverbiais) que são consideradas pela análise sintáctica como grupos lexicais.
a) Expressões com várias palavras com função gramatical
Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.
Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.
Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.
Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.
De notar que, no caso de haver contracção com a palavra seguinte (como por exemplo em além do), optámos por pô-la fora do atributo MWE, o que significa que para efeitos de procura nos corpos, existem "expressões com várias palavras" de comprimento um.
b) Expressões com várias palavras correspondendo a categorias lexicais
Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).
Exemplos: orgãos de comunicação social, árvore genealógica, viola de arco, varinha de condão, unicidade sindical, tubo de raios catódicos, teoria dos conjuntos, são favas contadas, serviço militar obrigatório, sem eira nem beira, saco de água quente, salva de palmas, sabedoria das nações.
Eventualmente, estamos a considerar a possibilidade de manter a categoria gramatical originalmente obtida pelo analisador, a fim de não perdermos essa informação. Isso faria com que tivéssemos <mwe tipo=adj> para casos como pele vermelha (que será analisado, internamente, como N ADJ). (Estamos gratos a Elisabete Ranchhod por nos ter chamado a atenção para o facto de, nestes casos, a análise interna, ao substituir a do analisador, perder informação.)
Dado que as palavras compostas por aglutinação, tais como guarda-chuva, primeiro-ministro, couve-flor também são susceptíveis de ser abrangidas pela denominação "expressões com várias palavras", devemos indicar qual a forma como aparecem no AC/DC: Elas são codificadas com o lema mantendo o hífen (ao contrário de verbos com clíticos, documentados acima). Para as recuperar, basta, pois, procurar [lema=".*-.*"].
O processo mínimo que leva à actualização das versões dos corpos anotados é o seguinte:
- Criação do corpo não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
- Análise do corpo pelo PALAVRAS
- (OPCIONAL) Detecção de expressões polilexicais constantes desse corpo que ainda não estejam presentes no dicionário polilexical
- (OPCIONAL) Actualização do dicionário polilexical
- Adição de informação semântica e sintática através de regras CG
- Anotação semântica através do corte-e-costura
- Adição de informação semântica (campos sinonimo, antonimo e hiperonimo) a partir do PAPEL e do TEP
- Criação da respetiva versão anotada e sua disponibilização a partir do projecto AC/DC
Alguns comentários a este processo e ao seu resultado são necessários aqui:
- De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detetados nos vários corpos, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpos anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais atualizada do dicionário, faz com que alguns corpos estejam mais "bem processados" do que outros. Esta questão tem de ser melhor resolvida no futuro, visto que o dicionário polilexical está muito desatualizado.)
- Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpos. Por isso o nosso cuidado em indicar a versão do corpo, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpo (anotado), é registada a data da criação do corpo não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpo a que se dá acesso, além de uma numeração de versões única.
- O facto de usarmos vários tipos de sistemas para a anotação semântica (um para a cor e roupa, outros para as emoções) tem a sua origem em razões históricas, e é possível que seja alterado no futuro.
De forma ao volume da informação associado aos corpos ser mais facilmente conhecido e apreciado (e eventualmente também comparado entre os diferentes corpos), produzimos a seguinte descrição quantitativa, cujos valores, para cada corpo, se encontram disponíveis na página de Corpos.
- Número e tipo de atributos estruturais
- Distribuição em termos de propriedades superficiais (gráficas) das unidades do corpo, para responder à pergunta aparentemente simples de qual o número de palavras de cada corpo, identificando: o número de nomes próprios (e a quantos tokens/unidades correspondem), o número de elementos polilexicais (e a quantas unidades correspondem), o número de tokens (palavras gráficas) existente, e finalmente o número de palavras do corpo (contando uma locução ou um nome próprio como uma palavra só), e separando marcas de pontuação e números.
- Distribuição em termos de categoria gramatical: para o que se poderá chamar categorias gramaticais primárias (cuja identificação é dependente, claro, do analisador sintáctico subjacente, neste caso o PALAVRAS), fornecemos uma contabilização em número de unidades e percentagem. De notar que, visto que o número de palavras gráficas identificado pelo AC/DC pode conter mais do que uma categoria gramatical (por exemplo as contracções, PRP+DET, contam tanto para preposição como para determinante, ou os verbos com clíticos, V+PRON para aumentar a categoria verbo e a categoria pronome), a soma das percentagens por forma excede claramente os 100%.
É possível ter uma desambiguação incompleta, ou seja, a uma palavra podem estar atribuídas várias funções sintácticas, ou várias características morfológicas entre as quais o analisador não conseguiu escolher.
Essas características foram metacodificadas de forma diferente, conforme o nível a que se referem:
- Em relação aos atributos morfológicos, através do caracter barra. Alguns exemplos:
- Palavras que podem estar no singular ou no plural (S/P)
[pessnum="S/P"]
ou cujo género não foi determinado
[gen="M/F"]
- Formas da terceira ou primeira pessoa (1/3) do singular
[pessnum="1/3S"]
- Palavras que podem ser objecto directo ou indirecto da oração a que pertencem
[temcagr="ACC/DAT"]
- Infinitivo pessoal ou impessoal
[pessnum="0/1/3S"]
- Em relação aos atributos sintácticos, o analisador tenta produzir apenas uma análise (que pode, portanto, estar incorrecta). No entanto, há casos de várias alternativas, também codificadas por sublinhado entre elas, que correspondem a casos entre os quais o analisador não escolheu, tais como <SC_P<, SUBJ>_<ACC, <SUBJ_<ACC_P<_APP, etc.
- Finalmente, no caso de lemas alternativos, o PALAVRAS usa o caracter &, por exemplo em lhe&lhes como possível base/lema de lhos.
Existem contudo alguns casos de diferentes funções sintácticas ligadas por sublinhado, que se referem à função sintáctica do constituinte como um todo (função externa), e função sintáctica da palavra (núcleo do constituinte) dentro do constituinte que lidera (função interna). Nesses casos, a segunda função é sempre precedida do caracter #. Note-se, a propósito, que aqui não estamos em presença de funções alternativas, mas concomitantes. O sublinhado antes de # não indica, portanto, neste caso, ambiguidade. Alguns exemplos:
- Entidade que representa o objecto da frase, objecto esse em forma de oração, cujo objecto é o próprio pronome relativo (por exemplo que em faz o que pode)
ACC>_#FS-<ACC.
- Advérbio de lugar (dentro da oração), oração subordinada finita associado a um nome à esquerda (p. ex. onde em na minha região, onde se opera ...)
ADVL>_#FS-N<
É preciso também notar as seguintes características do ACDC que, embora também pareçam descritíveis como "mais do que uma análise", correspondem sim a "várias análises amalgamadas" (e serão descritas em mais pormenor abaixo):
- o tratamento das contracções e dos verbos com clíticos: os seus atributos foram codificados unindo-os com o sinal "+"
- e o tratamento das palavras compostas ("multiword expressions" e "polylexicals"): os seus lemas encontram-se juntos pelo sinal "=" no caso de serem nomes próprios ou pertencentes a classes de palavras fechadas.
Para lidar com esta forma de codificar, é preciso que o utilizador esteja consciente destas opções.
Por razões explicadas em Santos e Bick (2000), nomeadamente a necessidade de ter um separador de palavras o mais simples possível (e não dependente de uma análise sintáctica), a separação em unidades básicas -- e de forma a manter uma fidelidade absoluta ao corpo -- é feita simplesmente com base em espaços, sinais de pontuação, e uma lista de abreviaturas em português (e algumas em francês e inglês). (Ver a página de Atomização.)
Isso implica que, embora o analisador sintáctico considere como duas ou mais unidades as contracções e os verbos com enclíticos, o processo de criar os corpos do projecto AC/DC repõe a forma original considerando-os apenas como uma unidade. Os valores das diversas partes são contudo mantidos de forma a não se perder a informação devida à análise.
Alguns exemplos:
word | lema | pos | temcagr | pessnum | gen | func |
nestas | em+este | PRP+DET_dem | 0 | P | F | A<ADVS+>N |
pela | por+a | PRP+DET_artd | 0 | S | F | A<PASS+>N |
àquela | a+aquele | PRP+DET_dem | 0 | S | F | <ADVL+>N |
connosco | com+nós | PRP+PERS | PIV | 1P | M/F | <SC_<ADVL+P< |
fá-lo-iam | fazer+lo | V_fmc+PERS | COND+ACC | 3P+3S | 0+M | FMV+<ACC |
retirar-lhos | retirar+lhe&lhes+eles | V+PERS+PERS | INF+DAT+ACC | 3+3S/P+3P | 0+M/F+M | IMV+<DAT+ACC> |
transmite-as | transmitir+elas | V_fmc+PERS | PR_IND+ACC | 3S+3P | F |
estragá-lo | estragar+ele | V+PERS | FUT_IND+ACC | 3S+3S | M |
juntar-se-iam | juntar+se | V_fmc+PERS_refl_coll* | COND+ACC | 3P+3P | M/F |
lhas | lhe&lhes+elas | PERS+PERS | DAT+ACC | 3S/P+3P | M/F+F |
* Nota: fmc (verbo da oração principal) e refl_coll (pronome reflexo com interpretação colectiva) são indicações que podem estar associadas (ou não) à ocorrência de (no caso presente) juntar-se-iam
Para exemplos de procuras envolvendo clíticos, veja a página de Exemplos.
O analisador PALAVRAS é muito liberal na forma como junta conjuntos de palavras que para ele são uma única unidade.
O projecto AC/DC, pelo contrário, pretende fazer uso de uma separação tão simples e indiscutível quanto possível, para maximizar a utilidade do sistema pressupondo o mínimo de concordância com as opções linguísticas professadas pelo autor do PALAVRAS.
Podemos considerar três casos distintos de expressões com várias palavras:
- nomes próprios
- locuções gramaticais
- expressões mais ou menos fixas pertencendo a classes de palavras abertas
Nomes próprios
Para os nomes próprios identificados como tal pelo analisador (e notamos, a este propósito, que ainda existem muitos casos em que a identificação é demasiado abrangente), fazemos apenas uma nova atomização (uma unidade separada por espaços ou outras características gráficas) mantendo como lema de cada um dos constituintes todas as palavras, amalgamadas pelo sinal "=". Alguns exemplos de lemas:
Fernando=Henrique=Cardoso, Presidência=da=República, Minas=Gerais, Procuradoria=Geral=da=República, Conferência=Nacional=dos=Bispos=do=Brasil, Nossa=Senhora, São=Sebastião, Dr.=Andrew=Jordan, J.=J., Luís=XIV, Midnight=in=the=Garden=of=Good=and=Evil.
Note-se que o analisador tende a analisar nomes de livros ou filmes (entre aspas) como nomes próprios, e o mesmo se passa com títulos ou subtítulos grafados com inicial maiúscula. Alguns exemplos nos nossos corpos:
Hoje=já=não=há=mais=louça=em=Dresden, Médico=Local=Usa=Remédio=Maravilhoso, O=mamute=e=os=seus=parasitas, A=Montanha=Mágica.
Quanto à questão da distribuição, e devido à forma como codificámos os corpos, cada nome próprio conta tantas vezes quanto o número de palavras que inclui. É importante ter em conta esse facto na contabilização dos resultados, visto que cada elemento vai ter os mesmos valores: pos será PROP, func, se for por exemplo o sujeito, contará tantos sujeitos quantas palavras tiver o nome próprio. Sugerimos algumas formas de ter isto em conta:
- Contabilizar separadamente todos os casos de nomes próprios [pos="PROP"] e descontar/adicionar os números respectivos
- garantir, que numa dada expressão de procura, só venha uma solução por nome próprio (por exemplo, testando que o resultado tenha de ser a palavra final): [func="<SUBJ"] [pos!="PROP"]
Expressões com várias palavras que não são nomes próprios
Para todos os outros casos de expressões consideradas indivisas pelo analisador, foi compilado um dicionário intermédio, que para cada entrada indica qual a sua análise interna (ainda de acordo com o PALAVRAS, bem entendido).
De momento o nosso repositório de polilexicais tem 5054 entradas, e mais 3816 esperam a sua inclusão.
Fazemos, contudo, diferença entre expressões com várias palavras com função gramatical e outras expressões (verbais, nominais, adjectivais ou adverbiais) que são consideradas pela análise sintáctica como grupos lexicais.
a) Expressões com várias palavras com função gramatical
Ao mesmo tempo que analisamos a sua estrutura interna, resolvemos manter a informação de que para o analisador correspondem a uma única unidade, através do uso da indicação <mwe>.
Operacionalmente, o critério para introdução de mwe é ter categoria gramatical PRP, DET, SPEC ou PERS.
Assim, temos <mwe> àcerca de </mwe>, <mwe> toda a gente </mwe>, <mwe> por parte de</mwe>, <mwe> em obediência a</mwe>, etc.
Para obter estas expressões numa concordância, basta pedir <mwe> []{1,} </mwe>.
De notar que, no caso de haver contracção com a palavra seguinte (como por exemplo em além do), optámos por pô-la fora do atributo MWE, o que significa que para efeitos de procura nos corpos, existem "expressões com várias palavras" de comprimento um.
b) Expressões com várias palavras correspondendo a categorias lexicais
Pura e simplesmente substituímo-las pela sua estrutura interna (ou seja, a análise dos seus constituintes, dada pelo dicionário polilexical).
Exemplos: orgãos de comunicação social, árvore genealógica, viola de arco, varinha de condão, unicidade sindical, tubo de raios catódicos, teoria dos conjuntos, são favas contadas, serviço militar obrigatório, sem eira nem beira, saco de água quente, salva de palmas, sabedoria das nações.
Eventualmente, estamos a considerar a possibilidade de manter a categoria gramatical originalmente obtida pelo analisador, a fim de não perdermos essa informação. Isso faria com que tivéssemos <mwe tipo=adj> para casos como pele vermelha (que será analisado, internamente, como N ADJ). (Estamos gratos a Elisabete Ranchhod por nos ter chamado a atenção para o facto de, nestes casos, a análise interna, ao substituir a do analisador, perder informação.)
Dado que as palavras compostas por aglutinação, tais como guarda-chuva, primeiro-ministro, couve-flor também são susceptíveis de ser abrangidas pela denominação "expressões com várias palavras", devemos indicar qual a forma como aparecem no AC/DC: Elas são codificadas com o lema mantendo o hífen (ao contrário de verbos com clíticos, documentados acima). Para as recuperar, basta, pois, procurar [lema=".*-.*"].
O processo mínimo que leva à actualização das versões dos corpos anotados é o seguinte:
- Criação do corpo não-anotado num formato apropriado para ser analisado por PALAVRAS, após o processo de atomização e separação de frases, descrito em pormenor na página de Atomização.
- Análise do corpo pelo PALAVRAS
- (OPCIONAL) Detecção de expressões polilexicais constantes desse corpo que ainda não estejam presentes no dicionário polilexical
- (OPCIONAL) Actualização do dicionário polilexical
- Adição de informação semântica e sintática através de regras CG
- Anotação semântica através do corte-e-costura
- Adição de informação semântica (campos sinonimo, antonimo e hiperonimo) a partir do PAPEL e do TEP
- Criação da respetiva versão anotada e sua disponibilização a partir do projecto AC/DC
Alguns comentários a este processo e ao seu resultado são necessários aqui:
- De notar também que o analisador vai mudando de comportamento à medida que problemas vão sendo detetados nos vários corpos, além de que é alvo de desenvolvimento praticamente constante por parte do seu autor, Eckhard Bick. Os corpos anotados não são, portanto, necessariamente idênticos em todas as opções linguísticas e computacionais, visto que provêm de diferentes versões do analisador. (Aliás, também o coligir dos vários itens polilexicais, até ser convertido numa versão mais atualizada do dicionário, faz com que alguns corpos estejam mais "bem processados" do que outros. Esta questão tem de ser melhor resolvida no futuro, visto que o dicionário polilexical está muito desatualizado.)
- Finalmente, também o pós-processamento extensivo feito no próprio projecto AC/DC, que é sujeito a melhorias periódicas, pode alterar o conteúdo dos corpos. Por isso o nosso cuidado em indicar a versão do corpo, e dado que o PALAVRAS não tem versões numeradas, a data da sua invocação. Para cada corpo (anotado), é registada a data da criação do corpo não anotado que lhe deu origem, a data da análise sintáctica, e a data da criação do corpo a que se dá acesso, além de uma numeração de versões única.
- O facto de usarmos vários tipos de sistemas para a anotação semântica (um para a cor e roupa, outros para as emoções) tem a sua origem em razões históricas, e é possível que seja alterado no futuro.
De forma ao volume da informação associado aos corpos ser mais facilmente conhecido e apreciado (e eventualmente também comparado entre os diferentes corpos), produzimos a seguinte descrição quantitativa, cujos valores, para cada corpo, se encontram disponíveis na página de Corpos.
- Número e tipo de atributos estruturais
- Distribuição em termos de propriedades superficiais (gráficas) das unidades do corpo, para responder à pergunta aparentemente simples de qual o número de palavras de cada corpo, identificando: o número de nomes próprios (e a quantos tokens/unidades correspondem), o número de elementos polilexicais (e a quantas unidades correspondem), o número de tokens (palavras gráficas) existente, e finalmente o número de palavras do corpo (contando uma locução ou um nome próprio como uma palavra só), e separando marcas de pontuação e números.
- Distribuição em termos de categoria gramatical: para o que se poderá chamar categorias gramaticais primárias (cuja identificação é dependente, claro, do analisador sintáctico subjacente, neste caso o PALAVRAS), fornecemos uma contabilização em número de unidades e percentagem. De notar que, visto que o número de palavras gráficas identificado pelo AC/DC pode conter mais do que uma categoria gramatical (por exemplo as contracções, PRP+DET, contam tanto para preposição como para determinante, ou os verbos com clíticos, V+PRON para aumentar a categoria verbo e a categoria pronome), a soma das percentagens por forma excede claramente os 100%.
A partir de meados da década de 2000, o AC/DC começou a anotar também algumas características semânticas, indicadas nos atributo sema e grupo, já mencionados acima.
A grande diferença em relação à anotação sintática é que também começámos a rever essa anotação, tentando que ficasse 100% correta. Isso provoca algum desfasamento entre os vários corpos.
No caso dos campos semânticos de cor, roupa e corpo(contendo portanto sema igual a "cor" ou igual a "roupa", ou igual a "corpo"), anotámos também outra informação que nos pareceu pertinente, no atributo grupo, que nos permite agrupar vários lemas diferentes sob uma mesma designação. No caso da cor, uma cor básica, no caso da roupa, uma função, essencialmente e simplificando, em termos de parte do corpo coberta, em termos de que sujeitos vestidos (mulheres, homens ou crianças) e em termos de período de tempo (noite/dia, estação).
Mais uma vez documentação sistemática encontra-se no Arco-íris, no Guarda-fatos, e no Esqueleto.
Nos casos em que não marcamos grupo, os agrupamentos são feitos através da forma sema:subgrupo, no atributo sema.
Além da página de Exemplos, já mencionada, refira-se:
- O artigo Santos e Bick (2000) apresentou pela primeira vez o projecto AC/DC a uma audiência internacional. Nele se descrevem algumas fases do processo de conversão do formalismo usado pelo analisador sintáctico PALAVRAS (formato CG) para a codificação usada no projecto AC/DC, assim como os primeiros corpos anotados.
- O artigo Santos e Sarmento (2003) pretende aliciar um público de linguistas a usar e apreciar os recursos presentes no AC/DC;
- enquanto que Santos e Ranchhod (1999) foi o primeiro a descrever em português as capacidades de procura em corpos (embora ainda não anotados!) acessíveis deste projecto.
- Em Santos & Gasperin (2002) fazem-se algumas considerações sobre a avaliação da qualidade da anotação à data.
- Santos (2003) descreve vários usos de corpos, e Santos (2004) e Santos (2007) alguns usos não triviais do AC/DC.
- Rocha e Santos (2007) descreve em algum pormenor a criação de um corpo no AC/DC a partir de uma colecção anotada com informação semântica, mostrando as capacidades do projecto AC/DC de dar acesso a vários tipos de informação.
- Costa et al. (2009) dá uma panorâmica mais recente sobre os usos e a estratégia a seguir.
- Santos (2011) tentou estabelecer o AC/DC na história mais vasta dos corpos em português
- E por último mantemos uma lista de perguntas já respondidas sobre o AC/DC, em constante atualização
Para informação sobre outros projectos que podem, de certa forma, ser compreendidos como extensões ou variações do projecto AC/DC, integrando a revisão humana do material anotado automaticamente pelo PALAVRAS, veja-se:
- A Floresta sintá(c)tica, projecto de colaboração com Eckhard Bick e o projecto VISL, em que criamos corpos analisados em formato de árvores, revistos por linguistas, e em que algumas das escolhas de atomização são distintas das do AC/DC;
- O COMPARA, projecto de criação de um corpo paralelo em colaboração com Ana Frankenberg-Garcia, em que a anotação sintáctica da parte portuguesa tem sido revista e corrigida.
- O CorTrad, que é um corpo paralelo multiversão, em colaboração com o projecto COMET, liderado por Stella E.O. Tagnin, com o NILC, e com Elisa Duarte Teixeira, também do COMET, em que outros géneros de texto estão a ser anotados.
Todos têm muito material publicado sobre as opções tomadas e os eventuais problemas da anotação automática.
[
Acesso |
Atomização |
Corpos |
Exemplos |
Agradecimentos
]
Diana Santos
Última atualização: 31 de agosto de 2020.
Perguntas, comentários e sugestões