Bibliografia sobre avaliação do processamento computacional do português

Linguateca

Bibliografia comentada sobre avaliação na área do processamento computacional da língua portuguesa, para preparar o encontro de avaliação conjunta, incluindo trabalhos que refiram pelo menos uma das duas vertentes

Por enquanto conseguimos apenas coligir informação para as seguintes sub-áreas:

Correcção ortográfica e análise morfológica

Medeiros, José Carlos, Rui Marques & Diana Santos. 1993. "Português Quantitativo", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25--26 February 1993), pp.33-8.

Medeiros, José Carlos Dinis. 1995. "Processamento Morfológico e Correcção Ortográfica do Português". Tese de Mestrado, Instituto Superior Técnico, Fevereiro de 1995. /Repositorio/Medeiros95.doc

Medeiros, José Carlos. 1996. "Avaliação de Correctores Ortográficos" [Evaluation of Spellcheckers], Actas do XI Encontro da Associação Portuguesa de Linguística (Lisboa, 2-4 de Outubro de 1995), pp. 73-91.

Bick, Eckhard. "Structural lexical heuristics in the automatic analysis of Portuguese", in Maegaard, Bente (ed.), Proceedings of the 11th Nordic Conference on Computational Linguistics (Nodalida ‘98) (Copenhaguen, 1998), pp. 44-56./Repositorio/Bick98a.doc

Tradução automática

Santos, Diana Maria de Sousa Marques Pinto dos. "A fase de transferência de um sistema de tradução automática do inglês para o português", Tese de Mestrado, IST, UTL, Outubro de 1988.

Eliseu, André, Adriana Cardoseo, Catarina Magro & Ermelinda Gonçalinho. 1998. "Precisão" e "cobertura": dois requisitos em conflito na constituição de uma gramática para um sistema de tradução automática. Actas do XIV Congresso da Associação Portuguesa de Linguística (APL), Aveiro, 28-30 de Setembro de 1998, pp. 495-509.

Oliveira, Osvaldo N. Jr., Ana R. Marchi, Mônica S. Martins, Ronaldo T. Martins. A Critical Analysis of the Performance of English-Portuguese-English MT Systems, Actas do V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp.85-92. http://nilc.icmc.sc.usp.br/download/criticalanalysis.zip

Leffa, Vilson J. 1994. Machine-translated text: Is it comprehensible to proficient readers? In System. Great Britain, v.22, n. 3, p. 391-399, August 1994.

Marrafa, Palmira & Ribeiro, António. 2001. Quantitative Evaluation of Machine Translation Systems: Sentence Level. In MT Summit VIII Fourth ISLE workshop. Santiago de Compostela, Setembro de 2001. http://www.eamt.org/summitVIII/papers/marrafa.pdf

Extracção de termos

Ribeiro, António, Gabriel P. Lopes, João Mexia. Extracting Equivalents from Aligned Parallel Texts: Comparison of Measures of Similarity, In: Monard, Maria C. & Jaime Simão Sichman (eds.), International Joint Conference: 7th Ibero-American Conference on Artificial Inteligence and 15th Brazilian Symposiun on Artificial Inteligence. Atibaia-SP, Brazil. Advances in Artificial Intelligence. Lecture Notes in Artificial Intelligence, 1952, pp.339-349. Springer, November, 2000.

Dias, Gaël, José Gabriel Pereira Lopes, Sylvie Guilloré. Mutual Expectation: A Measure for Multiword Lexical Unit Extraction. Vextal 99: Venezia per il Trattamento Automatico delle Lingue (Venecia, 20-22/11/1999).

Pereira, Marcel Brito, Carolina F. Reis de Souza & Maria das Graças Volpe Nunes. "Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras-Chave de Textos Científicos em Português", http://www.sbc.org.br/reic/edicoes/edicao3/cientificos/AlgoritmosDeExtracaodePalavrasChave.pdf

Análise sintáctica

Bacelar do Nascimento, Maria Fernanda, José Bettencourt Gonçalves, Lucília Chacoto, Paula Neto, Luísa Alice Santos Pereira. 1993. "Ambiguidade morfológica no Português Fundamental", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, Lisboa, 25-26 de Fevereiro de 1993, pp.101-106.

Mede a ambiguidade categorial atestada num corpus oral.

Medeiros, José Carlos, Rui Marques & Diana Santos. 1993. "Português Quantitativo", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25--26 February 1993), pp.33-8.

Mede a distribuição da ambiguidade morfosintáctica; avalia o potencial de desambiguação de um analisador morfossintáctico.

Santos, Diana. "Português Computacional", in Inês Duarte & Isabel Leiria (orgs.), Actas do Congresso Internacional sobre o português, 1994, Volume III, Lisboa: Edições Colibri / APL, Junho de 1996, pp. 167-84. /Diana/download/cip.rtf
/Diana/download/cip.ps

Mede quais as causas da homografia; mede a distribuição por forma e tempo...

Hagège, Caroline. 2000. Analyse Syntaxique Automatique du Portugais. Dissertação de Doutoramento. Groupe de Recherche dans les Industries de la Langue (GRIL), Universite Blaise Pascal, Clermont-Ferrand (FRANCE). http://digitais.ist.utl.pt/cstc/le/Dissertations/CSTCLE-3.pdf http://digitais.ist.utl.pt/cstc/le/Dissertations/CSTCLE-3.ps.gz

Bick, Eckhard. The Parsing System "Palavras": Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus University Press, 2000.

Avalia a desambiguação morfossintáctica;

Villavicencio, Aline, Rosa Maria Viccari, Fabio Villavicencio. "Evaluating Part-of-Speech Taggers for the Portuguese Language", Actas do II Encontro para o processamento computacional de português escrito e falado (PROPOR'1996) (Curitiba, Paraná, Brasil, 21 e 22 de Outubro de 1996), pp.159-168.

Aires, Rachel Virgínia Xavier. 2000. Implementação, adaptação, combinação e avaliação de etiquetadores para o português do Brasil. Tese de Mestrado. Instituto de Ciências Matemáticas de São Carlos. Universidade de São Paulo. /Repositorio/Aires2000.ps

Aires, Rachel V. Xavier, Sandra M. Aluísio, Denise C. S. Kuhn, Marcio L. B. Andreeta, Oswaldo N. Oliveira Jr. Combining Multiple Classifiers to Improve Part of Speech Tagging: A Case Study for Brazilian Portuguese. In: Monard, Maria C. & Jaime Simão Sichman (eds.), International Joint Conference: 7th Ibero-American Conference on Artificial Inteligence and 15th Brazilian Symposiun on Artificial Inteligence. Atibaia-SP, Brazil. Open Discussion Track Proceedings, pp.227-236. ICMC/USP, November, 2000. http://nilc.icmc.sc.usp.br/download/AiresSBIA2000.ps

Baptista, Jorge e Luís Faisca. 2001. "Um filtro para palavras exóticas frequentes do Português". Seminários de Linguística 4: 65-86. Faro: CELL, Univ. Algarve. http://w3.ualg.pt/~jbaptis/download/jblf2001.pdf

Mede a ambiguidade morfológica no CETEMPúblico, com especial referência pra palavras "exóticas".

Alinhamento

Santos, Diana & Signe Oksefjell. "An evaluation of the Translation Corpus Aligner, with special reference to the language pair English-Portuguese", in Torbjørn Nordgård (ed.), NODALIDA'99, Proceedings from the 12th "Nordisk datalingvistikkdager". Trondheim, 9-10 December 1999, Trondheim, Department of Linguistics, NTNU, 2000, pp. 191-205. /Diana/download/SantosOksefjellNodalida99.rtf
/Diana/download/SantosOksefjellNodalida99.ps

Santos, Diana. 1994. Bilingual alignment and tense. In Proceedings of the Second Annual Workshop on Very Large Corpora. Kyoto, 4 August 1994. pp. 129-141. Extended version as INESC Report AR/10-94. /Diana/download/vlc_am.ps
/Diana/download/vlc_am.rtf

Atomização (tokenization)

Santos, Diana & Eckhard Bick. "Providing Internet access to Portuguese corpora: the AC/DC project", in Maria Gavriladou, George Carayannis, Stella Markantonatou, Stelios Piperidis & Gregory Stainhaouer (eds.), Proceedings of the Second International Conference on Language Resources and Evaluation, LREC2000 (Athens, 31 May-2 June 2000), pp.205-210./Diana/ download/SantosBickLREC2000.rtf
/Diana/download/SantosBickLREC2000.ps

Mede as diferenças entre duas abordagens diferentes de atomização.

Santos, Diana. Resultado da revisão da separação em frases do primeiro milhão de palavras do CETEMPúblico

Mede as diferenças entre dois métodos/abordagens de separação de frases.

Sumarização

Souza, C.F.R.; Nunes, M.G.V. 2001. Avaliação de Algoritmos de Sumarização Extrativa de Textos em Português. Relatórios Técnicos do ICMC-USP. NILC-TR-01-09, Novembro 2001. http://nilc.icmc.sc.usp.br/download/NILC-TR-01-9.zip

Pardo, T.A.S. & Rino, L.H.M. 2002. DMSumm: Review and Assessment. In the Proc. of PorTAL - Portugal for Natural Language Processing. Faro, Portugal. 23-26 June.

Indexação

Sardinha, Tony Berber. 1999. A influência do tamanho do corpus de referência na obtenção de palavras-chave. DIRECT Paper 38. ISSN 1413-442x. Published by LAEL, Catholic University of São Paulo, Brazil, and AELSU, University of Liverpool, United Kingdom. http://www.direct.f2s.com/DirectPapers38.pdf

Recolha de informação

Gonzalez, Mario e Vera Lucia Strube de Lima. 2001. Recuperação de Informação e Expansão Automática de Consulta com Thesaurus: uma avaliação. XXVII Conferencia Latinoamericana de Informatica (CLEI'2001). Mérida, Venezuela, 24-28 de Septiembre del 2001. http://www.inf.pucrs.br/~gonzalez/docs/expanconsul.pdf

Corpora

Pereira, L.A.S. 1997. Análise de corpora e dicionários de uso. XIII Encontro da Associação Portuguesa de Linguística (APL), Lisboa, 1-3 de Outubro de 1997.

Santos, Diana & Paulo Rocha. "Evaluating CETEMPúblico, a free resource for Portuguese", Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (Toulouse, 9-11 July 2001), pp.442-449. /Diana/download/SantosRochaACL2001.rtf
/Diana/download/SantosRochaACL2001.ps
/Diana/download/SantosRochaACL2001.pdf

Santos, Diana & Caroline Gasperin. Santos, Diana & Caroline Gasperin. "Evaluation of parsed corpora: experiments in user-transparent and user-visible evaluation", in Manuel González Rodríguez & Carmen Paz Suárez Araujo (eds.), Proceedings of LREC 2002, the Third International Conference on Language Resources and Evaluation (Las Palmas de Gran Canaria, Spain, 29-31 May 2002), ELRA, 2002, pp.597-604. /Diana/download/SantosGasperinLREC2002.rtf
/Diana/download/SantosGasperinLREC2002.ps

Léxico

Bacelar do Nascimento, Maria Fernanda, Amália Mendes & Diana Santos. "O corpus e a classificação sintáctica das palavras", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25-26 de Fevereiro de 1993), pp.125-9.

Mede a distribuição de um dado verbo, por contexto sintátcico, em corpora.

Reis, Regina. "Dicionários de língua corrente: algumas considerações", Actas do 1.o Encontro de Processamento de Língua Portuguesa (Escrita e Falada) - EPLP'93, (Lisboa, 25-26 de Fevereiro de 1993), pp.141-6.

Mede o grau de cobertura de um dicionário sobre um dado corpus.

Barreiro-Colasuonno, A., Wittmann, L. & Pereira, M. J. "Lexical differences between European and Brazilian Portuguese". The INESC Journal of Research & Development, 5 (2) (1996), Lisboa, Jan-Dez. /Repositorio/Barreiroetal95.rtf

Mede diferenças emtre os léxicos das duas variantes

Análise semântica

Questões genéricas

Santos, Diana. "Toward language-specific applications", Machine Translation 14 (2000).

Afonso, Susana Cavadas. "Na trilha de um Teste Inter-Anotadores". Texto criado no âmbito do projecto Floresta Sintá(c)tica, /treebank/TrilhaTIA.ps /treebank/TrilhaTIA.rtf

Santos, Diana & Paulo Rocha. "AvalON: uma iniciativa de avaliação conjunta para o português" /Diana/download/SantosRochaAPL2002.ps /Diana/download/SantosRochaAPL2002.rtf


Última actualização: 30 de Janeiro de 2003.
Perguntas, comentários e sugestões