<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wx="http://ilps.science.uva.nl/WikiXML/wx" xml:lang="pt" lang="pt">
<head>
<title>Lingüística de Corpus</title>
<meta name="wx_namespace" content="0"/>
<meta name="wx_pagename" content="Lingüística_de_Corpus"/>
<meta name="wx_page_id" content="877300"/>
</head>
<body>
<div id="wx_article">
<wx:section level="1" title="Lingüística de Corpus" id="wxsec1"><h1 class="pagetitle" id="wx1">Lingüística de Corpus</h1>

<p id="wx2"><b id="wx3">Lingüística de Corpus</b> (ou de Córpus, no <a href="/wpt/Brasil" title="Brasil" wx:linktype="known" wx:pagename="Brasil" wx:page_id="404" id="wx4">Brasil</a>, ou Linguística de Corpus, ou de Córpus, em <a href="/wpt/Portugal" title="Portugal" wx:linktype="known" wx:pagename="Portugal" wx:page_id="1480" id="wx5">Portugal</a>) é uma área da <a href="/wpt/Ling%C3%BC%C3%ADstica" title="Lingüística" wx:linktype="known" wx:pagename="Lingüística" wx:page_id="1186" id="wx6">Lingüística</a> que se ocupa da coleta e análise de corpus (ou córpus; <a href="/wpt/Corpus_ling%C3%BC%C3%ADstico" title="Corpus lingüístico" wx:linktype="known" wx:pagename="Corpus_lingüístico" wx:page_id="58722" id="wx7">Corpus lingüístico</a>), que é um conjunto de dados lingüísticos coletados criteriosamente para serem objeto de pesquisa lingüística.</p>

<p id="wx8">A Lingüística de Corpus surgiu com a necessidade que estudiosos da <a href="/wpt/L%C3%ADngua" title="Língua" wx:linktype="known" wx:pagename="Língua" wx:page_id="1576350" id="wx9">língua</a> sentiram de se apoiarem em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento lingüístico. Atualmente, a Lingüística de Corpus está intimamente ligada ao uso do <a href="/wpt/Computador" title="Computador" wx:linktype="known" wx:pagename="Computador" wx:page_id="536" id="wx10">computador</a>, visto que os corpora (ou córpora, plural de corpus) são eletrônicos. Assim, a Lingüística de Corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas.</p>

<p id="wx11">De forma geral, o conjunto de dados lingüísticos reais criteriosamente coletados utilizados em estudos de Lingüística de Corpus é chamado de <a href="/wpt/Corpus" class="new" title="Corpus" wx:linktype="unknown" wx:pagename="Corpus" id="wx12">corpus</a> (plural: <a href="/wpt/Corpora" class="new" title="Corpora" wx:linktype="unknown" wx:pagename="Corpora" id="wx13">corpora</a>). O corpus deve ser constituído de dados autênticos (não inventados), legíveis por <a href="/wpt/Computador" title="Computador" wx:linktype="known" wx:pagename="Computador" wx:page_id="536" id="wx14">computador</a> e representativos de uma língua ou variedade da língua da qual se deseja estudar.</p>

<p id="wx15">O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise <a href="/wpt/Ling%C3%BC%C3%ADstica" title="Lingüística" wx:linktype="known" wx:pagename="Lingüística" wx:page_id="1186" id="wx16">lingüística</a>. As ferramentas computacionais mais comuns são:</p>

<ul id="wx17">
<li id="wx18">
<p id="wx19">Programas para listar palavras - fazem a contagem das palavras em um corpus;</p>
</li>
</ul>

<ul id="wx20">
<li id="wx21">
<p id="wx22">Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;</p>
</li>
</ul>

<ul id="wx23">
<li id="wx24">
<p id="wx25">Etiquetadores - fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem <a href="/wpt/Morfossint%C3%A1tica" class="new" title="Morfossintática" wx:linktype="unknown" wx:pagename="Morfossintática" id="wx26">morfossintática</a>, <a href="/wpt/Sint%C3%A1tica" class="new" title="Sintática" wx:linktype="unknown" wx:pagename="Sintática" id="wx27">sintática</a>, <a href="/wpt/Sem%C3%A2ntica" title="Semântica" wx:linktype="known" wx:pagename="Semântica" wx:page_id="1768" id="wx28">semântica</a> ou <a href="/wpt/Discursiva" class="new" title="Discursiva" wx:linktype="unknown" wx:pagename="Discursiva" id="wx29">discursiva</a>.</p>
</li>
</ul>

<p id="wx30">A Lingüística de Corpus faz uso de uma abordagem <a href="/wpt/Empirista" title="Empirista" wx:linktype="known" wx:pagename="Empirista" wx:page_id="536624" id="wx31">empirista</a>, contrária à abordagem <a href="/wpt/Racionalista" class="new" title="Racionalista" wx:linktype="unknown" wx:pagename="Racionalista" id="wx32">racionalista</a>, do ponto de vista lingüístico, e tem como central a noção de <a href="/wpt/Linguagem" title="Linguagem" wx:linktype="known" wx:pagename="Linguagem" wx:page_id="30071" id="wx33">linguagem</a> enquanto sistema <a href="/wpt/Probabil%C3%ADstico" class="new" title="Probabilístico" wx:linktype="unknown" wx:pagename="Probabilístico" id="wx34">probabilístico</a>.</p>

<p id="wx35">De acordo com essa noção, os traços lingüísticos não ocorrem de forma <a href="/wpt/Aleat%C3%B3ria" title="Aleatória" wx:linktype="known" wx:pagename="Aleatória" wx:page_id="1680672" id="wx36">aleatória</a>, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (<i id="wx37">patterned</i>), isto é, existe uma correlação entre os traços lingüísticos e os contextos situacionais de uso da linguagem.</p>

<p id="wx38">Na Lingüística de Corpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Lingüística de Corpus são: <a href="/wpt/Coloca%C3%A7%C3%A3o" title="Colocação" wx:linktype="known" wx:pagename="Colocação" wx:page_id="1445954" id="wx39">colocação</a>, <a href="/wpt/Coliga%C3%A7%C3%A3o" class="new" title="Coligação" wx:linktype="unknown" wx:pagename="Coligação" id="wx40">coligação</a> e <a href="/wpt/Pros%C3%B3dia_sem%C3%A2ntica" class="new" title="Prosódia semântica" wx:linktype="unknown" wx:pagename="Prosódia_semântica" id="wx41">prosódia semântica</a>.</p>

<p id="wx42">Para muitos pesquisadores, a Lingüística de Corpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de <a href="/wpt/Pesquisa_ling%C3%BC%C3%ADstica" class="new" title="Pesquisa lingüística" wx:linktype="unknown" wx:pagename="Pesquisa_lingüística" id="wx43">pesquisa lingüística</a> (<a href="/wpt/Lexicografia" title="Lexicografia" wx:linktype="known" wx:pagename="Lexicografia" wx:page_id="58682" id="wx44">Lexicografia</a>, <a href="/wpt/Ensino-aprendizagem" class="new" title="Ensino-aprendizagem" wx:linktype="unknown" wx:pagename="Ensino-aprendizagem" id="wx45">Ensino-aprendizagem</a>, <a href="/wpt/Tradu%C3%A7%C3%A3o" title="Tradução" wx:linktype="known" wx:pagename="Tradução" wx:page_id="30630" id="wx46">Tradução</a>, etc,).</p>

<p id="wx47">As principais áreas da Lingüística de Corpus são:</p>

<ul id="wx48">
<li id="wx49">
<p id="wx50">Compilação de corpora;</p>
</li>
</ul>

<ul id="wx51">
<li id="wx52">
<p id="wx53">Desenvolvimento de ferramentas para análise de corpora;</p>
</li>
</ul>

<ul id="wx54">
<li id="wx55">
<p id="wx56">Descrição de linguagem;</p>
</li>
</ul>

<ul id="wx57">
<li id="wx58">
<p id="wx59">Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.</p>
</li>
</ul>

<a id="Hist.C3.B3rico" name="Hist.C3.B3rico"/>
<wx:section level="2" title="Histórico" id="wxsec2"><h2 id="wx60">Histórico</h2>

<p id="wx61">A Lingüística de Corpus faz extenso uso de ferramentas computacionais e sua história se confunde com o <a href="/wpt/Desenvolvimento_tecnol%C3%B3gico" class="new" title="Desenvolvimento tecnológico" wx:linktype="unknown" wx:pagename="Desenvolvimento_tecnológico" id="wx62">desenvolvimento tecnológico</a>, especificamente o <a href="/wpt/Computador" title="Computador" wx:linktype="known" wx:pagename="Computador" wx:page_id="536" id="wx63">computador</a>. É possível identificar dois períodos importantes desde seu surgimento: antes do advento do computador e depois.</p>

<p id="wx64">Antes do computador, já se fazia uso de corpus. Na <a href="/wpt/Gr%C3%A9cia_Antiga" title="Grécia Antiga" wx:linktype="known" wx:pagename="Grécia_Antiga" wx:page_id="47366" id="wx65">Grécia Antiga</a> foi criado o <a href="/wpt/Corpus_Helen%C3%ADstico" class="new" title="Corpus Helenístico" wx:linktype="unknown" wx:pagename="Corpus_Helenístico" id="wx66">Corpus Helenístico</a>. Na <a href="/wpt/Antiguidade" title="Antiguidade" wx:linktype="known" wx:pagename="Antiguidade" wx:page_id="15078" id="wx67">Antiguidade</a> e <a href="/wpt/Idade_M%C3%A9dia" title="Idade Média" wx:linktype="known" wx:pagename="Idade_Média" wx:page_id="1042" id="wx68">Idade Média</a>, produziam-se corpora de citações da <a href="/wpt/B%C3%ADblia" title="Bíblia" wx:linktype="known" wx:pagename="Bíblia" wx:page_id="467" id="wx69">bíblia</a>. Durante boa parte do <a href="/wpt/S%C3%A9culo_XX" title="Século XX" wx:linktype="known" wx:pagename="Século_XX" wx:page_id="11194" id="wx70">século XX</a>, o uso de corpora para <a href="/wpt/Descri%C3%A7%C3%A3o_da_linguagem" class="new" title="Descrição da linguagem" wx:linktype="unknown" wx:pagename="Descrição_da_linguagem" id="wx71">descrição da linguagem</a>.</p>

<p id="wx72">Os corpora dessas épocas eram coletados, armazenados e analisados manualmente. A dificuldade de se realizar estudos desse tipo era enorme. Mesmo assim, havia grande interesse na coleta e exploração de corpora. É importante ressaltar o papel dos estudos baseados em corpora realizados manualmente pela dificuldade e pelo pioneirismo na época.</p>

<p id="wx73">O período crítico para os estudos baseados em corpus se deu com a ‘mudança’ de <a href="/wpt/Paradigma" title="Paradigma" wx:linktype="known" wx:pagename="Paradigma" wx:page_id="129088" id="wx74">paradigma</a> da <a href="/wpt/Ling%C3%BC%C3%ADstica" title="Lingüística" wx:linktype="known" wx:pagename="Lingüística" wx:page_id="1186" id="wx75">lingüística</a>, com as idéias de <a href="/wpt/Chomsky" title="Chomsky" wx:linktype="known" wx:pagename="Chomsky" wx:page_id="57128" id="wx76">Chomsky</a> por volta de 1950. Houve uma preferência muito forte por estudos baseados em <a href="/wpt/Teorias_racionalistas" class="new" title="Teorias racionalistas" wx:linktype="unknown" wx:pagename="Teorias_racionalistas" id="wx77">teorias racionalistas</a> da linguagem. Os estudos <a href="/wpt/Emp%C3%ADricos" class="new" title="Empíricos" wx:linktype="unknown" wx:pagename="Empíricos" id="wx78">empíricos</a> receberam muitas críticas nessa época. As críticas eram relacionadas à necessidade de se coletar dados empíricos e o meio pelo qual se realizava a coleta e a análise dos dados. Um dos argumentos era a falta de confiabilidade em analisar manualmente grandes quantidades de dados lingüísticos.</p>

<p id="wx79">Embora o cenário fosse desfavorável, os estudos baseados em corpora não pararam. Muitos pesquisadores continuaram seus estudos por meio de corpora. <a href="/wpt/Firth" class="new" title="Firth" wx:linktype="unknown" wx:pagename="Firth" id="wx80">Firth</a> (1957) e os <a href="/wpt/Neo-firthianos" class="new" title="Neo-firthianos" wx:linktype="unknown" wx:pagename="Neo-firthianos" id="wx81">neo-firthianos</a> defendiam a descrição da linguagem por meio de dados reais. O corpus <a href="/wpt/SEU" class="new" title="SEU" wx:linktype="unknown" wx:pagename="SEU" id="wx82">SEU</a> (Survey of English Usage), por exemplo, foi compilado e etiquetado manualmente em 1959. O SEU influenciou a criação de corpora eletrônicos e serviu para o desenvolvimento de etiquetadores computadorizados contemporâneos.</p>

<p id="wx83">Com o advento do computador nos anos de 1960 e a queda de prestígio das pesquisas puramente racionalistas, o cenário começou a mudar. O lançamento do <a href="/wpt/Corpus_Brown" class="new" title="Corpus Brown" wx:linktype="unknown" wx:pagename="Corpus_Brown" id="wx84">corpus Brown</a> em 1964, com 1 milhão de palavras, é considerado como o fato propulsor do desenvolvimento da Lingüística de Corpus. O corpus Brown é o pioneiro dos <a href="/wpt/Corpora_eletr%C3%B4nicos" class="new" title="Corpora eletrônicos" wx:linktype="unknown" wx:pagename="Corpora_eletrônicos" id="wx85">corpora eletrônicos</a> por ter nascido em um período ainda desfavorável para os estudos empiristas e, também, pela dificuldade de compilação em computadores <a href="/wpt/Mainframe" title="Mainframe" wx:linktype="known" wx:pagename="Mainframe" wx:page_id="51556" id="wx86">mainframe</a>.</p>

<p id="wx87">A popularização dos estudos com corpora ocorreu nos anos de 1980 com o aparecimento dos <a href="/wpt/Computadores_pessoais" title="Computadores pessoais" wx:linktype="known" wx:pagename="Computadores_pessoais" wx:page_id="576941" id="wx88">computadores pessoais</a>. Com o desenvolvimento dos computadores, especificamente o aumento da capacidade de armazenar e processar dados, maiores números de corpora e ferramentas foram disponibilizadas para pesquisas, contribuindo para a consolidação da Lingüística de Corpus.</p>

<p id="wx89">Ao final dos anos 90, a Lingüística de Corpus exerce grande influência em várias áreas da Lingüística Aplicada (<a href="/wpt/Ensino_de_L%C3%ADnguas" class="new" title="Ensino de Línguas" wx:linktype="unknown" wx:pagename="Ensino_de_Línguas" id="wx90">Ensino de Línguas</a>, <a href="/wpt/Tradu%C3%A7%C3%A3o" title="Tradução" wx:linktype="known" wx:pagename="Tradução" wx:page_id="30630" id="wx91">Tradução</a>, <a href="/wpt/An%C3%A1lise_do_Discurso" title="Análise do Discurso" wx:linktype="known" wx:pagename="Análise_do_Discurso" wx:page_id="58884" id="wx92">Análise do Discurso</a>, <a href="/wpt/Lexicografia" title="Lexicografia" wx:linktype="known" wx:pagename="Lexicografia" wx:page_id="58682" id="wx93">Lexicografia</a>, etc), fornecendo subsídios <a href="/wpt/Te%C3%B3ricos" class="new" title="Teóricos" wx:linktype="unknown" wx:pagename="Teóricos" id="wx94">teóricos</a> e <a href="/wpt/Metodol%C3%B3gicos" class="new" title="Metodológicos" wx:linktype="unknown" wx:pagename="Metodológicos" id="wx95">metodológicos</a> que possibilitam o estudo de vários aspectos da linguagem.</p>

<a id="Refer.C3.AAncias" name="Refer.C3.AAncias"/>
</wx:section><wx:section level="2" title="Referências" id="wxsec3"><h2 id="wx96">Referências</h2>

<p id="wx97">Berber Sardinha, T. (2004). <i id="wx98">Lingüística de Corpus</i>. São Paulo: Manole.</p>

<p id="wx99">Biber, D.; Conrad, S.; Reppen, R. (1998). <i id="wx100">Corpus linguistics: investigating language structure and use</i>. Cambridge, Cambridge University Presss.</p>

<p id="wx101">Hunston, S. (2002). <i id="wx102">Corpora in Applied Linguistics</i>. Cambridge : Cambridge University Press.</p>

<p id="wx103">Kennedy, G. D. (1998). <i id="wx104">An introduction to corpus linguistics</i>. Nova York, Longman.</p>

<a id="Liga.C3.A7.C3.B5es_externas" name="Liga.C3.A7.C3.B5es_externas"/>
</wx:section><wx:section level="2" title="Ligações externas" id="wxsec4"><h2 id="wx105"><wx:template id="wx_t1" pagename="Predefinição:Ligações_externas" page_id="62491"/>Ligações externas<wx:templateend start="wx_t1"/></h2>

<ul id="wx106">
<li id="wx107"><a href="http://www2.lael.pucsp.br/corpora/bp" class="external text" wx:linktype="external" rel="nofollow" id="wx108">Banco de Português</a></li>

<li id="wx109"><a href="http://www2.lael.pucsp.br/corpora/" class="external text" wx:linktype="external" rel="nofollow" id="wx110">Ferramentas computacionais (‘’toolkit online’’)</a></li>

<li id="wx111"><a href="http://www.corpusdoportugues.org/" class="external text" wx:linktype="external" rel="nofollow" id="wx112">Corpus do Português</a></li>
</ul>
</wx:section></wx:section></div>
<div id="wx_categorylinks">
<a href="/wpt/index.php?title=Especial:Categories&amp;article=Ling%C3%BC%C3%ADstica_de_Corpus" title="Especial:Categories" wx:linktype="known" wx:pagename="Especial:Categories" id="wx113">Categorias de páginas</a>: <span dir="ltr" id="wx114"><a href="/wpt/Categoria:Lingu%C3%ADstica" title="Categoria:Linguística" wx:linktype="known" wx:pagename="Categoria:Linguística" wx:page_id="14989" id="wx115">Linguística</a></span></div>
<div id="wx_languagelinks">
Outras línguas: <a href="http://cs.wikipedia.org/wiki/Korpusov%C3%A1_lingvistika" class="external" wx:linktype="interwiki" wx:pagename="cs:Korpusová_lingvistika" id="wx116">Česky</a> | <a href="http://de.wikipedia.org/wiki/Korpuslinguistik" class="external" wx:linktype="interwiki" wx:pagename="de:Korpuslinguistik" id="wx117">Deutsch</a> | <a href="http://en.wikipedia.org/wiki/Corpus_linguistics" class="external" wx:linktype="interwiki" wx:pagename="en:Corpus_linguistics" id="wx118">English</a> | <a href="http://es.wikipedia.org/wiki/Corpus_ling%C3%BC%C3%ADstico" class="external" wx:linktype="interwiki" wx:pagename="es:Corpus_lingüístico" id="wx119">Español</a> | <a href="http://gl.wikipedia.org/wiki/Corpus_ling%C3%BC%C3%ADstico" class="external" wx:linktype="interwiki" wx:pagename="gl:Corpus_lingüístico" id="wx120">Galego</a> | <a href="http://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E8%A8%80%E8%AA%9E%E5%AD%A6" class="external" wx:linktype="interwiki" wx:pagename="ja:コーパス言語学" id="wx121">日本語</a> | <a href="http://nl.wikipedia.org/wiki/Corpus_%28taalkunde%29" class="external" wx:linktype="interwiki" wx:pagename="nl:Corpus_(taalkunde)" id="wx122">Nederlands</a> | <a href="http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%BD%D0%B0%D1%8F_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0" class="external" wx:linktype="interwiki" wx:pagename="ru:Корпусная_лингвистика" id="wx123">Русский</a></div>
</body>
<wx:templatearguments for="wx_t1"><wx:argument name=""/></wx:templatearguments>
</html>
