Processamento de Linguagem Natural

Conceitos, Técnicas e Aplicações em Português (4ª Edição) – Volume 1

Sobre o Volume 1

Este volume do livro também está disponível em PDF.

Voltar ao início do Livro

Este volume destina-se a introduzir os principais conceitos, tarefas, técnicas e métodos do PLN. Ele deve fornecer uma boa visão geral da área, registrando marcos importantes desde seu início. O leitor iniciante se beneficiará de uma leitura sequencial dos capítulos (exceção feita à Parte 2, sobre Fala, que é bastante independente das demais).

A Parte 1 (Introdução) introduz os principais conceitos e traz um breve histórico do PLN, no Capítulo O que é PLN?, e é leitura obrigatória para o leitor não familiarizado com PLN.

A Parte 2 (Fala), ao contrário do restante do livro, que trata de processamento de texto, apresenta a área de processamento de fala: seus principais conceitos (Capítulo Texto ou fala?), e técnicas, recursos e aplicações (Capítulo Recursos para o processamento de fala). Além dos capítulos deste Volume, o leitor também encontrará no Capítulo Classificação de Áudio aplicada à Saúde capítulo XX do Volume 3 uma aplicação do processamento da fala para a classificação de áudios visando a detecção de problemas respiratórios. O leitor, ainda que interessado apenas na síntese ou reconhecimento de fala, se beneficiará dos demais capítulos deste livro para complementar conceitos comuns, como a anotação e o uso de corpus, o processamento da fala transcrita em texto, entre outros.

Na Parte 3 (Palavras), a primeira fase do processamento textual é discutida. O Capítulo Sequência de caracteres e palavras dedica-se a desvendar a morfologia, que estuda as palavras isoladamente, suas partes (morfemas), seus processos de derivação e composição, bem como partes importantes do processamento automático como a tokenização e a atribuição das categorias das palavras (part-of-speech tagging). Se o leitor desejar aprofundar o estudo sobre a importância das palavras para a complexidade textual, sugere-se a leitura do Capítulo Complexidade Textual e suas Tarefas Relacionadas. Se ao leitor interessa o processamento de expressões idiomáticas, o Capítulo Expressões multipalavras explora amplamente o mundo das expressões multipalavras, que traz grandes desafios à medida que a combinação dos componentes dessas expressões está relacionada à cultura de uso da língua.

Crescendo em complexidade, a Parte 4 (Estrutura) considera a ordem das palavras numa sentença, buscando extrair seus papéis na organização sintática parcial ou total da sentença. Com tal conhecimento, o processamento da língua alcança um novo patamar, e a partir dele já é possível realizar várias tarefas de PLN, como parsing parcial ou total, e viabilizar várias aplicações. O Capítulo A ordem e a função das palavras em uma sentença fornece toda a conceitualização de sintaxe, os principais tipos de análise, suas diferenças, vantagens e desvantagens. O Capítulo Ferramentas e recursos para o processamento sintático mostra as diferentes ferramentas computacionais para o processamento sintático, em especial, as que são dedicadas ao português. As Partes 3 e 4 são indispensáveis para o leitor, estudante ou profissional, que pretende atuar na área de PLN, pesquisando ou implementando sistemas.

A Parte 5 (Significado) promove um salto significativo para a complexidade do PLN: trata dos conceitos, modelos e técnicas relativos à apreensão do sentido implicado pela língua escrita. Isso pode ocorrer pelo uso de teorias e modelos simbólicos ou não simbólicos. O Capítulo E o significado? introduz toda a complexidade da semântica da língua. Os Capítulos Semântica com técnicas simbólicas e Semântica distribucional mostram as diferentes abordagens (simbólica e estatística, respectivamente) para o tratamento do sentido. A leitura desta parte é indispensável para quem quer conhecer de que forma o PLN busca apreender o significado das expressões linguísticas num texto.

Questões discursivas e retóricas implicadas pelo texto são tratadas na Parte 6 (Discurso) deste volume. No Capítulo Modelos discursivos, o leitor encontra os principais modelos discursivos para PLN; no Capítulo Resolução de correferência, um fenômeno muito frequente, e clássico no PLN, é tratado em detalhes: como resolver as correferências discursivas presentes em textos.

A Parte 7 (Geração e Interação) trata das diferentes arquiteturas de sistemas de geração de linguagem natural no Capítulo Geração de linguagem natural, e cobre, nos Capítulos Perguntas e Respostas e Diálogo e Interatividade, dois tipos de sistemas clássicos de PLN que se tornaram muito populares com o comércio eletrônico e, mais recentemente, com os agentes conversacionais: são os sistemas de perguntas e respostas, mais conhecidos na sua denominação em inglês – Question Answering – e os sistemas de diálogos.

A Parte 8 (Dados) trata da escolha e da preparação dos dados que alimentam os algoritmos e os métodos e critérios de avaliação dos sistemas criados. O Capítulo Conjunto de dados, dataset e corpus aborda tudo o que está envolvido na construção e na anotação de datasets ou corpus, bem como seu papel no treinamento de modelos de aprendizado de máquina. Para o leitor interessado em saber como os dados são usados no treinamento dos grandes modelos de linguagem (Large Language Models, LLMs), sugere-se a leitura do Capítulo O papel dos dados no pré-treinamento de Grandes Modelos de Linguagem. E o Capítulo Aprendizado Transdutivo em PLN discute o aprendizado transdutivo, uma alternativa ao aprendizado indutivo, como forma de incorporar grandes quantidades de dados não rotulados e, com isso, reduzir custos e aumentar a eficiência no treinamento de modelos.

A Parte 9 (Avaliação) inclui o Capítulo Avaliação de tecnologias de linguagem, que apresenta um panorama dos métodos de avaliação comumente usados para medir, analisar e comparar o desempenho de sistemas de PLN, e o Capítulo Avaliação conjunta em português, que aborda o tema da avaliação conjunta (shared tasks) e oferece um amplo panorama das avaliações conjuntas promovidas para a língua portuguesa: leitura obrigatória para todos os desenvolvedores de sistemas de PLN, sejam pesquisadores ou não. No escopo dos LLMs, sugere-se a leitura do Capítulo Avaliação de Grandes Modelos de Linguagem, que complementa a discussão desse importante tópico, que é a avaliação de sistemas tecnológicos.

Antes de finalizar o volume, a Parte 10 (Desafios e Perspectivas) discute algumas questões éticas (Capítulo Questões éticas em IA e PLN) que a IA, em geral, e o PLN, em particular, têm provocado, pela forma como novas tecnologias têm sido criadas e usadas recentemente. Para aprofundar ainda mais esta discussão, sugere-se a leitura do Capítulo Responsabilidade no desenvolvimento e uso de tecnologias de linguagem baseadas em IA que discute responsabilidade no desenvolvimento dos grandes modelos de linguagem. Finalmente, o último Capítulo ( E agora, PLN?) discorre sobre algumas perspectivas para o PLN do português.

Como citar

Caseli, H.M.; Nunes, M.G.V. (org.) Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português. 4 ed. BPLN, 2026. v. 1. Disponível em: https://brasileiraspln.ufscar.br/livro-pln-4ed-vol1.

@Book{BPLN_livro_4ed_vol1:2026,
   title     = {Processamento de Linguagem Natural: Conceitos,
                Técnicas e Aplicações em Português},
   editor    = {Caseli, H. M. and Nunes, M. G. V.},
   year      = {2026},
   publisher = {BPLN},   
   edition   = {4},
   volume    = {1},
   isbn      = {XXX-XX-XX-XXXXX-X},
   url       = {https://brasileiraspln.ufscar.br/livro-pln-4ed-vol1}
}