Carolina - Corpus Aberto para Linguística e Inteligência Artificial
Planejamento em fases (2020-2022)
Fase I: Primeira prospecção de corpora e repositórios; desenvolvimento metodológico
outubro 2020 - janeiro 2021
(1) Primeira prospecção de corpora e repositórios:
(1a) Pesquisar conjuntos já existentes de textos (construídos como corpora ou não), verificando suas condições de acesso ✓
(1b) Selecionar os conjuntos de textos mais adequados dos pontos de vista técnico e linguístico ✓
(1c) Baixar e guardar previamente um primeiro lote de textos prospectados ✓
(2) Desenvolvimento metodológico:
(2a) Desenhar uma tipologia textual dialética com base no conjunto inicial de textos selecionados ✓
(2b) Pesquisar e planejar conceitos e formatos de metadados ✓
(2c) Avaliação dos resultados e planejamento dos procedimentos de tratamento a serem seguidos na Fase II ✓
Fase II: Prospecção continuada de corpora e repositórios; preparação dos textos
fevereiro 2021-dezembro 2021
(3) Prospecção continuada de corpora e repositórios:
(3a) Baixar e armazenar definitivamente os textos da Fase I em um servidor onde estarão disponíveis para as demais equipes do PLN@C4AI
(3b) Pesquisar novos conjuntos de textos, aproveitando os resultados das avaliações das etapas anteriores
(3c) Avaliação dos resultados da segunda prospecção e seleção definitiva dos textos da Fase II
(4) Desenvolvimento metodológico:
(4a) Refinar a tipologia textual delineada nas etapas anteriores; debater e realizar eventuais ajustes aos procedimentos seguidos na Fase I
(4b) Organizar os textos segundo a tipologia textual e os metadados definitivos, e anotar os metadados
(4c) Dar tratamento básico aos textos, transformando-os em textos processáveis
(4d) Planejamento e preparação da plataforma de publicação do corpus
MARCO: Publicação do Carolina - Corpus Aberto para Linguística e Inteligência Artificial
janeiro 2022
Fase III: Prospecção continuada de repositórios e preparação continuada dos textos
fevereiro 2020-...
(5) Trabalhos continuados de reunião e sistematização dos textos:
(5a) Prosseguir na prospecção de novos repositórios
(5b) Dar tratamento básico aos novos textos, transformando-os em textos processáveis; organizar os textos segundo a tipologia textual refinada em (4)
(5c) Alimentar e manter a plataforma de publicação do corpus