Planejamento

 


Carolina - Corpus Aberto para Linguística e Inteligência Artificial

Planejamento em fases (2020-2022)

Fase I: Primeira prospecção de corpora e repositórios; desenvolvimento metodológico 
outubro 2020 - janeiro 2021

(1) Primeira prospecção de corpora e repositórios:

(1a) Pesquisar conjuntos já existentes de textos (construídos como corpora ou não), verificando suas condições de acesso 
(1b) Selecionar os conjuntos de textos mais adequados dos pontos de vista técnico e linguístico​​​​​​​ 
(1c) Baixar e guardar previamente um primeiro lote de textos prospectados 

(2)  Desenvolvimento metodológico:

(2a) Desenhar uma tipologia textual dialética com base no conjunto inicial de textos selecionados 
(2b) Pesquisar e planejar conceitos e formatos de metadados 
(2c) Avaliação dos resultados  e planejamento dos procedimentos de tratamento a serem seguidos na Fase II 

Fase II: Prospecção continuada de corpora e repositórios; preparação dos textos 
​​​​​​​fevereiro 2021-dezembro 2021
​​​​​​​​​​​​​​

(3) Prospecção continuada de corpora e repositórios:

(3a) Baixar e armazenar definitivamente os textos da Fase I em um servidor onde estarão disponíveis para as demais equipes do PLN@C4AI
(3b) Pesquisar novos conjuntos de textos, aproveitando os resultados das avaliações das etapas anteriores
(3c) Avaliação dos resultados da segunda prospecção e seleção definitiva dos textos da Fase II

​​​​​​​(4)  Desenvolvimento metodológico:

(4a) Refinar a tipologia textual delineada nas etapas anteriores; debater e realizar eventuais ajustes aos procedimentos seguidos na Fase I
(4b) Organizar os textos segundo a tipologia textual e os metadados definitivos, e anotar os metadados
(4c) Dar tratamento básico aos textos, transformando-os em textos processáveis
(4d) Planejamento e preparação da plataforma de publicação do corpus

MARCO: Publicação do Carolina - Corpus Aberto para Linguística e Inteligência Artificial 
​​​​​​​janeiro 2022


Fase III: Prospecção continuada de repositórios e preparação continuada dos textos 
​​​​​​​fevereiro 2020-...

(5) Trabalhos continuados de reunião e sistematização dos textos:

(5a) Prosseguir na prospecção de novos repositórios
(5b) Dar tratamento básico aos novos textos, transformando-os em textos processáveis; organizar os textos segundo a tipologia textual refinada em (4)
(5c) Alimentar e manter a plataforma de publicação do corpus