Diogo da Silva Magalhães Gomes
Este trabalho apresenta o PetroVec: um conjunto de modelos vetoriais de palavras em português especializados no domínio de Óleo e Gás. Para viabilizar o treinamento dos modelos, criamos um corpus representativo do domínio, composto por uma extensa coleção de documentos técnicos e acadêmicos publicados em português por Universidades e instituições de referência na indústria nacional de petróleo. O corpus especializado contempla mais de 85 milhões de tokens e representa o maior conjunto textual público atualmente reportado na literatura científica para o domínio de Óleo e Gás.
Os modelos são submetidos a uma abrangente cobertura de avaliações, contemplando metodologias quantitativas baseadas em análises intrínseca e extrínseca, além de uma série de análises qualitativas para explorar propriedades linguísticas codificadas no espaço semântico dos modelos. A análise intrínseca foi realizada a partir da criação de um dataset de similaridade semântica composto por 1500 pares de termos anotados por especialistas em geociências, enquanto a análise extrínseca consistiu na aplicação prática dos modelos em uma tarefa de reconhecimento de entidades nomeadas no subdomínio de geologia. Adicionalmente, realizamos análises comparativas dos nossos resultados em relação a um modelo público de contexto geral de referência em português. Nossas análises convergem ao evidenciar que os modelos PetroVec apresentam resultados consistentemente superiores ao modelo público de referência em todas as avaliações, sugerindo que os modelos especializados são capazes de automaticamente capturar propriedades sintáticas e semânticas específicas do vocabulário técnico de domínio de maneira não-supervisionada a partir do corpus de treinamento.
http://www.coc.ufrj.br/pt/teses-de-doutorado/636-2021/9568-diogo-da-silva-magalhaes-gomes