AN ANNOTATED CORPUS WITH SUPPORT VERB CONSTRUCTIONS IN PORTUGUESE

Authors

  • Amanda Pontes Rassi Universidade Federal de São Carlos - UFSCar Universidade do Algarve - UAlg
  • Jorge Baptista Universidade do Algarve - UAlg
  • Oto Araújo Vale Université Catholique de Louvain - UCL Universidade Federal de São Carlos - UFSCar

DOI:

https://doi.org/10.22409/gragoata.v20i38.33307

Keywords:

support verb, predicative noun. Lexicon Grammar, corpus annotation.

Abstract

The support verb constructions (SVC) are a type of nominal construction, where the core predicate is the noun, called 'predicative noun' (Npred), which is assisted by a verb, called 'support verb' (Vsup). The Lexicon‑Grammar theoretical and methodological framework was adopted, in this paper, for the linguistic description and formalization of SVC in Portuguese. Considering the syntactic and semantic differences between SVC and other types of constructions, the purpose of this paper is to present the methodology and results of creating a corpus annotated with Vsup and Npred. A list with 4,668 SVC was built, considering 45 variants of Vsup and around 3,200 different Npred. Based on this list, we extracted 121,198 sentences from PLN.Br full corpus, from which 2,646 sentences have been manually annotated. This sample may constitute a reference corpus for the processing of SVC and used as a golden standard for evaluating the automatic tasks of identification, extraction or classification of SVC, as well as for other Natural Language Processing (NLP) applications.

Downloads

Download data is not yet available.

Author Biographies

Amanda Pontes Rassi, Universidade Federal de São Carlos - UFSCar Universidade do Algarve - UAlg

Possui graduação em Letras pela Universidade Federal de Goiás (2005) e mestrado em Linguística pela Universidade Federal de Goiás (2008). Atualmente cursa Doutorado em Linguística pela Universidade Federal de São Carlos (2012-2015), tendo realizado estágio na Universidade do Algarve (UAlg) por meio do Programa Doutorado Sanduíche no Exterior (PDSE/ 2014). Tem experiência em Ensino de Língua Portuguesa nos níveis Fundamental, Médio e Superior, e também em anotação de corpus. Atua nas áreas de Lexicologia e Lexicografia, Sintaxe e Processamento de Línguas Naturais, com ênfase nos seguintes temas: descrição léxico-sintática, construções com verbo-suporte, nomes predicativos, nominalizações, construções causativas e provérbios.

Jorge Baptista, Universidade do Algarve - UAlg

Doutor em Linguistica - Sintaxe (Univ. Algarve, 2001). Mestre em Linguística Portuguesa Descritiva (Univ. Lisboa, Fac. Letras, 1995). Licenciado em Línguas e Literaturas Modernas-Estudos Portugueses (Univ. Lisboa, Fac. Letras, 1990). Prof. Associado de nomeação definitiva da Univ. Algarve (desde 2006), onde é docente desde 1992. Investigador convidado do L2F - Spoken Language Laboratory, do INESC-ID Lisboa http://www.l2f.inesc-id.pt.

Oto Araújo Vale, Université Catholique de Louvain - UCL Universidade Federal de São Carlos - UFSCar

Possui graduação (Maitrise) em Sciences du Langage - Universite de Paris VIII (1989), mestrado (DEA) em Sciences du Langage (DEA) - Universite de Paris VIII (1990) e doutorado em Linguística e Língua Portuguesa pela Universidade Estadual Paulista Júlio de Mesquita Filho (2002). Foi Professor Visitante na Universidade do Algarve no programa Erasmus Mundus, da Comunidade Europeia (2008). É Professor Associado do Departamento de Letras da Universidade Federal de São Carlos, onde atua na graduação e na pós-graduação. Tem experiência na área de Lingüística, com ênfase em Linguística Computacional, atuando principalmente nos seguintes temas: expressões cristalizadas, léxico-gramática, dicionários eletrônicos e linguistica de corpus.

Published

2015-06-30

How to Cite

Rassi, A. P., Baptista, J., & Vale, O. A. (2015). AN ANNOTATED CORPUS WITH SUPPORT VERB CONSTRUCTIONS IN PORTUGUESE. Gragoatá, 20(38). https://doi.org/10.22409/gragoata.v20i38.33307

Issue

Section

Language Articles