Please use this identifier to cite or link to this item:
Title: Sentence-alignment and application of russian-german multi-target parallel corpora for linguistic analysis and literary studies
Authors: Zhekova, Desislava
Zangenfeind, Robert
Mikhaylova, Alena
Nikolaienko, Tetiana
Keywords: interactive alignment;rule-based alignment;statistical alignment;coreference resolution;paraphrase identification;alinhamento interativo;alinhamento baseado em regras;alinhamento estatístico;resolução de correferência;identificação de paráfrase
Issue Date: 2016
Publisher: Centro de Literatura Portuguesa
Imprensa da Universidade de Coimbra
Abstract: Este artigo apresenta a aplicação de corpora multialvo paralelos – compostos por um único texto-fonte e múltiplas traduções-alvo desse texto – para análise linguística. Discute-se o alinhamento, busca interativa e visualização deste tipo de dados usando uma ferramenta específica chamada ALuDo (Alinhamento com Lucene para Dostoievski). Trata-se de uma aplicação Java que utiliza gramáticas locais, informação ontológica, dicionários bilingues e abordagens estatísticas para alinhamento e pesquisa. O conjunto de dados utilizado é constituído pelo romance russo Crime e Castigo de Fiodor Dostoievski e três traduções do romance em alemão. Com este corpus bilingue é possível levar a cabo investigação significativa no campo da linguística e dos estudos literários. Adicionalmente, publicamos parte do corpus paralelo resultante.
This paper presents the application of multi-target parallel corpora consisting of a single source text and multiple target translations of it for linguistic analysis. We discuss the alignment, interactive search and visualization of this type of data within a specific tool called ALuDo (Alignment with Lucene for Dostoyevsky). This is a Java implementation that uses local grammars, ontological information, bilingual dictionaries and statistical approaches for alignment and search. The data set in use is the Russian novel Crime and Punishment by Fyodor Dostoyevsky and three German translations of it. With this bilingual corpus quite a number of investigations in the field of linguistics and of literary studies are possible. Additionally, we release part of the resulting parallel corpus.
ISSN: 2182-8830
DOI: 10.14195/2182-8830_4-1_3
Rights: open access
Appears in Collections:Matlit

Files in This Item:
File Description SizeFormat 
sentence_alignment_and_application.pdf1.18 MBAdobe PDFThumbnail
See online
Show full item record

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.