Investigation of text data augmentation for transformer training via translation technique

Dominykas Šeputis

doi:10.15388/LMITT.2021.11

Straipsniai

Dominykas Šeputis

Vilniaus universitetas

Publikuota 2021-05-14

https://doi.org/10.15388/LMITT.2021.11

PDF

Esminiai žodžiai

Data Augmentation
Transformer
Fine-tuning
Machine Translation
DistilBERT
Opus-MT

Anotacija

Data augmentation can improve model’s final accuracy by introducing new data samples to the dataset. In this paper, text data augmentation using translation technique is investigated. Synthetic translations, generated by Opus-MT model are compared to the unique foreign data samples in terms of an impact to the trans- former network-based models’ performance. The experimental results showed that multilingual models like DistilBERT in some cases benefit from the introduction of the addition artificially created data samples presented in a foreign language.

PDF

Nuorodos

Atsisiuntimai

Nėra atsisiuntimų.