Регулярные выражения в работе переводчика
Регулярные выражения (англ. regular expressions) – формальный язык поиска и манипуляций с текстом, основанный на использовании метасимволов (англ. wildcard characters). Многие современные текстовые редакторы и CAT-программы имеют встроенную поддержку регулярных выражений. Среди них Microsoft Word, Notepad++, SDL Trados Studio, MemoQ, XBench и другие. При этом если в текстовых процессорах регулярные выражения можно использовать только для автозамены, то в CAT-программах с их помощью можно менять правила сегментации или настраивать, что именно программа будет рассматривать как теги.
У многих переводчиков сложилось мнение, что регулярные выражения – это что-то очень сложное. На самом деле с ними может разобраться каждый, а владение ими часто позволяет сэкономить часы рутинной работы. В этой статье мы собрали несколько примеров того, как регулярные выражения могут быть полезны переводчику.
Удалить текст, набранный латиницей/кириллицей
Удалить текст, набранный латиницей | Удалить текст, набранный кириллицей | |
^[^А-я^\r^\n]+$ | -> | |
<- | ^[^A-z^\r^\n]+$ |
Заменить разделитель целой и дробной части в числительном
925.10 | 925,10 | |
([0-9])[.]([0-9]) | -> | \1[,]\2 |
\1[.]\2 | <- | ([0-9])[,]([0-9]) |
Добавить запятую для отделения тысяч
3421876925 | 3,421,876,925 | |
[0-9](?=(?:[0-9]{3})+(?![0-9])) | -> | $&, |
Конвертировать формат даты
15.01.2007 | 15/01/2007 | |
([0-9]{1,2})[\.]([0-9]{1,2})[\.]([0-9]{2,4}) | -> | \1/\2/\3 |
\1/\2/\3 | <- | ([0-9]{1,2})[\/]([0-9]{1,2})[\/]([0-9]{2,4}) |
Поиск терминов, начинающихся с прописной буквы
Договор | \<[А-я][а-я]+\> |
Contract | \<[A-Z][a-z]+\> |
Полезные материалы:
Лаконичное описание регулярных выражений:
http://www.pnotepad.org/docs/search/regular_expressions/
Использование регулярных выражений в MemoQ:
https://help.memoq.com/current/en/Places/regular-expressions.html