Украино-русский параллельный текстовый корпус

В Информационном центре ElVisti реализован алгоритм создания корпуса параллельных текстов, представленных на различных языках. Построен первый украино-русский параллельный корпус из веб-публикаций объемом 491770 пар документов, за период с 01.01.1996 по 28.02.2009.  http://ling.infostream.ua/

Алгоритм базируется на использовании "опорных слов" в тестовых документах, а также средствах их автоматического перевода. Опорные слова в рамках данного алгоритма выделяются с использованием русского и украинского морфологических словарей, а также словарей переводов имен существительных для русского и украинского языков. Кроме того, для вычисления весов терминов в документах используются некоторые дополнительные эмпирико-статистические правила. Алгоритм был реализован в виде программного комплекса, интегрированного с системой контент-мониторинга InfoStream.