Linguistic markup of the russian-chinese parallel corpus

Русско-китайский параллельный корпус - это база предложений на русском и китайском языке с их взаимными переводами, которая позволяет искать переводы слов и конструкций в контексте. Русско-китайский параллельный корпус НКРЯ, или ruzhcorp (https://ruzhcorp.github.io/), - это единственный в Рунете русско-китайский параллельный корпус, снабженный лингвистической разметкой и удобной системой поиска. Это мощный инструмент как для научного анализа русского и китайского языков, так и для их преподавания. Мы расскажем о двух аспектах усовершенствования лингвистической разметки, над которыми работает коллектив участников проекта.

1. Семенов К.И. (ИППИ РАН), Пискунова А.О. (НИУ ВШЭ).
Словоделение в китайских текстах

Первостепенная задача автоматического анализа китайских текстов - разделение китайского текста на слова. Эта задача нетривиальна в силу того, что категория "слова" менее традиционна для китайского языка, нежели для европейских. Мы расскажем о сравнительном анализе стандартов словоделения, распространенных в китайской компьютерной лингвистике: на чем основан каждый стандарт, где он распространен и насколько корректен с лингвистической точки зрения. Кроме того, мы расскажем об исследовании того, как различные алгоритмы словоделения выделяют заимствования из русского языка в китайских текстах на данных нашего корпуса.

2. Политова А. А., Нанкинский университет.
Пословное выравнивание русско-китайских параллельных текстов.

Разрабатываемый в Корпусе алгоритм будет показывать наиболее вероятные соответствия для введённых в строке поиска слов и выражений. Первыми будут выводиться наиболее точные соответствия, а ниже — примерные, т.е. слова и выражения, которые в зависимости от контекста, могут быть переведены так же, но для которых этот перевод не основной. Мы расскажем, что входит в работу команды «выравнивателей», что стоит за созданием алгоритма, как создаётся «золотой» стандарт выравнивания, впоследствии используемый для оценки качества перевода алгоритма, с какими трудностями наша команда столкнулась и к каким лингвистическим решениям мы уже пришли.