Вход
Поддержка
Соцсети
Блог / Tule tervehenä! Онлайн-переводчик карельского языка

Идею для конкурса “онлайн-переводчик  карельского языка” мы выбрали по двум причинам. Во-первых, карельский  язык в числе исчезающих (по данным на 2020 год им владеют всего 15 тыс.  человек). Во-вторых, возможность применить технологии ИИ.

На  этапе представления идеи случилось непредвиденное: мы на карельском не  говорим, поэтому у жюри возник вопрос: “Как вы собираетесь делать, вы же  не карелы? А ИИ – это же вообще космос, это миллионы!”. Жюри  показалось, что наш проект будет сложно и очень дорого реализовать.

Чтобы  доказать им жизнеспособность идеи, пришлось сделать черновик  переводчика – минимально работоспособную модель. Пока Дмитрий писал  теоретическую часть, договаривался с людьми, собирал письма поддержки,  изучал рынки, я делал практическую часть.

Я не знаю карельского, но мне чтобы  сделать минимальный переводчик это и не нужно. Раньше переводчики  создавались прописыванием правил, в ИИ все построено иначе. Программа  обучается сама: ей дают много пар фраз на карельском и на русском. Чем  больше фраз, тем лучше обучится искусственный интеллект и точнее будет  перевод.

Я нашел сайт с параллельными текстами  на русском-карельском, разбил их на предложения. Потом нашел библию на  карельском языке. В итоге за неделю удалось собрать 20 000 пар.

Из  этого массива тысячу пар “спрятал от ИИ”, оставив ее как контрольную  группу, чтобы ИИ их в процессе обучения не видел. Это нужно, чтобы после  обучения проверить качество перевода парами из контрольной группы.

На  суд жюри представили эту тысячу карельских фраз в трех вариантах: на  карельском, на русском и как перевел ИИ. Демонстрация прошла успешно,  идея и результат понравились жюри. Наш проект победил!


Главная задача в создании онлайн переводчика – понять насколько точно переводится текст. Есть эталонный образ, то что взято с сайта/книг и есть текст, который  выдает ИИ. Сначала он переводит плохо, угадывает, а дальше мы по сути  говорим ему “холодно, теплее, горячо” и постепенно ИИ “угадывает”  перевод все лучше и лучше.

При работе с текстом, есть  один интересный момент: как определить, что один текст, похож на другой?  Все привыкли, что есть расстояние между точками в пространстве, а  математики придумали способ считать “расстояние между текстами”. Чем  короче расстояние - тем больше два текста похожи друг на друга.

Что  такое расстояние между текстами? Считать можно по-разному, но в жизни  есть простой пример, который многие знают: игра “Сделать из мухи слона”.  Пишут слово “Муха” и каждый раз меняя одну букву пытаюсь сделать слово  “Слон”. Когда мы играли в нее в школе, рекорд был 20-25 шагов от мухи до  слона. Современные компьютерные системы позволяют “из мухи слона  сделать” за 8 шагов. Можно сказать, что расстояние от “слона” до “мухи”  равно 8. Этот простой пример, но он напоминает расстояние Левенштейна.

Сейчас у нас стоит задача собрать очень большое количество пар фраз русский-карельский. Если соберем миллион, то, мы надеемся, будет хороший переводчик. Возможно, это спасет карельский язык от вымирания.

Если вы или ваши знакомые владеете карельским языком и хотите нам помочь пишите на info@infocraft.ru.Mäne tervehenä! Tule toičči!

Поделитесь публикацией с друзьями!