Идею для конкурса “онлайн-переводчик карельского языка” мы выбрали по двум причинам. Во-первых, карельский язык в числе исчезающих (по данным на 2020 год им владеют всего 15 тыс. человек). Во-вторых, возможность применить технологии ИИ.
На этапе представления идеи случилось непредвиденное: мы на карельском не говорим, поэтому у жюри возник вопрос: “Как вы собираетесь делать, вы же не карелы? А ИИ – это же вообще космос, это миллионы!”. Жюри показалось, что наш проект будет сложно и очень дорого реализовать.
Чтобы доказать им жизнеспособность идеи, пришлось сделать черновик переводчика – минимально работоспособную модель. Пока Дмитрий писал теоретическую часть, договаривался с людьми, собирал письма поддержки, изучал рынки, я делал практическую часть.
Я не знаю карельского, но мне чтобы сделать минимальный переводчик это и не нужно. Раньше переводчики создавались прописыванием правил, в ИИ все построено иначе. Программа обучается сама: ей дают много пар фраз на карельском и на русском. Чем больше фраз, тем лучше обучится искусственный интеллект и точнее будет перевод.
Я нашел сайт с параллельными текстами на русском-карельском, разбил их на предложения. Потом нашел библию на карельском языке. В итоге за неделю удалось собрать 20 000 пар.
Из этого массива тысячу пар “спрятал от ИИ”, оставив ее как контрольную группу, чтобы ИИ их в процессе обучения не видел. Это нужно, чтобы после обучения проверить качество перевода парами из контрольной группы.
На суд жюри представили эту тысячу карельских фраз в трех вариантах: на карельском, на русском и как перевел ИИ. Демонстрация прошла успешно, идея и результат понравились жюри. Наш проект победил!
Главная задача в создании онлайн переводчика – понять насколько точно переводится текст. Есть эталонный образ, то что взято с сайта/книг и есть текст, который выдает ИИ. Сначала он переводит плохо, угадывает, а дальше мы по сути говорим ему “холодно, теплее, горячо” и постепенно ИИ “угадывает” перевод все лучше и лучше.
При работе с текстом, есть один интересный момент: как определить, что один текст, похож на другой? Все привыкли, что есть расстояние между точками в пространстве, а математики придумали способ считать “расстояние между текстами”. Чем короче расстояние - тем больше два текста похожи друг на друга.
Что такое расстояние между текстами? Считать можно по-разному, но в жизни есть простой пример, который многие знают: игра “Сделать из мухи слона”. Пишут слово “Муха” и каждый раз меняя одну букву пытаюсь сделать слово “Слон”. Когда мы играли в нее в школе, рекорд был 20-25 шагов от мухи до слона. Современные компьютерные системы позволяют “из мухи слона сделать” за 8 шагов. Можно сказать, что расстояние от “слона” до “мухи” равно 8. Этот простой пример, но он напоминает расстояние Левенштейна.
Сейчас у нас стоит задача собрать очень большое количество пар фраз русский-карельский. Если соберем миллион, то, мы надеемся, будет хороший переводчик. Возможно, это спасет карельский язык от вымирания.
Если вы или ваши знакомые владеете карельским языком и хотите нам помочь пишите на info@infocraft.ru.Mäne tervehenä! Tule toičči!