«Я хотела, чтобы Siri понимала меня»: как казахстанка создала стартап для смешанной речи

Автор: Тугамбекова Дана

Компьютерный лингвист и основатель стартапа Камшат Садуакасова рассказала о своем проекте DANA.AI, проблеме смешанной речи и будущем казахского языка в эпоху искусственного интеллекта

Фото: личных архив спикера

Казахский язык вошёл в число самых быстрорастущих языков на платформе ChatGPT. Однако рост интереса пользователей не всегда означает столь же быстрое развитие качества языковых технологий. Искусственный интеллект все еще допускает ошибки, а для создания по-настоящему качественных решений на казахском языке не хватает данных, ресурсов и языковой инфраструктуры.

Камшат Садуакасова - переводчик по образованию, компьютерный лингвист и основатель стартапа DANA.AI. Магистр устного перевода UCL, она почти семь лет занималась переводом медицинских текстов с английского на казахский, а затем занялась разработкой языковых технологий на основе искусственного интеллекта. Сегодня ее команда разрабатывает решения для распознавания смешанной речи и участвует в создании языковых ресурсов для казахского языка. О том, что на самом деле стоит за ростом казахского языка в эпоху ИИ и какие вызовы еще предстоит преодолеть, она рассказала Azattyq Rýhy.

- Расскажите о себе: где вы учились и почему выбрали именно языки и перевод?

-По специальности я переводчик английского, турецкого, казахского и русского языков. Языки я выбрала не случайно - они мне всегда нравились, и в детстве я мечтала стать синхронным переводчиком в ООН, объездить мир и познакомиться с разными культурами. Я училась в Университете Сулеймана Демиреля, затем получила степень магистра в области устного перевода в UCL в Великобритании по программе «Болашак». Работала профессиональным переводчиком в строительной и нефтегазовой сферах, а также почти семь лет в медицине, переводя с английского на казахский. Ещё во время магистратуры я начала ходить на занятия по программированию в клуб UCL Tech Society. Именно тогда я открыла для себя обработку естественного языка - направление, где пересекаются программирование и лингвистика. Это стало поворотным моментом. Я поставила себе цель работать на стыке технологий и языков: получила второе высшее по программированию в Университете Нархоз, затем по программе Erasmus Mundus - вторую магистратуру в Бельгии, где углубленно изучала машинное обучение, нейролингвистическое программирование (NLP) и применение ИИ в лингвистике. Так я пришла к роли старшего компьютерного лингвиста и одновременно основала и возглавила стартап DANA.AI.

- Расскажите о своем стартапе DANA.AI - как возникла идея его создать?

- В 2023 году я прошла обучение по специальности дата-сайентист (прим.автора: специалист, который анализирует огромные массивы информации и использует машинное обучение для создания прогностических моделей) в рамках программы Tech Orda и параллельно - летний курс по машинному обучению в Оксфордском университете (OxML). После курса студенты создали общий чат, куда присылали ссылки на хакатоны и другие возможности. Однажды там появилась ссылка на конкурс по Data Science с открытой темой - можно было применить любые знания в области машинного обучения и работы с данными.

Я хотела решить проблему смешанной речи. В обычной жизни я говорю сразу на четырёх языках, переключаясь между ними внутри одного предложения. Работая в плотном графике и разных часовых поясах, я каждый день использую голосового ассистента Siri - и он попросту не справлялся с моей речью. Я заметила: никто из нас не говорит «чисто» по-казахски или «чисто» по-русски. Мы переключаемся между языками, добавляем английские термины, иногда турецкие или корейские слова. Это называется переключение кодов (англ: code-switching - лингвистическое явление, при котором человек попеременно использует два или более языка в рамках одной беседы или даже одного предложения), и для стандартных ASR-систем - Siri, Amazon Alexa, Алисы - это тупик. Я подумала, если эта проблема есть у меня, она есть у миллионов людей. Так появилась идея системы, которая понимает речь такой, какая она есть, а именно смешанной.

Из общего чата я собрала нескольких человек, которых интересовали похожие задачи в области обработки устной речи. Изначально в команде было пять-шесть человек, но по мере усложнения задач часть из них покинула проект. В итоге осталась я и мой со-основатель Билял Салим из Великобритании - кстати, мы познакомились именно во время OxML. Билял - разработчик, работал в IBM London. Сейчас нас по-прежнему двое. В таком составе мы участвовали в нескольких конкурсах и выиграли облачные кредиты от Cohere, AWS и Microsoft for Startups Founders Hub - они позволили нам запустить то, что у нас есть сейчас.

Название DANA выбрано не случайно. Мне хотелось найти что-то казахское по духу, но при этом легко произносимое на международном уровне. Дана - казахское женское имя, означающее «мудрая», и оно точно отражает то, каким должен быть голосовой ассистент: не просто функциональным, но по-настоящему понимающим. AI в названии - отражение технологической основы продукта. Так и появилось DANA.AI.

- Какие материалы вы используете при обучении через DANA.AI?

- Мы используем данные Института умных систем и искусственного интеллекта (ISSAI) Nazarbayev University, однако достичь нужного качества распознавания смешанной речи пока не удалось - для этого необходимы очень большие массивы голосовых данных, и это один из главных вызовов. Поэтому мы также подключили Mozilla Common Voice: там монолингвальные данные на казахском, русском, английском и турецком, что помогает улучшить базовое качество. Параллельно мы синтезируем смешанную речь и записываем живую - в том числе, мою собственную. К слову, любой желающий может помочь проекту: голосовые записи можно загрузить на сайте Mozilla Common Voice.

Данные из социальных сетей - YouTube, Instagram, TikTok - были бы идеальны, поскольку там много живой спонтанной смешанной речи. Но использование таких данных противоречит правилам конфиденциальности. Именно поэтому для систем переключения кодов так важна живая записанная речь, а не начитанные тексты: переключения между языками происходят спонтанно, в разговорном режиме. Сбор таких данных - дорогостоящий и трудоемкий процесс, но без него система будет имитировать проблему, а не решать её.

- На какой стадии сейчас ваш проект?

- У нас есть работающий прототип, который мы проверяем на реальных сценариях использования. Мы добавляем новые языковые пары с прицелом на другие рынки. Интересно и то, как система работает с другими смешанными языками: например, при смешении английского и испанского качество заметно выше - оба относятся к высокоресурсным языкам, то есть обучающих данных по ним значительно больше. Параллельно я веду переговоры о партнёрствах и участвую в грантовых конкурсах.

Изначально DANA.AI создавалась как голосовой ассистент для смешанной речи на казахском, русском, английском, турецком и других языках. Но со временем мы пришли к более широкому позиционированию проекта. Сейчас DANA.AI - это ещё и

исследовательский хаб: мы собираем собственные голосовые данные, адаптируем их под региональные диалекты, переводим и размечаем. Отдельное направление - создание параллельного корпуса казахского языка: казахский ↔️ русский и казахский ↔️ английский. Корпус будет использоваться как для обучения наших моделей, так и будет открыт для исследовательского сообщества.

Именно здесь мой опыт переводчика оказывается незаменимым. Хорошо запрограммировать продукт - важно. Но ещё важнее, когда разработчик тонко понимает язык, культуру и имеет реальный профессиональный опыт работы с ними. Именно это сочетание позволяет нам формировать языковую инфраструктуру, которой для казахского попросту не существовало.

- Почему обычные голосовые ассистенты не справляются со смешанной речью? 

- Представьте фразу: «Мен кеше meeting-ке бардым, ama iptal edilmiş» (прим. автора: «Я вчера пошла на встречу, но оказалось, что ее отменили»). Для меня это абсолютно естественно - так и выглядит моя речь, если я не работаю синхронным переводчиком. Для стандартной ASR-системы это катастрофа: она настроена на один язык (или два - как Алиса от Яндекса) и не рассчитана на их смесь внутри одной фразы. Система либо транскрибирует всё как один язык и искажает остальные, либо вовсе «теряет» фрагменты. Ошибки распознавания каскадируются дальше: если текст передается на перевод или в поисковый запрос - все рушится.

- Чем технически отличается ваш подход от Google или OpenAI?

- Крупные игроки строят универсальные системы с максимальным охватом языков. Казахский у них - один из сотен, и переключение кодов с русским и с другими языками для них может не являться приоритетом. Мы, напротив, строим узкоспециализированную систему под конкретный языковой контекст, адаптируем под конкретную сферу: собираем именно те данные, которые нужны, настраиваем модель под реальные паттерны казахстанских говорящих и интегрируем.

Большие компании не будут создавать корпус казахско-русской смешанной речи - для них это слишком узкая ниша. Для нас - это и есть продукт. Добавлю ещё один нюанс: большинство голосовых систем обрабатывают речь через английский как промежуточный язык - речь переводится на английский, обрабатывается, затем ответ переводится обратно на казахский. Качество такого перевода в реальном времени оставляет желать лучшего - именно из-за нехватки параллельных данных на казахском. Мы работаем напрямую с языком, без этого посредника.

- DANA.AI - это бизнес или волонтерский проект? На чём стартап планирует зарабатывать?

- Изначально это был волонтёрский проект в рамках хакатона - я делала его, чтобы получить практический опыт в машинном обучении. Но сейчас это бизнес с четкой коммерческой логикой.

Основная модель - продавать технологию не обычным пользователям, а компаниям: они встраивают распознавание речи в свои сервисы. Это востребовано на рынке, где смешанная речь - норма.  Это колл-центры, банки, государственные сервисы, телеком. Все они работают с казахстанскими пользователями и сталкиваются ровно с той проблемой, которую мы решаем. В долгосрочной перспективе возможны B2C-продукты - голосовой ассистент или умная колонка для казахстанского рынка. Но на старте фокус на B2B, где боль понятна и платежеспособность есть.

Важно понимать, что такой проект крайне ресурсоёмок. Сбор голосовых данных, перевод, разметка, обучение моделей - всё это требует значительных вычислительных мощностей, причём обучение на аудиоданных обходится дороже, чем на текстовых. Наглядный пример: у нас был грант от AWS на сумму 5 000 долларов, направленный на улучшение произношения нашего голосового ассистента. Мы применили все доступные методы оптимизации и смогли обработать лишь около 10% нужных данных - а ощутимого улучшения качества так и не получили. При этом весь грант был исчерпан. Это означает, что мы не можем рассчитывать на улучшение продукта, если у нас нет достаточных вычислительных ресурсов. А чтобы увеличить объём грантовых кредитов, например, от OpenAI, Cohere или Microsoft - нам нужно показать, что продукт используется и приносит доход. Получается замкнутый круг, который знаком многим deep-tech стартапам на ранней стадии. Именно поэтому коммерциализация для нас - не просто цель, а необходимое условие развития.

- Рост казахского в ChatGPT - это уже реальное освоение языка машинами или пока больше про спрос пользователей, чем про качество ответов?

- Честно - пока больше про спрос. Люди видят, что ChatGPT отвечает на казахском, и это само по себе воспринимается как прорыв. Но если читать ответы внимательно, там масса проблем: смешение диалектов, калька с русского, неправильная агглютинация. Модели обучены на том, что есть в интернете, а казахскоязычного контента там значительно меньше, чем русского или английского.

Рост в плане охвата реальный, а качество пока отстаёт. Возможно, это отчасти связано с общей популяризацией казахского языка, которую мы все наблюдаем в последние годы. Но если учесть, что ChatGPT используется не только для простых вопросов и ответов, над качеством ещё предстоит серьёзная работа.

- Когда ИИ генерирует текст на казахском, насколько он сегодня грамотный и где чаще всего ошибается?

- Казахский - агглютинативный язык: смысл строится через цепочку суффиксов, и одно слово может передавать то, что в русском требует целого предложения. ИИ часто путает порядок суффиксов, особенно в падежных формах и глагольных конструкциях. Вторая болевая точка - орфография: казахский существует в двух алфавитах, кириллице и латинице, и модели нередко их смешивают. Третья проблема - стиль: литературный казахский и разговорный сильно различаются, а ИИ генерирует нечто среднее, что звучит неестественно для носителя.

Но многое зависит от конкретной задачи и от того, кто работает с этим инструментом. Есть принципиальная разница между обычным пользователем с простым вопросом на казахском и NLP-инженером. Одна из моих задач - создание больших текстовых наборов данных. Я пишу код на Python, дообучаю модели (например, OpenAI), тестирую алгоритмы машинного обучения и оцениваю результат сразу с двух сторон: как лингвист - на языковые и смысловые ошибки, как инженер - на параметры генерации, долю забракованных ответов модели и задержку. В частности, я работаю с турецким языком. Турецкий, в отличие от казахского, относится к языкам среднего ресурса: данных на нём больше, и тем не менее даже там модели галлюцинируют - уверенно выдают информацию, которая звучит правдоподобно, но на деле является ошибочной или вымышленной. Проще говоря, модель не говорит: «я не знаю» - она придумывает ответ и подает его как факт. С казахским ситуация еще сложнее: данных на нём значительно меньше, чем на турецком, а качественных переводов с английского на казахский - и того меньше. И здесь перевод играет ключевую роль. Большинство языковых моделей обучаются на текстах, переведённых с английского. Если перевод выполнен небрежно, буквально или без понимания контекста - модель учится на плохом материале и воспроизводит те же ошибки. Мусор на входе - мусор на выходе.

Я столкнулась с этим напрямую, когда только начала переводить медицинские тексты с английского на казахский. В первый год мне пришлось создавать терминологию практически с нуля - готовых словарей и корпусов попросту не существовало, и по сей день не существует. Утвержденной отраслевой терминологии нет. Чтобы правильно перевести термин, недостаточно знать язык: нужно глубоко понять само понятие, изучить профессиональную литературу, разобраться в контексте - и только потом искать эквивалент на казахском. Только такой подход дает качественные данные. И именно этого качества сегодня не хватает моделям, работающим с казахским языком. Показательный пример: я являюсь амбассадором казахского языка в Cohere, и в рамках их проектов данных на казахском оказывается меньше, чем на киргизском, - хотя казахскоязычных носителей в разы больше. Это наглядно показывает, насколько остро стоит проблема цифрового представления языка.