подписка

Исследователи Сбера разработали метод повышения точности автоматического распознавания русского языка AI-моделями

Новый метод превосходит другие open-source модели по точности распознавания русского языка, не требуя при этом качественных размеченных данных

20:26

21 августа 2025

426

Фото: ПАО Сбербанк
Фото: ПАО Сбербанк

ПАО Сбербанк, ИНН 7707083893, рекламодатель ЕРИР #a-20272 erid F7NfYUJCUneTSTkUJ57F

Исследователи Сбера нашли способ повысить качество распознавания русского языка искусственным интеллектом (AI). Новый метод предобучения AI-моделей, получивший название HuBERT-CTC, использует целевые переменные из CTC-модели распознавания (Connectionist Temporal Classification). Это позволяет формировать более семантические представления данных, в то время как существующие модели (wav2vec2.0, HuBERT и BEST-RQ) опираются на низкоуровневые акустические переменные.

Исследование подробно описано в научной статье «GigaAM: Efficient Self-Supervised Learner for Speech Recognition» («GigaAM: эффективный метод предобучения для распознавания речи») и представлено на международной конференции Interspeech 2025 — ключевом событии в области речевых технологий. Метод уже показал отличные результаты для русского языка. Он снижает количество ошибок распознавания (Word Error Rate) на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.

Метод также решает ключевую проблему индустрии — зависимость от дефицитных размеченных аудиоданных. Self-supervised обучение позволяет моделям учиться на огромных массивах неразмеченных данных. Это открывает путь к созданию качественных систем для любых языков и специализированных доменов. Технология масштабируется по размеру модели и объёму данных. Динамическое маскирование self-attention наделяет модель уникальной гибкостью: одна архитектура работает в онлайн- и офлайн-режиме без необходимости инвестирования в переобучение.

Решение, предложенное исследователями Сбера, имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новый метод может быть очень востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком. Исследователи получают новый мощный инструмент предобучения моделей. Открытый код позволяет AI-сообществу дообучать модели искусственного интеллекта и применять его под свои языки и задачи.

Фёдор Минькин, технический директор GigaChat Сбербанка:

«Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов».

"Тверские ведомости" теперь в Дзене! Подписывайтесь на наш канал и читайте только важные новости. Также присоединяйтесь к нам в ВК, ОК, Телеграм и Max .

Из этой же рубрики

Лента новостей

Виталий Королев поздравил с Днем пожарной охраны

09:01 / 30.04.2026 8

В Тверской области мужчина отправится в колонию за хранение марихуаны

08:51 / 30.04.2026 39

Жители Западнодвинского округа проводят в последний путь военнослужащего Александра Ищенко

08:30 / 30.04.2026 34

Жители России столкнулись с смс-бомбингом от мошенников

08:18 / 30.04.2026 261

Пожары, снаряды и ДТП: сводка происшествий от МЧС за сутки

07:34 / 30.04.2026 113

Двух бойцов СВО похоронят в Тверской области

22:12 / 29.04.2026 590

Маскировочные сети, пиломатериалы, посылки: муниципалитеты Тверской области направили новые гуманитарные грузы в зону СВО

21:39 / 29.04.2026 107

Из-за короткого замыкания загорелся частный дом в Тверской области

21:05 / 29.04.2026 414

Модернизацию транспортной инфраструктуры и улучшение демографии в Тверской области обсудили Виталий Королев и Валентина Матвиенко

20:38 / 29.04.2026 95

В программу дорожных работ Тверской области по решению Виталия Королева включено 43 дополнительных объекта

20:02 / 29.04.2026 157

В Твери автоинспекторы задержали пьяного водителя, который пытался скрыться

19:23 / 29.04.2026 215

Волонтеры Кесовогорского округа продолжают помогать участникам специальной военной операции

19:02 / 29.04.2026 85

Активисты «Единой России» отправили гуманитарный груз для солдат из Твери и области

18:39 / 29.04.2026 92

Виталий Королев на встрече с председателем Совета Федерации РФ обсудил развитие Тверской области

18:23 / 29.04.2026 121

Боеприпас, обнаруженный в Тверской области, ликвидировали на полигоне

17:48 / 29.04.2026 144

МегаФон показал лучшие результаты по скорости мобильного интернета

17:32 / 29.04.2026 109

Денис Серяков из Тверской области погиб на Купянском направлении в зоне СВО

17:07 / 29.04.2026 376

Двое ребят, которые пропали в Тверской области, найдены

16:36 / 29.04.2026 531

В Бологовской библиотеке состоялась встреча с членом Союза писателей России

16:13 / 29.04.2026 145

Число зарегистрированных ипотечных договоров в Тверской области выросло на 48,7%

15:35 / 29.04.2026 146

Росгвардия передала больше 70 единиц гражданского оружия из Твери для нужд СВО

15:10 / 29.04.2026 162

Тверские предприятия могут претендовать на грантовую поддержку проектов в сфере нейротехнологий

14:44 / 29.04.2026 131

Представители тверской СШОР «Лидер» победили на Первенстве России по боксу

14:05 / 29.04.2026 138

Отдохнуть на майских: россияне активно бронируют билеты в Азию

14:04 / 29.04.2026 137

Виталий Королев и Герман Греф договорились о возрождении стадиона «Центральный» в Твери

13:42 / 29.04.2026 249

Автодор обеспечит бесперебойное движение трасс в период майских праздников

13:33 / 29.04.2026 141

Энергетики Тверской области в усиленном режиме восстанавливают электроснабжение после циклона

12:56 / 29.04.2026 380

В Бологовском округе молодежь участвует в патриотической акции «Верни герою имя»

12:30 / 29.04.2026 151

Полиция Тверской области предупреждает о мошеннике с поддельными бензогенераторами в регионе

12:30 / 29.04.2026 357

Калинин освобожденный: Ржев после оккупации и повседневные будни Калинина

12:10 / 29.04.2026 130