Как это работает? | Распознавание речи

Как это работает? | Распознавание речи

Первое устройство для распознавания речи появилось в 1952 году, оно могло понимать произнесённые человеком цифры. 40 лет спустя были представлены первые коммерческие программы, распознающие речь человека. Они были предназначены для людей, которые в силу физиологических особенностей не могли набирать текст вручную. Сейчас же функция распознавания речи есть практически в любом смартфоне, она позволяет нам взаимодействовать голосом с приложениями, облегчая и упрощая нашу жизнь. Как же работает распознавание речи — об этом в сегодняшнем выпуске.

Как это работает? | Распознавание речи

Если произнести голосовой запрос, например, адрес места назначения, смартфон услышит не улицу и номер дома, а звуковой сигнал, в котором звуки плавно перетекают друг в друга, не имея чётких границ. Задача системы распознавания речи — восстановить по этому сигналу то, что было сказано. Стоит отметить, что одна и та же фраза, произнесённая разными людьми в разной обстановке, будет давать совершенно непохожие друг на друга сигналы. Правильно их интерпретировать помогает система акустического моделирования.

Как это работает? | Распознавание речи

После произнесения голосового запроса он записывается смартфоном и отправляется на серверы, где определяется уровень помех и происходит шумоотчистка и отделение полезного сигнала. Затем запись разделяется на маленькие фрагменты (фреймы), например, длиной 25 миллисекунд с шагом 10 миллисекунд, то есть внахлёст. Таким образом из одной секунды речи получается сто фреймов.

Как это работает? | Распознавание речи

Сначала каждый фрейм пропускается через акустическую модель. Система с машинным обучением, определяет варианты произнесенных слов и контекст. Точность результатов напрямую зависит от полноты фонетического алфавита системы. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. Система распознавания сопоставляет входящий речевой сигнал с фонемами, а уже из них собирает слова. Например, фонетический алфавит Яндекса состоит из 4000 элементарных единиц, которые включают фонемы, их части и сочетания. Каждый фрейм сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. Кроме того, система учитывает вероятности переходов, то есть определяет, какие фреймы могут идти следом за конкретной фонемой. Для этого применяются данные о произношении, морфологии и семантике. Таким образом система подбирает варианты слов, которые затем анализирует на формы, части речи и возможные статистические связи между ними.

Далее в процесс вступает языковая модель, при помощи которой система определяет вероятный порядок слов и при необходимости восстанавливает нераспознанные слова по смыслу, исходя из контекста и имеющейся статистики.

Как это работает? | Распознавание речи

В результате полученная информация поступает в основной блок системы распознавания — декодер. Этот программный компонент совмещает данные от акустических и языковых моделей и на основании их объединения выдает конечный результат в виде наиболее вероятной последовательности слов.

Благодаря машинному обучению системы устойчивы к шуму и умеют распознавать речь с акцентом. Точность современных систем распознавания речи превышает 90 процентов.

Как это работает? | Распознавание речи Hi-News.ru

0 не понравилось

06-07-2017 19:00 | просмотров 54 |

Прямая ссылка:
BB-code ссылка:
HTML ссылка:
Понравилась статья? ПОДЕЛИСЬ в соц. сетях!
Комментарии

НАПИСАТЬ КОММЕНТАРИЙ

Похожие новости

Искусственный интеллект научился грамотно распознавать речь среди шума

Виртуальные ассистенты и системы распознавания голоса достаточно хорошо научились «узнавать» то, что им говорит человек, и выполнять его команды. Но для корректной работы тех же Siri и Cortana

Новый микрочип позволит оснастить функцией распознавания речи даже самые ми ...

  Сегодня все мы уже привыкли к тому, что наши мобильные устройства имеют голосовых ассистентов с функцией распознавания речи, да и многие приложения на смартфонах имеют данную функцию. Однако,

Искусственный интеллект Google DeepMind научился читать по губам

В последнее время искусственный интеллект Google DeepMind с поразительной быстротой обучается все новым и новым функциям. Он уже начал развлекаться, играя в видеоигры, да и вообще, для самообучения

Синтезатор голоса Стивена Хокинга стал достоянием общественности

Стивен Хокинг не только один из самых выдающихся физиков-теоретиков нашего времени, но также он обладатель потрясающей силы воли. Не каждый найдёт в себе смелость в течение десятилетий противостоять
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.