Искусственный интеллект: расшифруй это

пыль.science

Искусственный интеллект: расшифруй это

Лектор: Иван Бондаренко

Ведущий исследователь Лаборатории нейронных систем и глубокого обучения МФТИ Иван Бондаренко

Лекция ведущего исследователя Лаборатории нейронных систем и глубокого обучения МФТИ Ивана Бондаренко «Искусственный интеллект: расшифруй это», организованная ИЦАЭ Новосибирска и театром «Старый дом» в рамках проекта «Пыль.Science», состоялась 2 октября в книжном магазине «Перемен».

Специалист по машинному обучению Иван Бондаренко со своими студентами с кафедры компьютерной лингвистики НГУ участвовал в работе над спектаклем «Пыль», премьера которого состоится в декабре в «Старом доме». «Члены «Тайного общества фанатов машинного обучения», которым я руковожу в НГУ, разработали собственный алгоритм распознавания речи на базе открытой системы CMU Sphinx, чтобы помочь создателям спектакля расшифровать множество интервью», — рассказал лектор, показав «общую архитектуру классической системы распознавания речи» и объяснив, как она работает.

С технологиями распознавания речи сталкивались все: простой пример — голосовые помощники Siri и Алиса. Как нейросеть помогает расшифровывать интервью, переводя звуки в буквы? Алгоритм выявляет в звуковом сигнале признаки речи и на их основе распознает, какие в сигнале представлены фонемы. А потом на основе словаря транскрипций, специально собранного лингвистами, и языковых моделей преобразует цепочки фонем в цепочки слов.

По словам лектора, в современном мире с развитыми нейросетями большей популярностью пользуется классический подход к распознаванию речи: «Вот у нас есть нейросеть, на вход подаем звук, на выходе получаем буквы — всё. Но такой подход может сработать, только если у нас много обучающих данных — записей реальной человеческой речи с расшифровкой». Например, китайская фирма «Baidu», одной из первых сделавшая подобную систему, использовала в своей «Deep Speech» около 7000 часов звучащей речи.

Больше всего времени заняла разработка системы шумоподавления: «Алгоритм распознавания шумов по сложности сравним с самой системой распознавания речи». Сложность при обработке также представляют квазифонемы: например, мяуканье кота, звуки автомобилей или обычные паузы. «Хорошая нейросеть должна уметь распознавать паузы, — отметил Иван Бондаренко, — иначе она в любой тишине будет пытаться найти фонемы, и получится какая-то ерунда».

Доделав свою систему («пока она не совершенна»), Бондаренко и его команда выложат её в свободный доступ, чтобы ею смогли бесплатно воспользоваться журналисты, социологи и все, кому приходится иметь дело с интервью