Автоматическое распознавание и представление текста в виде аудиопотока
https://doi.org/10.35596/1729-7648-2021-19-6-51-58
Аннотация
Рассмотрена задача автоматической генерации речи из текстового файла. Выполнен анализ программных средств, предназначенных для распознавания текстов и преобразования их в аудиопоток. Оценены их преимущества и недостатки, на основании чего сделан вывод об актуальности разработки программного средства автоматической генерации аудиопотока из текста на русском языке. Проанализированы модели на основе искусственных нейронных сетей, которые используются для синтеза речи, после чего построена математическая модель создаваемого программного средства. Она состоит из трех компонентов: сверточного кодировщика, сверточного декодировщика и преобразователя. Спроектирована архитектура программного средства, в которую входят графический интерфейс, сервер приложения и система синтеза речи. Разработан ряд алгоритмов: предварительной обработки текста перед загрузкой в программное средство, преобразования аудиофайлов обучающей выборки и обучения сети, генерации речи на основе произвольных текстовых файлов. Создано программное средство, представляющее собой одностраничное приложение и имеющее веб-интерфейс для взаимодействия с пользователем. Для оценки качества работы программного средства использована метрика, представляющая среднюю оценку разных мнений. В результате агрегации разных мнений метрика получила достаточно высокое значение, на основании чего можно считать, что все поставленные задачи были решены.
Об авторах
Л. В. СеребрянаяБеларусь
Серебряная Лия Валентиновна, кандидат технических наук, доцент, доцент кафедры программного обеспечения информационных технологий
220013, г. Минск, ул. П. Бровки, 6
И. Е. Ласый
Беларусь
Выпускник кафедры программного обеспечения информационных технологий
Минск
Список литературы
1. Гольдберг Й. Нейросетевые методы в обработке естественного языка. Москва: ДМК-Пресс; 2019.
2. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение = Deep Learning. Москва: ДМК-Пресс; 2017.
3. Николенко С.И., Кадурин А.А., Архангельская Е.О. Глубокое обучение. Санкт-Петербург: Питер; 2018.
4. Траск Э. Грокаем глубокое обучение. Санкт-Петербург: Питер; 2019.
5. Шолле Ф. Глубокое обучение на Python. Санкт-Петербург: Питер; 2018.
6. Элбон К. Машинное обучение на Python. Сборник рецептов. Санкт-Петербург: BHV; 2019.
7. Меле А. Django 2 в примерах. Москва: ДМК-Пресс; 2019.
8. Реза Б.З., Рамсундар Б. TensorFlow для глубокого обучения. Санкт-Петербург: BHV; 2019.
9. Ганегедара Т. Обработка естественного языка с TensorFlow. Москва: ДМК-Пресс; 2019.
Рецензия
Для цитирования:
Серебряная Л.В., Ласый И.Е. Автоматическое распознавание и представление текста в виде аудиопотока. Доклады БГУИР. 2021;19(6):51-58. https://doi.org/10.35596/1729-7648-2021-19-6-51-58
For citation:
Serebryanaya L.V., Lasy I.E. Automatic recognition and representation of text in the form of audio stream. Doklady BGUIR. 2021;19(6):51-58. (In Russ.) https://doi.org/10.35596/1729-7648-2021-19-6-51-58