Автоматическое распознавание и представление текста в виде аудиопотока

Л. В. Серебряная; И. Е. Ласый

doi:10.35596/1729-7648-2021-19-6-51-58

Автоматическое распознавание и представление текста в виде аудиопотока

Л. В. Серебряная, И. Е. Ласый

https://doi.org/10.35596/1729-7648-2021-19-6-51-58

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Рассмотрена задача автоматической генерации речи из текстового файла. Выполнен анализ программных средств, предназначенных для распознавания текстов и преобразования их в аудиопоток. Оценены их преимущества и недостатки, на основании чего сделан вывод об актуальности разработки программного средства автоматической генерации аудиопотока из текста на русском языке. Проанализированы модели на основе искусственных нейронных сетей, которые используются для синтеза речи, после чего построена математическая модель создаваемого программного средства. Она состоит из трех компонентов: сверточного кодировщика, сверточного декодировщика и преобразователя. Спроектирована архитектура программного средства, в которую входят графический интерфейс, сервер приложения и система синтеза речи. Разработан ряд алгоритмов: предварительной обработки текста перед загрузкой в программное средство, преобразования аудиофайлов обучающей выборки и обучения сети, генерации речи на основе произвольных текстовых файлов. Создано программное средство, представляющее собой одностраничное приложение и имеющее веб-интерфейс для взаимодействия с пользователем. Для оценки качества работы программного средства использована метрика, представляющая среднюю оценку разных мнений. В результате агрегации разных мнений метрика получила достаточно высокое значение, на основании чего можно считать, что все поставленные задачи были решены.

Ключевые слова

модель искусственной нейронной сети, аудиопоток, кодировщик и декодировщик, генерация речи, спектрограмма

Об авторах

Л. В. Серебряная

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Серебряная Лия Валентиновна, кандидат технических наук, доцент, доцент кафедры программного обеспечения информационных технологий

220013, г. Минск, ул. П. Бровки, 6

И. Е. Ласый

Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Выпускник кафедры программного обеспечения информационных технологий

Минск

Список литературы

1. Гольдберг Й. Нейросетевые методы в обработке естественного языка. Москва: ДМК-Пресс; 2019.

2. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение = Deep Learning. Москва: ДМК-Пресс; 2017.

3. Николенко С.И., Кадурин А.А., Архангельская Е.О. Глубокое обучение. Санкт-Петербург: Питер; 2018.

4. Траск Э. Грокаем глубокое обучение. Санкт-Петербург: Питер; 2019.

5. Шолле Ф. Глубокое обучение на Python. Санкт-Петербург: Питер; 2018.

6. Элбон К. Машинное обучение на Python. Сборник рецептов. Санкт-Петербург: BHV; 2019.

7. Меле А. Django 2 в примерах. Москва: ДМК-Пресс; 2019.

8. Реза Б.З., Рамсундар Б. TensorFlow для глубокого обучения. Санкт-Петербург: BHV; 2019.

9. Ганегедара Т. Обработка естественного языка с TensorFlow. Москва: ДМК-Пресс; 2019.

Рецензия

Для цитирования:

Серебряная Л.В., Ласый И.Е. Автоматическое распознавание и представление текста в виде аудиопотока. Доклады БГУИР. 2021;19(6):51-58. https://doi.org/10.35596/1729-7648-2021-19-6-51-58

For citation:

Serebryanaya L.V., Lasy I.E. Automatic recognition and representation of text in the form of audio stream. Doklady BGUIR. 2021;19(6):51-58. (In Russ.) https://doi.org/10.35596/1729-7648-2021-19-6-51-58

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Доклады БГУИР

Автоматическое распознавание и представление текста в виде аудиопотока

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов