<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">bsuir</journal-id><journal-title-group><journal-title xml:lang="ru">Доклады БГУИР</journal-title><trans-title-group xml:lang="en"><trans-title>Doklady BGUIR</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1729-7648</issn><issn pub-type="epub">2708-0382</issn><publisher><publisher-name>БГУИР</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.35596/1729-7648-2021-19-6-51-58</article-id><article-id custom-type="elpub" pub-id-type="custom">bsuir-3158</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ЭЛЕКТРОНИКА, РАДИОФИЗИКА, РАДИОТЕХНИКА, ИНФОРМАТИКА</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>ELECTRONICS, RADIOPHYSICS, RADIOENGINEERING, INFORMATICS</subject></subj-group></article-categories><title-group><article-title>Автоматическое распознавание и представление текста в виде аудиопотока</article-title><trans-title-group xml:lang="en"><trans-title>Automatic recognition and representation of text in the form of audio stream</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Серебряная</surname><given-names>Л. В.</given-names></name><name name-style="western" xml:lang="en"><surname>Serebryanaya</surname><given-names>L. V.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Серебряная Лия Валентиновна, кандидат технических наук, доцент, доцент кафедры программного обеспечения информационных технологий</p><p>220013, г. Минск, ул. П. Бровки, 6</p></bio><bio xml:lang="en"><p>Serebryanaya Liya V., PhD, Associate Professor, Associate Professor at the Information Technologies Software Department</p><p>220013, Minsk, P. Brovka str., 6</p></bio><email xlink:type="simple">L_silver@mail.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Ласый</surname><given-names>И. Е.</given-names></name><name name-style="western" xml:lang="en"><surname>Lasy</surname><given-names>I. E.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Выпускник кафедры программного обеспечения информационных технологий</p><p>Минск</p></bio><bio xml:lang="en"><p>Lasy Ilya E., Graduate of the Information Technologies Software Department</p><p>Minsk</p></bio><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Белорусский государственный университет информатики и радиоэлектроники</institution></aff><aff xml:lang="en"><institution>Belarusian State University of Informatics and Radioelectronics</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2021</year></pub-date><pub-date pub-type="epub"><day>30</day><month>09</month><year>2021</year></pub-date><volume>19</volume><issue>6</issue><fpage>51</fpage><lpage>58</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Серебряная Л.В., Ласый И.Е., 2021</copyright-statement><copyright-year>2021</copyright-year><copyright-holder xml:lang="ru">Серебряная Л.В., Ласый И.Е.</copyright-holder><copyright-holder xml:lang="en">Serebryanaya L.V., Lasy I.E.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://doklady.bsuir.by/jour/article/view/3158">https://doklady.bsuir.by/jour/article/view/3158</self-uri><abstract><p>Рассмотрена задача автоматической генерации речи из текстового файла. Выполнен анализ программных средств, предназначенных для распознавания текстов и преобразования их в аудиопоток. Оценены их преимущества и недостатки, на основании чего сделан вывод об актуальности разработки программного средства автоматической генерации аудиопотока из текста на русском языке. Проанализированы модели на основе искусственных нейронных сетей, которые используются для синтеза речи, после чего построена математическая модель создаваемого программного средства. Она состоит из трех компонентов: сверточного кодировщика, сверточного декодировщика и преобразователя. Спроектирована архитектура программного средства, в которую входят графический интерфейс, сервер приложения и система синтеза речи. Разработан ряд алгоритмов: предварительной обработки текста перед загрузкой в программное средство, преобразования аудиофайлов обучающей выборки и обучения сети, генерации речи на основе произвольных текстовых файлов. Создано программное средство, представляющее собой одностраничное приложение и имеющее веб-интерфейс для взаимодействия с пользователем. Для оценки качества работы программного средства использована метрика, представляющая среднюю оценку разных мнений. В результате агрегации разных мнений метрика получила достаточно высокое значение, на основании чего можно считать, что все поставленные задачи были решены.</p></abstract><trans-abstract xml:lang="en"><p>The problem of automatic speech generation from a text file is considered. An analytical review of the software has been completed. They are designed to recognize texts and convert them to an audio stream. The advantages and disadvantages of software products are estimated. Based on this, a conclusion was drawn about the relevance of developing a software for automatic generation of an audio stream from a text in Russian. Models based on artificial neural networks, which are used for speech synthesis, are analyzed. After that, a mathematical model of the created software is built. It consists of three components: a convolutional encoder, a convolutional decoder, and a transformer. The architecture of the software is designed. It includes a graphical interface, an application server, and a speech synthesis system. A number of algorithms have been developed: preprocessing text before loading it into a software, converting audio files of a training sample and training a network, generating speech based on arbitrary text files. A software has been created, which is a single-page application and has a web interface for interacting with the user. To assess the quality of the software, a metric was used that represents the average score of different opinions. As a result of the aggregation of different opinions, the metric received a sufficiently high value, on the basis of which it can be assumed that all the tasks have been solved.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>модель искусственной нейронной сети</kwd><kwd>аудиопоток</kwd><kwd>кодировщик и декодировщик</kwd><kwd>генерация речи</kwd><kwd>спектрограмма</kwd></kwd-group><kwd-group xml:lang="en"><kwd>artificial neural network model</kwd><kwd>audio stream</kwd><kwd>encoder and decoder</kwd><kwd>speech generation</kwd><kwd>spectrogram</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Гольдберг Й. Нейросетевые методы в обработке естественного языка. Москва: ДМК-Пресс; 2019.</mixed-citation><mixed-citation xml:lang="en">Goldberg J. [Neural network methods in natural language processing]. Moscow: DMK-Press; 2019. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение = Deep Learning. Москва: ДМК-Пресс; 2017.</mixed-citation><mixed-citation xml:lang="en">Gudfellou Ya., Bendzhio I., Kurvill' A. [Glubokoye obucheniye = Deep Learning]. Мoscow: DМK-Press; 2017. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Николенко С.И., Кадурин А.А., Архангельская Е.О. Глубокое обучение. Санкт-Петербург: Питер; 2018.</mixed-citation><mixed-citation xml:lang="en">Nikolenko S.I., Kadurin A.A., Arkhangel'skaya Ye.O. [Deep Learning ]. St. Petersburg: Piter; 2018. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Траск Э. Грокаем глубокое обучение. Санкт-Петербург: Питер; 2019.</mixed-citation><mixed-citation xml:lang="en">Trask E. [Grokay deep learning]. St. Petersburg: Piter; 2019. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Шолле Ф. Глубокое обучение на Python. Санкт-Петербург: Питер; 2018.</mixed-citation><mixed-citation xml:lang="en">Scholle F. [Deep Learning in Python]. St. Petersburg: Piter; 2018. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Элбон К. Машинное обучение на Python. Сборник рецептов. Санкт-Петербург: BHV; 2019.</mixed-citation><mixed-citation xml:lang="en">Elbon K. [Machine learning in Python. Collection of recipes]. St. Petersburg: BHV; 2019. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Меле А. Django 2 в примерах. Москва: ДМК-Пресс; 2019.</mixed-citation><mixed-citation xml:lang="en">Mele A. [Django 2 in examples]. Moscow: DMK-Press; 2019. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Реза Б.З., Рамсундар Б. TensorFlow для глубокого обучения. Санкт-Петербург: BHV; 2019.</mixed-citation><mixed-citation xml:lang="en">Reza BZ, Ramsundar B. [TensorFlow for deep learning]. St. Petersburg: BHV; 2019. (In Russ)</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Ганегедара Т. Обработка естественного языка с TensorFlow. Москва: ДМК-Пресс; 2019.</mixed-citation><mixed-citation xml:lang="en">Ganegedara T. [Natural Language Processing with TensorFlow]. Moscow: DMK-Press; 2019. (In Russ)</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
