Preview

Доклады БГУИР

Расширенный поиск

ПОДХОД К АНАЛИЗУ ИЗОБРАЖЕНИЙ ДЛЯ СИСТЕМ ТЕХНИЧЕСКОГО ЗРЕНИЯ

https://doi.org/10.35596/1729-7648-2020-18-2-62-70

Полный текст:

Аннотация

В данной работе предлагается подход к семантическому анализу изображений, который можно использовать в системах технического зрения. Целью работы является разработка метода автоматического построения семантической модели, формализующей пространственные связи между объектами на изображении, а также ее исследование. Отличительной особенностью данной модели является определение значимых объектов, благодаря чему алгоритм построения анализирует на порядок меньше отношений между объектами, что позволяет существенно сократить время обработки изображения и объем используемых ресурсов. Уделено внимание выбору нейросетевого алгоритма детекции объектов на изображении как предварительного этапа построения модели. Проведены эксперименты на тестовых наборах их базы Visual Genome, разработанной исследователями из Стэнфордского университета для оценки алгоритмов детекции объектов, аннотирования регионов и других актуальных задач анализа изображений. При оценке работы модели оценивалась точность определения пространственных отношений. Также были проведены эксперименты по интерпретации полученной модели, а именно аннотированию, т. е. получению текстового описания содержания изображения. Результаты экспериментов сравнивались с аналогичными результатами нейросетевой генерации аннотаций изображений, полученными на той же базе другими исследователями, а также автором данной работы ранее. Показано улучшение качества аннотирования изображений до 60 % (в соответствии с метрикой METEOR) по сравнению с нейросетевыми методами. Кроме того, использование данной модели позволяет частично очистить и нормализовать данные для обучения, в том числе нейросетевых архитектур, широко применяющихся в анализе изображений. Рассматриваются перспективы использования данной методики в ситуационном мониторинге. В качестве недостатков данного подхода можно отметить некоторые упрощения при построении модели, которые будут учтены в дальнейшем развитии модели.

Об авторе

Н. А. Искра
Белорусский государственный университет информатики и радиоэлектроники
Беларусь

Искра Наталья Александровна, магистр технических наук, старший преподаватель кафедры электронных вычислительных машин

220013, Республика Беларусь, г. Минск, ул. П. Бровки, д. 6; тел. +375-29-586-93-52



Список литературы

1. Liu L., Ouyang W., Wang X., Fieguth P., Chen J., Liu X., Pietikäinen M. Deep learning for generic object detection: A survey. International journal of computer vision. 2019. DOI: 10.1007/s11263-019-01247-4.

2. Müller J., Fregin A., Dietmayer K. Disparity sliding window: object proposals from disparity images. IEEE/RSJ International conference on intelligent robots and systems. New York: IEEE, 2018: 5777-5784. ISBN 978-1-5386-8094-0.

3. Girshick R., Donahue J., Darrell T., Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587. DOI: 10.1109/CVPR.2014.81.

4. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C.Y., Berg A.C. Ssd: Single shot multibox detector. European conference on computer vision. Springer, Cham, 2016: 21-37. DOI: 10.1007/978-3-319-46448-0_2.

5. Girshick R. Fast r-cnn. Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448. DOI: 10.1109/ICCV.2015.169.

6. Ren S., He K., Girshick R., Sun J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems. 2015: 91-99. DOI: 10.5555/2969239.2969250.

7. He K., Gkioxari G., Dollár P., Girshick R. Mask r-cnn. Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969. DOI: 10.1109/ICCV.2017.322.

8. Xu D., Zhu Y., Choy C.B., Fei-Fei L. Scene graph generation by iterative message passing. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5410-5419. DOI: 10.1109/CVPR.2017.330.

9. Krishna R., Zhu Y., Groth O., Johnson J., Hata K., Kravitz J., Chen S., Kalantidis Y., Li L.J., Shamma D.A., Bernstein M.S. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International journal of computer vision. 2017;123(1):32-73. DOI: 10.1007/s11263-016-0981-7.

10. Miller G.A. WordNet: An electronic lexical database. First edition. Cambridge: MIT Press; 1998. ISBN 9780262061971.

11. Yang J., Lu J., Lee S., Batra D., Parikh D. Graph r-cnn for scene graph generation. Proceedings of the european conference on computer vision. 2018: 690-706. DOI: 10.1007/978-3-030-01246-5_41.

12. Borji A., Cheng M.M., Hou Q., Jiang H., Li J. Salient object detection: A survey. Computational visual media. 2019;5(2):117-150. DOI: 10.1007/s41095-019-0149-9.

13. Banerjee S., Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization. Michigan: Association for computational linguistics. 2005: 65-72. Anthology ID: W05-0909.

14. Johnson J., Karpathy A., Fei-Fei L. Densecap: Fully convolutional localization networks for dense captioning. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4565-4574. DOI: 10.1109/CVPR.2016.494.

15. Iskra N., Iskra V. Temporal Convolutional and Recurrent Networks for Image Captioning. Communications in Computer and Information Science. 2019; 1055. Springer, Cham. DOI: https://doi.org/10.1007/978-3-030-35430-5_21.


Для цитирования:


Искра Н.А. ПОДХОД К АНАЛИЗУ ИЗОБРАЖЕНИЙ ДЛЯ СИСТЕМ ТЕХНИЧЕСКОГО ЗРЕНИЯ. Доклады БГУИР. 2020;18(2):62-70. https://doi.org/10.35596/1729-7648-2020-18-2-62-70

For citation:


Iskra N.A. APPROACH TO IMAGE ANALYSIS FOR COMPUTER VISION SYSTEMS. Doklady BGUIR. 2020;18(2):62-70. (In Russ.) https://doi.org/10.35596/1729-7648-2020-18-2-62-70

Просмотров: 123


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1729-7648 (Print)
ISSN 2708-0382 (Online)