ПРИМЕНЕНИЕ МЕТОДА ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ В РОБОТИЗИРОВАННЫХ И АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ ЛЕСНОЙ ПРОМЫШЛЕННОСТИ

А.А. Толстых, Д.С. Ступников, С.В. Малюков, А.С. Лукьянов, Ю.С. Лунёв

Скачать

№ 1 (37)

Технологии. Машины и оборудование

Сведения об авторах

Толстых Андрей Андреевич – преподаватель кафедры тактико-специальной подготовки

Воронежский институт МВД России, г. Воронеж, Российская Федерация

e-mail: tolstykh.aa@yandex.ru

Ступников Дмитрий Сергеевич – кандидат технических наук, препoдаватель кафедры механизации лесного хозяйства и проектирования машин

ФГБОУ ВО «Воронежский государственный лесотехнический университет имени Г.Ф. Морозова», г. Воронеж, Российская Федерация

e-mail: Neiti1992@mail.ru

Малюков Сергей Владимирович – кандидат технических наук, дoцент кафедры механизации лесного хозяйства и проектирования машин

ФГБОУ ВO «Воронежский государственный лесoтехнический университет имени Г.Ф. Морозова», г. Вoронеж, Российская Федерация

e-mail: malyukovsergey@yandex.ru

Лукьянов Александр Сергеевич – кандидат технических наук, старший преподаватель кафедры инфокоммуникационных систем и технологий

Воронежский институт МВД России, г. Воронеж, Российская Федерация

e-mail: las92@yandex.ru

Лунёв Юрий Станиславович – кандидат технических наук, старший преподаватель кафедры автоматизированных информационных систем

Воронежский институт МВД России, г. Воронеж, Российская Федерация

e-mail: xalt@mail.ru

 

Аннотация: 

В настоящее время на большинстве крупных предприятий активно используются промышленные роботы и другие автоматизированные решения. Это позволяет в значительной степени повысить производительность и качество выполняемых работ. В данной статье был дан краткий обзор современных промышленных роботов, их принцип работы, основные узлы и системы. Был разработан и протестирован алгоритм обучения с подкреплением. Задача построения алгоритма обучения с подкреплением была разделена на два этапа: моделирование среды и описание и оптимизация функции стоимости. Так как промышленные робототехнические системы работают в реальном мире, модель окружения должна отражать основные физические законы. Поэтому в качестве физической среды для тестирования была выбрана библиотека физического окружения pyBullet. После моделирования манипулятора в выбранной физической среде перед ним была поставлена тривиальная задача – касание захватом манипулятора заданного объекта. В качестве агента, взаимодействующего со средой, использовалась искусственная нейронная сеть. Входами служили координаты объекта и существующие углы поворотов шарнирных сочленений робота. Выходами – угол поворота сочленений на данном шаге. Данная сеть обучалась методом обратного распространения ошибки, модификацией Adam. Система обучалась около 12 часов. При тестировании устойчивости системы (случайное положение цилиндра) успех достигается в 95 % случаев. В дальнейшем планируется тестирование полученных моделей на стендовых образцах.

 

Ключевые слова: 

промышленный робот, нейронная сеть, алгоритм, обучение с подкреплением, автоматизация, робот-манипулятор

 

Для цитирования: 

Применение метода обучения с подкреплением в роботизированных и автоматизированных системах лесной промышленности / А. А. Толстых, Д. С. Ступников, С. В. Малюков [и др.] // Лесотехнический журнал. – 2020. – Т. 10. – № 1 (37). – С. 256–265. – Библиогр.: с. 263–264 (11 назв.). – DOI: 10.34220/issn.2222-7962/2020.1/19

 

Литература: 

1.  Лекции. Классификации систем координат. – URL: http://baumanki.net/lectures/ (дата обращения 17.10.2019).

2.  Анализ современного состояния применения роботов в промышленности. – URL: https://ru.wikipedia.org/wiki (дата обращения 17.10.2019).

3.  Схиртладзе, А. Г. Классификация и структура промышленных роботов / А. Г. Схиртладзе, В. И. Выходец, Н. И. Никифоров. – URL: http://www.metal-working.ru/ (дата обращения 17.10.2019).

4. Саттон, Р. С. Обучение с подкреплением / Р. С. Саттон, Э. Г. Барто. – Москва : Бином. Лаборатория знаний, 2017. – 399 с.

5. Dueling Network Architectures for Deep Reinforcement Learning / Z. Wang, T. Schaul, M. Hessel [et al.] // CoRR. – abs/1511.06581. – 2016. – P. 1–15.

6. Policy Gradient Methods for Reinforcement Learning with Function Approximation / R. S. Sutton, D. A. McAllester, S. P. Singh, M. Yishay // Advances in Neural Information Processing Systems. – 2000. – No. 12. – P. 1057–1063.

7. MuJoCo advanced physics simulation. – URL: http://www.mujoco.org/ (дата обращения: 18.10.2019).

8. Todorov, E. A physics engine for model-based control / E. Todorov, T. Erez, Y. Tassa // IROS. – 2012. – P. 5026–5033. – DOI: 10.1109/IROS.2012.6386109.

9. Bullet Real-Time Physics Simulation. – URL: https://pybullet.org/wordpress/ (дата обращения: 18.10.2019).

10. Гудфеллоу, Я. Глубокое обучение / Я. Гудфеллоу, И. Бенджио, А. Курвилль. – Москва : «ДМК Пресс», 2017. – 652 с.

11. Толстых, А.А. Выбор архитектуры искусственной нейронной сети на основе сравнения эффективности методов распознавания изображений / А. А. Толстых, А. Н. Голубинский // Вестник Воронежского института МВД России. – 2018. – № 1. – C. 27–37.