📚 Research Papers Collection
Browse the latest scientific publications with multilingual abstracts available in English, Russian and Azerbaijani.
Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding
Vision-Language-Action (VLA) models have emerged as a promising framework for enabling generalist robots capable of perceiving, reasoning, and acting in the real world. These models usually build upon pretrained Vision-Language Models (VLMs), which excel at semantic understanding due to large-scale text pretraining. However, VLMs typically lack precise spatial understanding capabilities, as they are primarily tuned on 2D image-text pairs without 3D supervision. To address this limitation, recent approaches have incorporated explicit 3D inputs such as point clouds or depth maps, but this necessitates additional depth sensors or defective estimation. In contrast, our work introduces a plug-and-play module that implicitly injects 3D geometry features into VLA models by leveraging an off-the-shelf visual geometry foundation models. We design five spatially challenging tasks that require precise spatial understanding ability to validate effectiveness of our method. Extensive evaluations show that our method significantly improves the performance of state-of-the-art VLA models across diverse scenarios.
Модели зрений-языка (VLA) стали перспективной основой для обеспечения обеспечения генеральных роботов, способных воспринимать, рассуждать и действовать в реальном мире. Эти модели обычно опираются на предварительно предварительно продуманные модели на языке зрения (VLMS), которые превосходят семантическое понимание из-за крупномасштабного текстового предварительного подготовки. Тем не менее, VLMS обычно не хватает точных возможностей пространственного понимания, так как они в основном настроены на пар 2D-текста изображения без контроля 3D. Чтобы учесть это ограничение, недавние подходы включали явные 3D -входы, такие как точечные облака или карты глубины, но это требует дополнительных датчиков глубины или дефектной оценки. Напротив, наша работа представляет модуль подключаемой игры, который неявно вводит функции трехмерной геометрии в модели VLA, используя модели лобных визуальных геометрии. Мы разрабатываем пять пространственно сложных задач, которые требуют точного пространственного понимания способности проверять эффективность нашего метода. Обширные оценки показывают, что наш метод значительно улучшает производительность современных моделей VLA в разных сценариях.
Görmə-Dili-Action (VLA) modelləri real dünyada qavrayış, düşünməyə və fəaliyyət göstərə bilən generalist robotların işə salınması üçün perspektivli bir çərçivə olaraq ortaya çıxdı. Bu modellər ümumiyyətlə böyük miqyaslı mətn pretrainingu səbəbiylə semantik anlaşmada üstün olan iddia edilmiş görmə-dil modelləri (VLMS) üzərində qurulur. Bununla birlikdə, vlms adətən dəqiq məkan anlayış imkanları yoxdur, çünki onlar ilk növbədə 3D nəzarəti olmadan 2D görüntü mətn cütü üzərində tənzimləndikləri üçün. Bu məhdudiyyəti həll etmək üçün son yaxınlaşmalar nöqtə buludları və ya dərinlik xəritələri kimi açıq 3D girişləri daxil etmişdir, lakin bu, əlavə dərinlik sensorlar və ya qüsurlu qiymətləndirmə tələb edir. Bunun əksinə olaraq, işimiz, bir rəf visual həndəsə təməl modellərindən istifadə edərək 3D həndəsə xüsusiyyətlərini VLA modellərinə açıq şəkildə inyeksiya edən bir plug-və oyun modulu təqdim edir. Metodumuzun effektivliyini təsdiqləmək üçün dəqiq məkan anlayışı olan dəqiq məkan anlayışı tələb edən beş spatik çətin vəzifələri hazırlayırıq. Geniş qiymətləndirmələr göstərir ki, metodumuz müxtəlif ssenarilər arasında ən müasir vla modellərinin performansını əhəmiyyətli dərəcədə yaxşılaşdırır.
RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation
We present RoboEval, a simulation benchmark and structured evaluation framework designed to reveal the limitations of current bimanual manipulation policies. While prior benchmarks report only binary task success, we show that such metrics often conceal critical weaknesses in policy behavior -- such as poor coordination, slipping during grasping, or asymmetric arm usage. RoboEval introduces a suite of tiered, semantically grounded tasks decomposed into skill-specific stages, with variations that systematically challenge spatial, physical, and coordination capabilities. Tasks are paired with fine-grained diagnostic metrics and 3000+ human demonstrations to support imitation learning. Our experiments reveal that policies with similar success rates diverge in how tasks are executed -- some struggle with alignment, others with temporally consistent bimanual control. We find that behavioral metrics correlate with success in over half of task-metric pairs, and remain informative even when binary success saturates. By pinpointing when and how policies fail, RoboEval enables a deeper, more actionable understanding of robotic manipulation -- and highlights the need for evaluation tools that go beyond success alone.
Мы представляем Roboeval, контроль моделирования и структурированную структуру оценки, предназначенную для выявления ограничений текущей политики бимануальной манипуляции. Хотя предыдущие тесты сообщают только о успехе бинарной задачи, мы показываем, что такие метрики часто скрывают критические слабости в политическом поведении, таких как плохая координация, скольжение во время схватки или асимметричное использование руки. Roboeval вводит набор многоуровневых, семантически обоснованных задач, разложенных на этапы специфических навыков, с вариациями, которые систематически бросают вызов пространственным, физическим и координационным возможностям. Задачи в паре с мелкозернистыми диагностическими показателями и 3000+ человеческими демонстрациями для поддержки имитационного обучения. Наши эксперименты показывают, что политика с одинаковыми показателями успеха расходятся в том, как выполняются задачи - некоторые борются с выравниванием, другие с временным последовательным бимануальным контролем. Мы находим, что поведенческие метрики коррелируют с успехом в более чем половине парков, связанных с задачей, и остаются информативными, даже когда бинарный успех насыщает. Определив, когда и как политика терпит неудачу, Roboeval обеспечивает более глубокое, более действенное понимание роботизированных манипуляций - и подчеркивает необходимость в инструментах оценки, которые выходят за рамки только успеха.
Roboeval, cari bimanual manipulyasiya siyasətinin məhdudiyyətlərini aşkar etmək üçün hazırlanmış bir simulyasiya meyar və quruluşlu qiymətləndirmə çərçivəsini təqdim edirik. Əvvəlki meyarların yalnız ikili tapşırıq uğurunu bildirərkən, bu cür ölçülər, bu cür ölçülərin siyasət davranışında çox vaxt kritik zəif cəhətləri gizlədir və ya zəif koordinasiya, və ya asimmetrik qol istifadəsi zamanı sürüşərək. Roboeval, məkan, fiziki və koordinasiya imkanlarını sistematik şəkildə meydana gətirən müxtəlif mərhələlərə, serialın xüsusi mərhələlərə bölünmüş, serialın bir dəstini təqdim edir. Tapşırıqlar, təqlid öyrənməyə dəstək olmaq üçün incə deşilen diaqnostik ölçülər və 3000+ insan nümayişi ilə birləşdirilmişdir. Təcrübələrimiz oxşar müvəffəqiyyət nisbətləri olan siyasətlərin işlərinin necə yerinə yetirilməsində, müəyyən bir uyğunlaşma ilə, digərləri müvəqqəti ardıcıl bi animanar nəzarətində olanlar olduğunu göstərir. Davranış ölçüləri, vəzifəli metrik cütlərin yarısında müvəffəqiyyətlə uğurla əlaqələndirdiyini və ikili müvəffəqiyyət doyduqda da məlumatlandırıcı olaraq qalır. Pin yönləndirərək, siyasətlərin nə vaxt və necə olmadığı ilə, Roboeval, robot manipulyasiyasını daha dərin, daha çox təsirli bir anlayışa imkan verir və təkcə uğurdan kənarda qalan qiymətləndirmə vasitələrinin ehtiyacını vurğulayır.
Novel Pigeon-inspired 3D Obstacle Detection and Avoidance Maneuver for Multi-UAV Systems
Recent advances in multi-agent systems manipulation have demonstrated a rising demand for the implementation of multi-UAV systems in urban areas, which are always subjected to the presence of static and dynamic obstacles. Inspired by the collective behavior of tilapia fish and pigeons, the focus of the presented research is on the introduction of a nature-inspired collision-free formation control for a multi-UAV system, considering the obstacle avoidance maneuvers. The developed framework in this study utilizes a semi-distributed control approach, in which, based on a probabilistic Lloyd's algorithm, a centralized guidance algorithm works for optimal positioning of the UAVs, while a distributed control approach has been used for the intervehicle collision and obstacle avoidance. Further, the presented framework has been extended to the 3D space with a novel definition of 3D maneuvers. Finally, the presented framework has been applied to multi-UAV systems in 2D and 3D scenarios, and the obtained results demonstrated the validity of the presented method in dynamic environments with stationary and moving obstacles.
Недавние достижения в области многоагентных систем манипуляции продемонстрировали растущий спрос на реализацию многооверных систем в городских районах, которые всегда подвергаются присутствию статических и динамических препятствий. Вдохновленный коллективным поведением рыб и голубей тилапии, в центре внимания представленного исследования-введение в природе контроль формирования без столкновения для системы с несколькими UAV, учитывая маневры избегания препятствий. Разработанная структура в этом исследовании использует полуразмерный подход к контролю, в котором, основанный на вероятностном алгоритме Ллойда, централизованный алгоритм руководства работает для оптимального позиционирования БПЛА, в то время как распределенный контрольный подход использовался для столкновения и предотвращения столкновений и препятствий. Кроме того, представленная структура была расширена на трехмерное пространство с новым определением трехмерных маневров. Наконец, представленная структура была применена к многооверным системам в 2D и 3D-сценариях, и полученные результаты продемонстрировали достоверность представленного метода в динамических средах со стационарными и движущимися препятствиями.
Çox agent sistemlərin manipulyasiyasındakı son irəliləyişlər, həmişə statik və dinamik maneələrin olmasına tabe olan şəhər yerlərində çox-UAV sistemlərinin həyata keçirilməsinə yüksələn tələbi nümayiş etdirdi. Tilapiya balıq və göyərçinlərin kollektiv davranışından ilham alaraq, təqdim olunan tədqiqatların diqqət mərkəzində olan bir çox İHA sistemi üçün təbiətdən ilhamlanmış bir toqquşma sərbəst formalaşmanı idarəetmə, maneə törətmə manevrlərini nəzərə alaraq. Bu işdə inkişaf etmiş çərçivə, bir ehtimal edilmiş Lloydun alqoritminə əsaslanan, mərkəzləşdirilmiş rəhbərlik alqoritmi əsasında, İHA-ların optimal yerləşdirilməsi üçün işləyir, interveabicle toqquşma və maneə üçün istifadə edilmişdir. Bundan əlavə, təqdim olunan çərçivə 3D manevrlərinin yeni bir tərifi olan 3D məkanına uzadılmışdır. Nəhayət, təqdim olunan çərçivə 2D və 3D ssenarilərində çoxsaylı sistemlərə tətbiq edilmişdir və əldə edilmiş nəticələr, stasionar və hərəkət edən maneələrlə dinamik mühitlərdə təqdim olunan metodun etibarlılığını nümayiş etdirdi.
DIJE: Dense Image Jacobian Estimation for Robust Robotic Self-Recognition and Visual Servoing
For robots to move in the real world, they must first correctly understand the state of its own body and the tools that it holds. In this research, we propose DIJE, an algorithm to estimate the image Jacobian for every pixel. It is based on an optical flow calculation and a simplified Kalman Filter that can be efficiently run on the whole image in real time. It does not rely on markers nor knowledge of the robotic structure. We use the DIJE in a self-recognition process which can robustly distinguish between movement by the robot and by external entities, even when the motion overlaps. We also propose a visual servoing controller based on DIJE, which can learn to control the robot's body to conduct reaching movements or bimanual tool-tip control. The proposed algorithms were implemented on a physical musculoskeletal robot and its performance was verified. We believe that such global estimation of the visuomotor policy has the potential to be extended into a more general framework for manipulation.
Чтобы роботы могли двигаться в реальном мире, они должны сначала правильно понять состояние своего тела и инструменты, которые он содержит. В этом исследовании мы предлагаем Dije, алгоритм для оценки изображения Jacobian для каждого пикселя. Он основан на расчете оптического потока и упрощенном фильтре Калмана, который может эффективно работать на всем изображении в режиме реального времени. Это не полагается на маркеры и не знание роботизированной структуры. Мы используем Dije в процессе самопознания, который может надежно различать движение роботом и внешними сущностями, даже когда движение перекрывается. Мы также предлагаем визуальный сервоприводный контроллер, основанный на DIJE, который может научиться контролировать тело робота для проведения достижения движений или бимануального контроля инструмента. Предлагаемые алгоритмы были реализованы на физическом опорно -двигательном роботе, и его производительность была проверена. Мы считаем, что такая глобальная оценка визуальной политики может быть расширена на более общую основу для манипуляции.
Robotların real dünyada hərəkət etməsi üçün əvvəlcə öz bədəninin vəziyyətini və tutduğu vasitələrin vəziyyətini düzgün başa düşməlidirlər. Bu araşdırmada, Dije, hər piksel üçün görüntü Jacobian'ı qiymətləndirmək üçün bir alqoritm təklif edirik. Bu optik axın hesablamasına və real vaxtda bütün görüntüyə səmərəli şəkildə işləyə bilən sadələşdirilmiş Kalman filtrinə əsaslanır. Markerlərə və robot quruluşu haqqında biliklərə etibar etmir. Dije'yi robotun və xarici qurumların hərəkəti ilə hərəkətini üst-üstə düşən, hətta hərəkət üst-üstə düşsə də, özünü tanıma prosesində istifadə edirik. Dije-də, robotun cəsədini hərəkətə və ya bimanual alət tipinə nəzarət etmək üçün idarə etməyi öyrənə bilən Dije-də bir vizual serveri nəzarətçisini təklif edirik. Təklif olunan alqoritmlər fiziki bir musəloskeletal robotda həyata keçirilmiş və onun performansı təsdiqləndi. İnanırıq ki, vizuomotor siyasətinin bu cür qlobal qiymətləndirilməsi manipulyasiya üçün daha ümumi bir çərçivə daxil olmaq potensialına malikdir.
Edge Computing and its Application in Robotics: A Survey
The Edge computing paradigm has gained prominence in both academic and industry circles in recent years. By implementing edge computing facilities and services in robotics, it becomes a key enabler in the deployment of artificial intelligence applications to robots. Time-sensitive robotics applications benefit from the reduced latency, mobility, and location awareness provided by the edge computing paradigm, which enables real-time data processing and intelligence at the network's edge. While the advantages of integrating edge computing into robotics are numerous, there has been no recent survey that comprehensively examines these benefits. This paper aims to bridge that gap by highlighting important work in the domain of edge robotics, examining recent advancements, and offering deeper insight into the challenges and motivations behind both current and emerging solutions. In particular, this article provides a comprehensive evaluation of recent developments in edge robotics, with an emphasis on fundamental applications, providing in-depth analysis of the key motivations, challenges, and future directions in this rapidly evolving domain. It also explores the importance of edge computing in real-world robotics scenarios where rapid response times are critical. Finally, the paper outlines various open research challenges in the field of edge robotics.
Парадигма Edge Computing приобрела известность как в академических, так и в отраслевых кругах в последние годы. Внедряя Edge Computing Semints и услуги в робототехнике, он становится ключевым фактором, способствующим развертыванию приложений искусственного интеллекта для роботов. Чувствительные ко времени приложения робототехники выигрывают от снижения задержки, мобильности и осведомленности о местоположении, предоставленной парадигмой Edge Computing, которая обеспечивает обработку и интеллект данных в режиме реального времени на краю сети. Хотя преимущества интеграции Edge Computing в робототехнику многочисленны, недавно не было проведено никакого обследования, в котором всесторонне рассматривают эти преимущества. Эта статья направлена на то, чтобы преодолеть этот разрыв, подчеркивая важную работу в области робототехники Edge, изучение недавних достижений и более глубокого понимания проблем и мотиваций, лежащих в основе как современных, так и новых решений. В частности, в этой статье представлена комплексная оценка недавних событий в Edge Robotics, с акцентом на фундаментальные приложения, обеспечивая углубленный анализ ключевых мотиваций, проблем и будущих направлений в этой быстро развивающейся области. Он также исследует важность краевых вычислений в реальных сценариях робототехники, где быстрое время отклика имеет решающее значение. Наконец, в статье описываются различные проблемы открытых исследований в области робототехники Edge.
Kənar hesablama paradiqması son illərdə həm akademik, həm də sənaye dairələrdə üstünlük əldə etdi. Robototexnika sahələrində kənar hesablama qurğularını və xidmətləri həyata keçirməklə, süni intellekt tətbiqlərinin robotlara yerləşdirilməsində əsas gücləndirici olur. Zamana həssas robototexnika tətbiqetmələri azaldılmış gecikmə, hərəkətlilikdən və şəbəkənin kənarındakı real vaxt məlumat emalı və zəkaya imkan verən kənar hesablama paradiqmasının, hərəkətliliyin və yer şüurundan faydalanır. Robotikaya kənar hesablama inteqrasiya etmək üstünlükləri çoxdur, bu üstünlükləri hərtərəfli araşdıran son bir araşdırma olmayıb. Bu sənəd, son irəliləyişləri araşdırmaq və həm cari, həm də ortaya çıxan həllərin arxasında çətinliklər və motivasiyalara dair çətinliklər və motivasiyalara daha dərindən fikir verməklə bu boşluğu vurğulamaq və bu boşluğu işıqlandırmaq məqsədi daşıyır. Xüsusilə, bu məqalədə, bu sürətlə inkişaf edən domendə əsas motivasiyaların, çətinliklərin və gələcək istiqamətlərin dərin təhlil edilməsi, əsas tətbiqlərin dərin təhlil edilməsi ilə bağlı son inkişafların hərtərəfli qiymətləndirilməsini nəzərdə tutur. Sürətli cavab vaxtlarının kritik olduğu real-dünya robototexnika ssenarilərində kənar hesablama vacibliyini də araşdırır. Nəhayət, Kağız kənar robototexnika sahəsində müxtəlif açıq tədqiqat problemlərini təsvir edir.
Generation of Indoor Open Street Maps for Robot Navigation from CAD Files
The deployment of autonomous mobile robots is predicated on the availability of environmental maps, yet conventional generation via SLAM (Simultaneous Localization and Mapping) suffers from significant limitations in time, labor, and robustness, particularly in dynamic, large-scale indoor environments where map obsolescence can lead to critical localization failures. To address these challenges, this paper presents a complete and automated system for converting architectural Computer-Aided Design (CAD) files into a hierarchical topometric OpenStreetMap (OSM) representation, tailored for robust life-long robot navigation. Our core methodology involves a multi-stage pipeline that first isolates key structural layers from the raw CAD data and then employs an AreaGraph-based topological segmentation to partition the building layout into a hierarchical graph of navigable spaces. This process yields a comprehensive and semantically rich map, further enhanced by automatically associating textual labels from the CAD source and cohesively merging multiple building floors into a unified, topologically-correct model. By leveraging the permanent structural information inherent in CAD files, our system circumvents the inefficiencies and fragility of SLAM, offering a practical and scalable solution for deploying robots in complex indoor spaces. The software is encapsulated within an intuitive Graphical User Interface (GUI) to facilitate practical use. The code and dataset are available atthis https URL.
Развертывание автономных мобильных роботов основано на наличии экологических карт, однако традиционная генерация посредством Slam (одновременная локализация и картирование) страдает от значительных ограничений во времени, труде и устойчивости, особенно в динамических широкомасштабных средах в помещении, где устаревание карты может привести к критическим неудачам локализации. Чтобы решить эти проблемы, в этом документе представлена полная и автоматизированная система для преобразования архитектурных файлов компьютерного проектирования (CAD) в иерархическое представление о топометрии OpenStreetMap (OSM), адаптированное для надежной навигации роботов на протяжении всей жизни. Наша основная методология включает в себя многоэтапный трубопровод, который сначала изолирует ключевые структурные слои из необработанных данных CAD, а затем использует топологическую сегментацию на основе областей, чтобы разделить макет здания на иерархический график судоходных пространств. Этот процесс дает комплексную и семантически богатую карту, дополнительно расширенную путем автоматической ассоциации текстовых меток из источника CAD и сплоченно объединяя несколько зданий в единую, топологически корректную модель. Используя постоянную структурную информацию, присущую файлам САПР, наша система обходит неэффективность и хрупкость удара, предлагая практическое и масштабируемое решение для развертывания роботов в сложных внутренних пространствах. Программное обеспечение инкапсулируется в интуитивно понятном графическом пользовательском интерфейсе (GUI), чтобы облегчить практическое использование. Код и набор данных доступны Attis https URL.
Muxtar mobil robotların yerləşdirilməsi ətraf mühit xəritələrinin mövcudluğu ilə bağlı proqnozlaşdırılır, lakin slam vasitəsilə şərti nəsil (eyni vaxtda lokalizasiya və xəritəçəkmə) vaxt, əmək və möhkəmlikdən, xüsusən də xəritənin köhnəlmiş lokalizasiya uğursuzluqlarına səbəb ola biləcəyi dinamik, geniş miqyaslı qapalı mühitlərdə əhəmiyyətli məhdudiyyətlərdən əziyyət çəkir. Bu problemləri həll etmək üçün bu sənəd memarlıq kompüterli dizayn (CAD) fayllarını möhkəm həyat boyu robot naviqasiyası üçün hazırlanmış iyerarxik bir nümunə (ASM) nümayəndəliyinə çevirmək üçün tam və avtomatlaşdırılmış bir sistem təqdim edir. Core metodologiyamız, əvvəlcə əsas struktur təbəqələri xam CAD məlumatlarından təcrid edən və bina düzənliyini naviqasiya yerlərinin iyerarxik qrafikinə bölmək üçün bir bölgə əsaslı topoloji bir topoloji seqment tətbiq edir. Bu proses hərtərəfli və semantik zəngin bir xəritə verir, mətn mənbəyindən mətn mənbəyindən və bir çox bina döşəmələrini birləşdirilmiş, topoloji cəhətdən düzgün bir modelə birləşdirərək daha da inkişaf etdirir. CAD sənədlərinə xas olan daimi struktur məlumatı istifadə etməklə, sistemimiz, mürəkkəb qapalı boşluqlarda robotlar yerləşdirmək üçün praktik və genişlənən bir həll təklif edən slamın səmərəsiz və geniş bir həll təklif edir. Proqram, praktik istifadəni asanlaşdırmaq üçün intuitiv qrafik istifadəçi interfeysi (GUI) daxilində kapsula qoyulur. Kod və məlumat bazası HTTPS URL-də mövcuddur.
Stable Tracking of Eye Gaze Direction During Ophthalmic Surgery
Ophthalmic surgical robots offer superior stability and precision by reducing the natural hand tremors of human surgeons, enabling delicate operations in confined surgical spaces. Despite the advancements in developing vision- and force-based control methods for surgical robots, preoperative navigation remains heavily reliant on manual operation, limiting the consistency and increasing the uncertainty. Existing eye gaze estimation techniques in the surgery, whether traditional or deep learning-based, face challenges including dependence on additional sensors, occlusion issues in surgical environments, and the requirement for facial detection. To address these limitations, this study proposes an innovative eye localization and tracking method that combines machine learning with traditional algorithms, eliminating the requirements of landmarks and maintaining stable iris detection and gaze estimation under varying lighting and shadow conditions. Extensive real-world experiment results show that our proposed method has an average estimation error of 0.58 degrees for eye orientation estimation and 2.08-degree average control error for the robotic arm's movement based on the calculated orientation.
Офтальмологические хирургические роботы предлагают превосходную стабильность и точность, уменьшая естественные дремоты рук человеческих хирургов, обеспечивая деликатные операции в ограниченных хирургических пространствах. Несмотря на достижения в разработке методов управления на основе зрения и силы для хирургических роботов, предоперационная навигация по-прежнему в значительной степени зависит от ручной работы, ограничивая согласованность и увеличивая неопределенность. Существующие методы оценки глаза в хирургии, будь то традиционное или глубокое обучение, сталкиваются с проблемами, включая зависимость от дополнительных датчиков, проблемы окклюзии в хирургической среде и требование для обнаружения лица. Для решения этих ограничений в этом исследовании предлагается инновационный метод локализации и отслеживания глаз, который сочетает в себе машинное обучение с традиционными алгоритмами, устраняя требования к достопримечательностям и поддержание стабильного обнаружения радужной оболочки и оценки взгляда при различных условиях освещения и тени. Обширные результаты эксперимента в реальном мире показывают, что предлагаемый наш метод имеет среднюю ошибку оценки 0,58 градусов для оценки ориентации глаз и средней ошибки контроля 2,08 градусов для движения роботизированной руки на основе рассчитанной ориентации.
Oftalmik cərrahi robotlar, insan cərrahlarının təbii əl sarsıntılarını azaltmaqla üstün sabitlik və dəqiqlik təklif edir, məhdudlaşdırılan cərrahi məkanlarda incə əməliyyatlar imkanı verir. Əməliyyat robotlar üçün görmə və güc əsaslı nəzarət metodlarının inkişafındakı irəliləmələrinə baxmayaraq, əməliyyat keçirici naviqasiya əl əməliyyatına çox güvənərək, ardıcıllığı məhdudlaşdırır və qeyri-müəyyənliyi artırır. Əməliyyatda mövcud olan göz baxışının qiymətləndirmə üsulları, ənənəvi və ya dərin öyrənmə əsaslı olub-olmaması, əlavə sensorlar, cərrahi mühitlərdə okklyuziya problemləri və üz aşkarlanması tələbi də daxil olmaqla üz problemləri. Bu məhdudiyyətləri həll etmək üçün bu araşdırma, machine öyrənmə tələblərini ənənəvi alqoritmlərlə aradan qaldırmaq və sabit işıqlandırma və kölgə şəraitində sabit IRI aşkarlama və nəzərdə tutulan qiymətləndirmə qabiliyyətini qoruyub saxlayan yenilikçi bir göz lokalizasiyası və izləmə metodu təklif edir. Geniş real dünya təcrübəsi nəticələri göstərir ki, təklif olunan metodumuzun göz istiqaməti qiymətləndirməsi üçün 0,58 dərəcə, hesablanmış istiqamətə əsaslanan robot qolun hərəkəti üçün 2,58 dərəcə orta qiymətləndirmə xətası və 2.08 dərəcə orta nəzarət xətası var.
Parallel Transmission Aware Co-Design: Enhancing Manipulator Performance Through Actuation-Space Optimization
In robotics, structural design and behavior optimization have long been considered separate processes, resulting in the development of systems with limited capabilities. Recently, co-design methods have gained popularity, where bi-level formulations are used to simultaneously optimize the robot design and behavior for specific tasks. However, most implementations assume a serial or tree-type model of the robot, overlooking the fact that many robot platforms incorporate parallel mechanisms. In this paper, we present a novel co-design approach that explicitly incorporates parallel coupling constraints into the dynamic model of the robot. In this framework, an outer optimization loop focuses on the design parameters, in our case the transmission ratios of a parallel belt-driven manipulator, which map the desired torques from the joint space to the actuation space. An inner loop performs trajectory optimization in the actuation space, thus exploiting the entire dynamic range of the manipulator. We compare the proposed method with a conventional co-design approach based on a simplified tree-type model. By taking advantage of the actuation space representation, our approach leads to a significant increase in dynamic payload capacity compared to the conventional co-design implementation.
В робототехнике структурный дизайн и оптимизация поведения давно считаются отдельными процессами, что приводит к разработке систем с ограниченными возможностями. В последнее время методы совместного проектирования приобрели популярность, где составы BI-уровня используются для одновременной оптимизации дизайна и поведения роботов для конкретных задач. Тем не менее, большинство реализаций предполагают серийную модель робота или тип дерева, упуская из виду тот факт, что многие платформы роботов включают параллельные механизмы. В этой статье мы представляем новый подход совместного проектирования, который явно включает в себя ограничения параллельной связи в динамическую модель робота. В этой структуре внешняя петля оптимизации фокусируется на параметрах проектирования, в нашем случае коэффициенты передачи параллельного манипулятора с приводом, управляемым ремнями, которые отображают желаемые пласки из соединного пространства в пространство приведения в действие. Внутренняя петля выполняет оптимизацию траектории в пространстве действий, тем самым используя весь динамический диапазон манипулятора. Мы сравниваем предлагаемый метод с обычным подходом совместного проектирования на основе упрощенной модели типа дерева. Используя преимущество в представлении пространства приступа, наш подход приводит к значительному увеличению динамической пропускной способности по сравнению с обычной реализацией совместного разработки.
Robototexnika, struktur dizaynı və davranış optimallaşdırılması uzun müddət ayrı proseslər hesab olunur, nəticədə məhdud imkanlar olan sistemlərin inkişafı ilə nəticələndi. Bu yaxınlarda, birgə dizayn metodları populyarlıq qazandı, burada bi səviyyəli formulalara eyni vaxtda robot dizaynını və müəyyən vəzifələr üçün davranışını optimallaşdırmaq üçün istifadə olunur. Bununla birlikdə, əksər işlər əksəriyyəti bir çox robot platformasının paralel mexanizmləri özündə cəmləşdirən robotun seriya və ya ağac tipli bir modelini qəbul edir. Bu sənəddə, robotun dinamik modelinə paralel birləşən məhdudiyyətləri açıq şəkildə birləşdirən bir roman birgə dizayn yanaşmasını təqdim edirik. Bu çərçivədə, xarici bir optimallaşdırma döngəsi dizayn parametrlərinə, vəziyyətimizdə, birgə məkandan istifadə olunan torkulyatorun hərəkət sahəsinə qədər olan torkulyatoru olan paralel bir kəmərinin ötürmə nisbətləri. Daxili bir döngə, aktyasiya məkanında traektoriya optimallaşdırmasını həyata keçirir və bununla da manipulyatorun bütün dinamik çeşidini istismar edir. Təklif olunan metodu sadələşdirilmiş bir ağac tipli modelə əsaslanaraq adi bir dizayn yanaşması ilə müqayisə edirik. Aktyorasiya kosmik nümayəndəliyindən faydalanaraq, yanaşmamız adi birgə tərtibinin icrası ilə müqayisədə dinamik yükləmə qabiliyyətinin əhəmiyyətli dərəcədə artmasına səbəb olur.
Learning Steerable Imitation Controllers from Unstructured Animal Motions
This paper presents a control framework for legged robots that leverages unstructured real-world animal motion data to generate animal-like and user-steerable behaviors. Our framework learns to follow velocity commands while reproducing the diverse gait patterns in the original dataset. To begin with, animal motion data is transformed into a robot-compatible database using constrained inverse kinematics and model predictive control, bridging the morphological and physical gap between the animal and the robot. Subsequently, a variational autoencoder-based motion synthesis module captures the diverse locomotion patterns in the motion database and generates smooth transitions between them in response to velocity commands. The resulting kinematic motions serve as references for a reinforcement learning-based feedback controller deployed on physical robots. We show that this approach enables a quadruped robot to adaptively switch gaits and accurately track user velocity commands while maintaining the stylistic coherence of the motion data. Additionally, we provide component-wise evaluations to analyze the system's behavior in depth and demonstrate the efficacy of our method for more accurate and reliable motion imitation.
В этом документе представлена структура управления для ноги-роботов, которая использует неструктурированные данные о движении животных в реальном мире для создания поведения, похожих на животные и управляемого пользователем. Наша структура учится следовать командам Velocity, воспроизводя различные шаблоны походки в исходном наборе данных. Начнем с того, что данные о движении животных превращаются в базу данных, совместимую с роботом, с использованием ограниченной обратной кинематики и модельного прогнозного контроля, соединяя морфологический и физический разрыв между животным и роботом. Впоследствии модуль синтеза движения на основе вариации, основанный на автоэкодере, отражает разнообразные модели локомоции в базе данных движения и генерирует плавные переходы между ними в ответ на команды скорости. Полученные кинематические движения служат ссылками на подкрепление контроллера обратной связи на основе обучения, развернутого на физических роботах. Мы показываем, что этот подход позволяет четверовочному роботу адаптивно переключать походки и точно отслеживать команды скорости пользователей, сохраняя при этом стилистическую когерентность данных движения. Кроме того, мы проводим компонентные оценки для глубокого анализа поведения системы и демонстрации эффективности нашего метода для более точной и надежной имитации движения.
Bu sənəd, heyvanı və istifadəçi tərəfindən idarəolunan davranışları yaratmaq üçün qurulmamış real-dünya heyvan hərəkəti məlumatlarını istifadə edən ayaqlı robotlar üçün bir nəzarət çərçivəsi təqdim edir. Çərçüməmiz orijinal məlumat bazasında müxtəlif yeriş nümunələrini təkrarlayarkən sürət əmrlərini izləməyi öyrənir. Başlamaq üçün, heyvan hərəkəti məlumatları, heyvan və robot arasındakı morfoloji və fiziki boşluğu aradan qaldırmaq, morfoloji və fiziki boşluğu aradan qaldırmaq, məhdud bir tərs kinematika və model proqnozlaşdırma nəzarəti istifadə edərək robot uyğun bir verilənlər bazasına çevrilir. Sonradan, bir dəyişkən bir autoCoder əsaslı bir hərəkət sintez modulu, hərəkət məlumat bazasında müxtəlif lokomotion nümunələrini ələ keçirir və sürət əmrlərinə cavab olaraq aralarındakı hamar keçidlər yaradır. Yaranan kinematik vəsatətlər fiziki robotlara yerləşdirilən möhkəmləndirmə öyrənmə əsaslı rəy nəzarətçisinin arayışları kimi xidmət edir. Bu yanaşmanın dörddəfədaxili robotun yerləşdirilməsini və hərəkət məlumatlarının stilistik uyğunluğunu qoruyarkən istifadəçi sürətini dəqiq şəkildə izləməsi üçün istifadəçi sürətini izləməyə imkan verir. Bundan əlavə, sistemin davranışını analiz etmək üçün komponent-müdrik qiymətləndirmələri təqdim edirik və daha dəqiq və etibarlı bir hərəkət təqlidi üçün metodumuzun effektivliyini nümayiş etdiririk.
PI-WAN: A Physics-Informed Wind-Adaptive Network for Quadrotor Dynamics Prediction in Unknown Environments
Accurate dynamics modeling is essential for quadrotors to achieve precise trajectory tracking in various applications. Traditional physical knowledge-driven modeling methods face substantial limitations in unknown environments characterized by variable payloads, wind disturbances, and external perturbations. On the other hand, data-driven modeling methods suffer from poor generalization when handling out-of-distribution (OoD) data, restricting their effectiveness in unknown scenarios. To address these challenges, we introduce the Physics-Informed Wind-Adaptive Network (PI-WAN), which combines knowledge-driven and data-driven modeling methods by embedding physical constraints directly into the training process for robust quadrotor dynamics learning. Specifically, PI-WAN employs a Temporal Convolutional Network (TCN) architecture that efficiently captures temporal dependencies from historical flight data, while a physics-informed loss function applies physical principles to improve model generalization and robustness across previously unseen conditions. By incorporating real-time prediction results into a model predictive control (MPC) framework, we achieve improvements in closed-loop tracking performance. Comprehensive simulations and real-world flight experiments demonstrate that our approach outperforms baseline methods in terms of prediction accuracy, tracking precision, and robustness to unknown environments.
Точное моделирование динамики имеет важное значение для квадроторов для достижения точного отслеживания траекторий в различных приложениях. Традиционные методы моделирования, управляемые физическими знаниями, сталкиваются с существенными ограничениями в неизвестных средах, характеризующихся переменными полезными нагрузками, нарушениями ветра и внешними возмущениями. С другой стороны, методы моделирования, управляемые данными, страдают от плохого обобщения при обработке данных о выходе из распределения (OOD), ограничивая их эффективность в неизвестных сценариях. Чтобы решить эти проблемы, мы вводим информированную физику сети, адаптивную ветру (PI-WAN), которая сочетает в себе методы моделирования, управляемые знаниями, и методы моделирования, управляемых данными, путем встраивания физических ограничений непосредственно в процесс обучения для надежного обучения динамике квадроторов. В частности, PI-WAN использует архитектуру временной сверточной сети (TCN), которая эффективно отражает временные зависимости от исторических данных полета, в то время как функция потерь, информированная о физике, применяет физические принципы для улучшения обобщения модели и надежности в ранее невидимых условиях. Включая результаты прогнозирования в реальном времени в модель прогнозирующего контроля (MPC), мы достигаем улучшений в производительности отслеживания замкнутого цикла. Комплексные моделирование и реальные эксперименты полета демонстрируют, что наш подход превосходит базовые методы с точки зрения точности прогнозирования, точность отслеживания и устойчивость к неизвестным средам.
Dəqiq dinamika modelləşdirmə, müxtəlif tətbiqlərdə dəqiq traektoriya izləməsinə nail olmaq üçün kvadratorlar üçün vacibdir. Ənənəvi fiziki bilik idarəedici modelləşdirmə metodları dəyişkən yükləmə, külək pozğunluqları və xarici pozğunluqlarla xarakterizə olunan naməlum mühitlərdə əhəmiyyətli məhdudiyyətlərlə üzləşirlər. Digər tərəfdən, məlumat idarəedici modelləşdirmə üsulları, bilinməyən ssenarilərdə effektivliyini məhdudlaşdıran, paylanmamış (ood) məlumatları ilə işlənərkən zəif ümumiləşdirmə nəticələrindən əziyyət çəkir. Bu problemləri həll etmək üçün, fiziki-məlumatlı külək adaptiv şəbəkəsini (Pi-Wan) -ni (Pi-Wan), rəfiqəli Quadrotor Dynamics öyrənməsi üçün birbaşa təlim prosesinə birbaşa təlim prosesinə daxil etməklə, fiziki məlumatlı və məlumat idarəedici metodlarını birləşdirir. Xüsusilə, Pi-Wan, Tarixi Uçuş məlumatlarından müvəqqəti asılılıqları effektiv şəkildə təsirli şəkildə həyata keçirən müvəqqəti bir konqoyma şəbəkəsi (TCN) memarlığı, fizika məlumatlı bir zərər funksiyası, əvvəllər görünməmiş şərtlərdə model ümumiləşdirmə və sağlamlığı yaxşılaşdırmaq üçün fiziki prinsipləri tətbiq edir. Real-time proqnozlaşdırma nəticələrini bir model proqnozlaşdırıcı idarəetmə (MPC) çərçivəsinə daxil etməklə, qapalı döngə izləmə performansında irəliləyişlərə nail oluruq. Hərtərəfli simulyasiyalar və real dünya uçuş təcrübələri, yaxınlaşmamızın proqnoz dəqiqliyi, dəqiqliyi və naməlum mühitlərə qarşı möhkəmlik baxımından ilkin metodların üstün metodlarını istisna edir.
Welcome to our Blog — a platform for sharing insights, tutorials, community stories, and discussions about technology, innovation, and more. Join the conversation and stay connected with our vibrant tech community.