Blog Forum News Resources

📚 Research Papers Collection

Browse the latest scientific publications with multilingual abstracts available in English, Russian and Azerbaijani.

Time Invariant Sensor Tasking for Catalog Maintenance of LEO Space objects using Stochastic Geometry

Authors: Partha Chowdhury,Harsha M,Chinni Prabhunath Georg,Arun Balaji Buduru,Sanat K Biswas
Published: July 2, 2025
Catalog maintenance of space objects by limited number of ground-based sensors presents a formidable challenging task to the space community. This article presents a methodology for time-invariant tracking and surveillance of space objects in low Earth orbit (LEO) by optimally directing ground sensors. Our methodology aims to maximize the expected number of space objects from a set of ground stations by utilizing concepts from stochastic geometry, particularly the Poisson point process. We have provided a systematic framework to understand visibility patterns and enhance the efficiency of tracking multiple objects simultaneously. Our approach contributes to more informed decision-making in space operations, ultimately supporting efforts to maintain safety and sustainability in LEO.
Техническое обслуживание космических объектов с ограниченным количеством наземных датчиков представляет собой огромную сложную задачу для Космического сообщества. В этой статье представлена ​​методология для отсутствия времени отслеживания и наблюдения за космическими объектами на низкой орбите Земли (LEO) путем оптимального направления наземных датчиков. Наша методология направлена ​​на то, чтобы максимизировать ожидаемое количество космических объектов с набора наземных станций, используя концепции из стохастической геометрии, в частности процесса точки Пуассона. Мы предоставили систематическую структуру для понимания шаблонов видимости и одновременного повышения эффективности отслеживания нескольких объектов. Наш подход способствует более информированному принятию решений в космических операциях, что в конечном итоге поддерживает усилия по поддержанию безопасности и устойчивости в LEO.
Kosmik obyektlərin kosmik obyektlərinin saxlanması, yerüstü əsaslı sensorlar olan sensorlar, kosmik cəmiyyətə nəhəng çətin bir vəzifəni təqdim edir. Bu məqalə, torpaq sensorlarını optimal şəkildə yönəltməklə aşağı yerdəki orbitdə (lehi) vaxtında invariant izləmə və kosmik obyektlərin növbəsində bir metodologiyanı təqdim edir. Metodologiyamız, stochastik həndəsə, xüsusən də poisson nöqtəsi prosesindən anlayışlardan istifadə edərək yer stansiyalarından gözlənilən kosmik obyektlərin sayını maksimum dərəcədə artırmaq məqsədi daşıyır. Görmə nümunələrini anlamaq və eyni vaxtda birdən çox obyektin izləmə səmərəliliyini artırmaq üçün sistematik bir çərçivə təqdim etdik. Bizim yanaşmamız kosmik əməliyyatlarda daha çox məlumatlı qərar qəbul etməyə, nəticədə Leo-da təhlükəsizlik və davamlılığı qorumaq üçün səylərini dəstəkləyir.
Download Full PDF

User Concerns Regarding Social Robots for Mood Regulation: A Case Study on the "Sunday Blues"

Authors: Zhuochao Peng,Jiaxin Xu,Jun Hu,Haian Xue,Laurens A. G. Kolks,Pieter M. A. Desmet
Published: July 2, 2025
While recent research highlights the potential of social robots to support mood regulation, little is known about how prospective users view their integration into everyday life. To explore this, we conducted an exploratory case study that used a speculative robot concept "Mora" to provoke reflection and facilitate meaningful discussion about using social robots to manage subtle, day-to-day emotional experiences. We focused on the "Sunday Blues," a common dip in mood that occurs at the end of the weekend, as a relatable context in which to explore individuals' insights. Using a video prototype and a co-constructing stories method, we engaged 15 participants in imagining interactions with Mora and discussing their expectations, doubts, and concerns. The study surfaced a range of nuanced reflections around the attributes of social robots like empathy, intervention effectiveness, and ethical boundaries, which we translated into design considerations for future research and development in human-robot interaction.
Хотя недавние исследования подчеркивают потенциал социальных роботов для поддержки регуляции настроения, мало что известно о том, как потенциальные пользователи рассматривают свою интеграцию в повседневную жизнь. Чтобы исследовать это, мы провели исследовательское тематическое исследование, в котором использовались концепция спекулятивного робота «Mora», чтобы спровоцировать размышления и облегчить содержательное обсуждение использования социальных роботов для управления тонкими, повседневными эмоциональными опытами. Мы сосредоточились на «Sunday Blues», обычном падении в настроении, которое происходит в конце выходных, как соответствующий контекст, в котором можно исследовать понимание людей. Используя прототип видео и метод совместного создания историй, мы привлекли 15 участников в воображении взаимодействия с Морой и обсуждению их ожиданий, сомнений и проблем. Исследование всплыло на ряд нюансированных размышлений вокруг атрибутов социальных роботов, таких как эмпатия, эффективность вмешательства и этические границы, которые мы перевели в соображения дизайна для будущих исследований и разработок при взаимодействии человека-робот.
Son araşdırma, əhval-ruhiyyəni dəstəkləmək üçün sosial robotların potensialını vurğulayarkən, perspektivli istifadəçilərin gündəlik həyatda inteqrasiyasına necə baxmaları barədə məlumdur. Bunu araşdırmaq üçün bir kəşfiyyatçı bir robot konsepsiyasını "Mora" adlı bir kəşfiyyat iddiasında bir araşdırma apardıq ki, "Mora" ı, incə, gündən-günə emosional təcrübələri idarə etmək üçün sosial robotlardan istifadə haqqında mənalı müzakirəni asanlaşdırır. Həftə sonu sonunda, fərdi şəxslərin anlayışlarını araşdıracaq bir kontekst olaraq ortaq bir rəftarda, "Bazar blues" ni "Bazar blues" ni müzakirə etdik. Video prototipi və birgə quruluşlu hekayələr metodu istifadə edərək, Mora ilə qarşılıqlı əlaqələri təsəvvür etmək və gözləntilərini, şübhələri və narahatlıqlarını müzakirə etməkdə 15 iştirakçı ilə məşğul olduq. Tədqiqat, empatiya, müdaxilə effektivliyi və etik sərhədləri kimi sosial robotların atributları ətrafında bir sıra niyə işlənmiş əksləri, gələcək tədqiqat və inkişaf üçün dizayn mülahizələrinə tərcümə və insan robot qarşılıqlılığında.
Download Full PDF

Audio-3DVG: Unified Audio - Point Cloud Fusion for 3D Visual Grounding

Authors: Duc Cao-Dinh,Khai Le-Duc,Anh Dao,Bach Phan Tat,Chris Ngo,Duy M. H. Nguyen,Nguyen X. Khanh,Thanh Nguyen-Tang
Published: July 2, 2025
3D Visual Grounding (3DVG) involves localizing target objects in 3D point clouds based on natural language. While prior work has made strides using textual descriptions, leveraging spoken language-known as Audio-based 3D Visual Grounding-remains underexplored and challenging. Motivated by advances in automatic speech recognition (ASR) and speech representation learning, we propose Audio-3DVG, a simple yet effective framework that integrates audio and spatial information for enhanced grounding. Rather than treating speech as a monolithic input, we decompose the task into two complementary components. First, we introduce Object Mention Detection, a multi-label classification task that explicitly identifies which objects are referred to in the audio, enabling more structured audio-scene reasoning. Second, we propose an Audio-Guided Attention module that captures interactions between candidate objects and relational speech cues, improving target discrimination in cluttered scenes. To support benchmarking, we synthesize audio descriptions for standard 3DVG datasets, including ScanRefer, Sr3D, and Nr3D. Experimental results demonstrate that Audio-3DVG not only achieves new state-of-the-art performance in audio-based grounding, but also competes with text-based methods-highlighting the promise of integrating spoken language into 3D vision tasks.
3D визуальное заземление (3DVG) включает в себя локализацию целевых объектов в трехмерных облаках точек на основе естественного языка. В то время как предыдущая работа сделала шаги, используя текстовые описания, используя разговорную языковую языко, известный как на основе аудиосистема 3D-визуальных заземления, неэкспланированных и сложных. Мотивированные достижениями в области автоматического распознавания речи (ASR) и обучения речи, мы предлагаем Audio-3DVG, простую, но эффективную структуру, которая интегрирует аудио и пространственную информацию для расширенного заземления. Вместо того, чтобы рассматривать речь как к монолитному вводу, мы разлагаем задачу на два дополнительных компонента. Во-первых, мы вводим обнаружение упоминания объекта, задачу классификации с несколькими маркировкой, которая явно идентифицирует, какие объекты упоминаются в аудио, что позволяет более структурированным рассуждениям аудио-сцены. Во-вторых, мы предлагаем модуль внимания под руководством аудио, который отражает взаимодействие между объектами-кандидатами и реляционными речевыми сигналами, улучшая дискриминацию цели в загроможденных сценах. Для поддержки сравнительного анализа мы синтезируем описания звука для стандартных наборов данных 3DVG, включая ScanRefer, SR3D и NR3D. Экспериментальные результаты демонстрируют, что аудио-3DVG не только достигает новой современной производительности в заземлении на основе звука, но также конкурирует с текстовыми методами, которые зажигают обещание интеграции разговорного языка в задачи 3D Vision.
3D vizual yerləşdirmə (3DVG), təbii dilə əsaslanan 3D nöqtə buludlarında hədəf obyektlərin lokallaşdırılması daxildir. Əvvəllər iş mətnli təsvirləri istifadə edərək, mətn əsaslı 3D vizual toplama kimi tanınan, mokal təsvirlərindən istifadə edərək uğurlar qazandırdı. Avtomatik nitqin tanınması (ASR) və nitq nümayəndəliyi öyrənməsində irəliləyişlər, audio-3DVG, audio-3DVG, inkişaf etmiş yerləşdirmə üçün səs və məkan məlumatlarını birləşdirən sadə, lakin effektiv bir çərçivə təklif edirik. Monolit girişi olaraq nitqi müalicə etmək əvəzinə, vəzifəni iki əlavə komponentə bölüşdürürük. Birincisi, obyektin aşkarlanması, hansı obyektlərin selektivi açıq şəkildə müəyyənləşdirən çox etiketli təsnifat tapşırığını təqdim edirik, daha çox strukturlaşdırılmış audio səhnə əsaslandırmasını təmin edir. İkincisi, namizəd obyektləri və relyativ nitq istəkləri arasında qarşılıqlı təsirləri, ləkələnmiş səhnələrdə hədəf ayrıseçkiliyin yaxşılaşdırılması arasında qarşılıqlı əlaqələri ələ keçirən bir səsli bir diqqət modulu təklif edirik. Qiymətləndirməni dəstəkləmək üçün ScanRefer, SR3D və NR3D daxil olmaqla Standard 3DVG məlumat bazaları üçün səs təsvirlərini sintez edirik. Eksperimental nəticələr, audio-3DVG-nin yalnız səsə əsaslanan əsaslı əsaslı performansa nail olmadığını, eyni zamanda, danışıq dilində 3D vizyon tapşırıqlarına inteqrasiya vədini vurğulayan mətn əsaslı üsullarla da yarışır.
Download Full PDF

Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation

Authors: Hao Xing,Kai Zhe Boey,Yuankai Wu,Darius Burschka,Gordon Cheng
Published: July 2, 2025
Accurate temporal segmentation of human actions is critical for intelligent robots in collaborative settings, where a precise understanding of sub-activity labels and their temporal structure is essential. However, the inherent noise in both human pose estimation and object detection often leads to over-segmentation errors, disrupting the coherence of action sequences. To address this, we propose a Multi-Modal Graph Convolutional Network (MMGCN) that integrates low-frame-rate (e.g., 1 fps) visual data with high-frame-rate (e.g., 30 fps) motion data (skeleton and object detections) to mitigate fragmentation. Our framework introduces three key contributions. First, a sinusoidal encoding strategy that maps 3D skeleton coordinates into a continuous sin-cos space to enhance spatial representation robustness. Second, a temporal graph fusion module that aligns multi-modal inputs with differing resolutions via hierarchical feature aggregation, Third, inspired by the smooth transitions inherent to human actions, we design SmoothLabelMix, a data augmentation technique that mixes input sequences and labels to generate synthetic training examples with gradual action transitions, enhancing temporal consistency in predictions and reducing over-segmentation artifacts.Extensive experiments on the Bimanual Actions Dataset, a public benchmark for human-object interaction understanding, demonstrate that our approach outperforms state-of-the-art methods, especially in action segmentation accuracy, achieving F1@10: 94.5% and F1@25: 92.8%.
Точная временная сегментация человеческих действий имеет решающее значение для интеллектуальных роботов в совместных условиях, где необходимо точное понимание метки субъективности и их временной структуры. Тем не менее, внутренний шум как в оценке позы человека, так и в обнаружении объектов часто приводит к ошибкам переосмысления, нарушая когерентность последовательностей действия. Чтобы решить эту проблему, мы предлагаем многомодальную цифровую сверточную сеть (MMGCN), которая интегрирует визуальные данные низкокачественного (например, 1 кадры в секунду) с высокими диапазонами (например, 30 кадров в секунду) (скелет и обнаружение объектов) для смягчения фрагментации. Наша структура вводит три ключевых вклада. Во-первых, стратегия синусоидального кодирования, которая картирует 3D-скелетные координации в непрерывное пространство Sin-CoS для повышения надежности пространственного представления. Во-вторых, модуль слияния височного графа, который выравнивает мультимодальные входы с различными разрешениями посредством иерархической агрегации признаков, в третьем, вдохновленном плавными переходами, присущими человеческим действиям, мы разрабатываем SmoothLabelmix, методику увеличения данных, которые смешивают входные последовательности и этикетки с образованием синтетических тренировок с переходом по шагам, повышающие временные и этикетки, и этики, которые образуют инициирующие инициирующие инициирующие инициирующие инициирующие инициирующие инициирующие инициирующие инициирующие инициирующие инициатирование, и этики. Артефакты. Обеспеченные эксперименты по набору данных о бимануальных действиях, общедоступном эталонном эталоне для понимания взаимодействия с человеком, демонстрируют, что наш подход превосходит современные методы, особенно в точности сегментации действий, достигая F1@1044,5% и F1@25: 92,8%.
İnsan hərəkətlərinin dəqiq müvəqqəti seqmentləşdirilməsi, alt fəaliyyət etiketləri və onların müvəqqəti quruluşu haqqında dəqiq bir anlayışın olduğu ortaqlıq parametrlərində ağıllı robotlar üçün kritikdir. Bununla birlikdə, həm insan pozası qiymətləndirməsində, həm də obyekt aşkarlamasında xas olan səs-küy tez-tez həddindən artıq seqmentasiya səhvlərinə səbəb olur, hərəkət ardıcıllığının uyğunluğunu pozur. Bunu həll etmək üçün, parçalanma azaltmaq üçün yüksək çərçivəli dərəcəsi (e.g., 1 fps) vizual məlumat (e.g., 1 fps) vizual məlumat (skelet və obyekt aşkarları) ilə birləşdirən çox modal qrafikli bir şəbəkə (MMGCN) təklif edirik. Çərçümizdə üç əsas töhfəni təqdim edir. Birincisi, 3D skeleti xəritələşdirən bir sinusoidal kodlaşdırma strategiyası, məkan nümayəndəliyini möhkəmləndirmək üçün davamlı bir sin-cos məkanına koordinat verir. İkinci, hierarxik xüsusiyyət toplanması ilə çox modal girişləri olan, üçüncü, üçüncü, insan hərəkətlərinə xas olan hamar keçidlərdən ilham alan, tiraj ardıcıllığı və etiketləri, tədricən tədris keçidləri ilə sintetik təlim nümunələri yaratmaq, proqnozlarda müvəqqəti ardıcıllığı artıran bir məlumat genişləndirmə üsulunu, ikinci dərəcəli bir qrafik tipi Artıq seqmentləşdirmə əsərləri.
Download Full PDF

Towards Open-World Human Action Segmentation Using Graph Convolutional Networks

Authors: Hao Xing,Kai Zhe Boey,Gordon Cheng
Published: July 2, 2025
Human-object interaction segmentation is a fundamental task of daily activity understanding, which plays a crucial role in applications such as assistive robotics, healthcare, and autonomous systems. Most existing learning-based methods excel in closed-world action segmentation, they struggle to generalize to open-world scenarios where novel actions emerge. Collecting exhaustive action categories for training is impractical due to the dynamic diversity of human activities, necessitating models that detect and segment out-of-distribution actions without manual annotation. To address this issue, we formally define the open-world action segmentation problem and propose a structured framework for detecting and segmenting unseen actions. Our framework introduces three key innovations: 1) an Enhanced Pyramid Graph Convolutional Network (EPGCN) with a novel decoder module for robust spatiotemporal feature upsampling. 2) Mixup-based training to synthesize out-of-distribution data, eliminating reliance on manual annotations. 3) A novel Temporal Clustering loss that groups in-distribution actions while distancing out-of-distribution samples.We evaluate our framework on two challenging human-object interaction recognition datasets: Bimanual Actions and 2 Hands and Object (H2O) datasets. Experimental results demonstrate significant improvements over state-of-the-art action segmentation models across multiple open-set evaluation metrics, achieving 16.9% and 34.6% relative gains in open-set segmentation (F1@50) and out-of-distribution detection performances (AUROC), respectively. Additionally, we conduct an in-depth ablation study to assess the impact of each proposed component, identifying the optimal framework configuration for open-world action segmentation.
Сегментация взаимодействия с человеческим объектом является фундаментальной задачей повседневной деятельности, которая играет решающую роль в таких приложениях, как вспомогательная робототехника, здравоохранение и автономные системы. Большинство существующих методов, основанных на обучении, преуспевают в сегментации действий в закрытом мире, они изо всех сил пытаются обобщить сценарии открытого мира, где появляются новые действия. Сбор исчерпывающих категорий действий для обучения является нецелесообразным из-за динамического разнообразия человеческой деятельности, что требует моделей, которые обнаруживают и сегментируют вне распределения действий без ручной аннотации. Чтобы решить эту проблему, мы формально определяем проблему сегментации действий открытого мира и предлагаем структурированную структуру для обнаружения и сегментирования невидимых действий. Наша структура вводит три ключевых инновация: 1) улучшенная свертка пирамидного графа (EPGCN) с новым модулем декодера для надежного пространственно -временного роста. 2) Обучение на основе микширования для синтеза данных о выходе из распределения, устраняя зависимость от ручных аннотаций. 3) Новая временная потери кластеризации, которая группирует действия в распределении, в то время как дистанцирование выборочных образцов. Мы оцениваем нашу структуру на двух сложных наборах данных о распознавании взаимодействия с человеком: бимануальные действия и 2 наборы объектов (H2O). Экспериментальные результаты демонстрируют значительные улучшения по сравнению с современными моделями сегментации действий по многочисленным показателям оценки открытых наборов, достигнув 16,9% и 34,6% относительных прибылей в сегментации открытых наборов (F1@50) и выявления обнаружения на распределении (AUROC) соответственно. Кроме того, мы проводим углубленное исследование абляции, чтобы оценить влияние каждого предложенного компонента, определяя оптимальную структуру конфигурации для сегментации действия открытого мира.
İnsan obyektinin qarşılıqlı əlaqəsi seqmentləşdirmə, köməkçi robototexnika, səhiyyə və muxtar sistemlər kimi tətbiqlərdə həlledici rol oynayan gündəlik fəaliyyət anlayışının əsas vəzifəsidir. Mövcud tədris əsaslı metodların əksəriyyəti, qapalı-dünya fəaliyyət seqmentində üstündür, roman hərəkətlərinin ortaya çıxdığı dünya ssenarilərinə ümumiləşdirmək üçün mübarizə aparırlar. Təlim üçün tam fəaliyyət kateqoriyalarını toplamaq, insan fəaliyyətinin dinamik müxtəlifliyi səbəbindən qeyri-mümkündür, əl haqqında annotasiya etmədən paylanmamış hərəkətləri aşkar edən və seqmentdən kənar hərəkət edən modellər tələb edir. Bu məsələyə müraciət etmək üçün rəsmi olaraq Açıq Dünya Fəaliyyət Seqmentasiya problemini müəyyənləşdiririk və görünməyən hərəkətləri aşkar etmək və seqmentləşdirmək üçün quruluşlu bir çərçivə təklif edirik. Çərçümizdə üç əsas yenilik təqdim edir: 1) Güclü SpatioTemporal Feature üçün yeni bir dekoder modulu ilə inkişaf etmiş bir piramida qrafikli şəbəkəsi (EPGCN). 2) Əlavə məlumatların etibarını aradan qaldıraraq, paylanmamış məlumatları sintez etmək üçün qarışdırılmış təlim. 3) paylanmamış nümunələri aşkar edərkən bölüşdürmə tədbirlərini görən bir roman müvəqqəti klasterlik itkisi. İki çətin insan obyekti qarşılıqlı tanınma məlumat bazalarımızı qiymətləndiririk: Bimanual Action və 2 əl və Obyekt (H2O) məlumat bazaları. Təcrübə nəticələr, ən çox açıq qiymətləndirmə ölçümləri arasında ən çox açıq qiymətləndirmə metrləri üzərində əhəmiyyətli inkişaflar nümayiş etdirir, Açıq Seqmentation (F1 @ 50) (F1 @ 50) (AuroC) -də, payrılı aşkar edilmiş aşkarlama performanslarında (AuroC). Bundan əlavə, hər təklif olunan komponentin təsirini qiymətləndirmək üçün dərin bir komponentin təsirini, açıq-dünya fəaliyyət seqmenti üçün optimal çərçivə konfiqurasiyasını müəyyənləşdirmək üçün dərin bir ablaslama tədqiqatı aparırıq.
Download Full PDF

Social Robots for People with Dementia: A Literature Review on Deception from Design to Perception

Authors: Fan Wang,Giulia Perugia,Yuan Feng,Wijnand IJsselsteijn
Published: July 2, 2025
As social robots increasingly enter dementia care, concerns about deception, intentional or not, are gaining attention. Yet, how robotic design cues might elicit misleading perceptions in people with dementia, and how these perceptions arise, remains insufficiently understood. In this scoping review, we examined 26 empirical studies on interactions between people with dementia and physical social robots. We identify four key design cue categories that may influence deceptive impressions: cues resembling physiological signs (e.g., simulated breathing), social intentions (e.g., playful movement), familiar beings (e.g., animal-like form and sound), and, to a lesser extent, cues that reveal artificiality. Thematic analysis of user responses reveals that people with dementia often attribute biological, social, and mental capacities to robots, dynamically shifting between awareness and illusion. These findings underscore the fluctuating nature of ontological perception in dementia contexts. Existing definitions of robotic deception often rest on philosophical or behaviorist premises, but rarely engage with the cognitive mechanisms involved. We propose an empirically grounded definition: robotic deception occurs when Type 1 (automatic, heuristic) processing dominates over Type 2 (deliberative, analytic) reasoning, leading to misinterpretation of a robot's artificial nature. This dual-process perspective highlights the ethical complexity of social robots in dementia care and calls for design approaches that are not only engaging, but also epistemically respectful.
По мере того, как социальные роботы все чаще вступают в уход за деменцией, озабоченность об обмане, преднамеренное или нет, привлекают внимание. Тем не менее, как роботизированные сигналы дизайна могут вызвать вводящее в заблуждение восприятие у людей с деменцией, и как возникают эти восприятия, остается недостаточно понятным. В этом обзоре обзора мы изучили 26 эмпирических исследований взаимодействия между людьми с деменцией и физическими социальными роботами. Мы идентифицируем четыре ключевые категории дизайна, которые могут повлиять на обманчивые впечатления: сигналы, напоминающие физиологические знаки (например, имитируемое дыхание), социальные намерения (например, игривое движение), знакомые существа (например, форма и звук, похожая на животные) и, к меньшей степени, выражения, которые раскрывают искусственность. Тематический анализ ответов пользователей показывает, что люди с деменцией часто связывают биологические, социальные и умственные способности роботам, динамически переключаясь между осознанием и иллюзией. Эти результаты подчеркивают колеблющуюся природу онтологического восприятия в контекстах деменции. Существующие определения роботизированного обмана часто опираются на философские или бихевионистские предпосылки, но редко взаимодействуют с вовлеченными когнитивными механизмами. Мы предлагаем эмпирически обоснованное определение: роботизированный обман происходит, когда обработка типа 1 (автоматическая, эвристическая) доминирует над рассуждениями типа 2 (совещательный, аналитический) рассуждения, что приводит к неверному толкованию искусственного характера робота. Эта перспектива с двойным процессом подчеркивает этическую сложность социальных роботов при уходе за деменцией и призывы к подходам к дизайну, которые не только привлекательны, но и эпистемически уважительны.
Sosial robotların getdikcə azalmasına girdikcə, aldatma, qəsdən və ya olmamaqla bağlı narahatlıqlar diqqət yetirir. Yenə də robot dizayn süjetləri demanslı insanlarda yanlış anlayışları necə çıxara bilər və bu hisslər necə yaranır, kifayət qədər başa düşülmür. Bu geniş rəydə, demans və fiziki sosial robotlar olan insanlar arasında qarşılıqlı təsirlər üzrə 26 empirik tədqiqat araşdırdıq. Aldozlu təəssüratlara təsir göstərə biləcək dörd əsas dizayn korpusunu müəyyənləşdiririk: fizioloji əlamətlərə (məsələn, simulyasiya edilmiş nəfəs), sosial niyyətlər (e.g. İstifadəçi cavablarının tematik təhlili, demans olan insanların tez-tez bioloji, sosial və əqli imkanları, şüur ​​və illüziya arasında dinamik dəyişən robotlara bioloji, sosial və zehni imkanlara aid olduğunu göstərir. Bu tapıntılar, demans kontekstində ontoloji qavrayışın dəyişkən xarakterini vurğulayır. Robot aldatmağın mövcud tərifləri tez-tez fəlsəfi və ya davranışçı binalarda istirahət edir, lakin nadir hallarda iştirak edən idrak mexanizmləri ilə məşğul olur. Empirik olaraq əsaslandırılmış bir tərif təklif edirik: robot aldatma, tip 1 (avtomatik, heuristist) emalı, bir robotun süni xarakterinin yanlış təsvirinə səbəb olan Tip 2 (qəsdən, analitik) əsaslandırıcı olaraq üstünlük təşkil edir. Bu ikili proses perspektivi, demans baxımında sosial robotların etik mürəkkəbliyini vurğulayır və yalnız cəlbedici deyil, həm də epistemik olaraq hörmətli dizayn yanaşmalarını çağırır.
Download Full PDF

Rethink 3D Object Detection from Physical World

Authors: Satoshi Tanaka,Koji Minoda,Fumiya Watanabe,Takamasa Horibe
Published: July 2, 2025
High-accuracy and low-latency 3D object detection is essential for autonomous driving systems. While previous studies on 3D object detection often evaluate performance based on mean average precision (mAP) and latency, they typically fail to address the trade-off between speed and accuracy, such as 60.0 mAP at 100 ms vs 61.0 mAP at 500 ms. A quantitative assessment of the trade-offs between different hardware devices and accelerators remains unexplored, despite being critical for real-time applications. Furthermore, they overlook the impact on collision avoidance in motion planning, for example, 60.0 mAP leading to safer motion planning or 61.0 mAP leading to high-risk motion planning. In this paper, we introduce latency-aware AP (L-AP) and planning-aware AP (P-AP) as new metrics, which consider the physical world such as the concept of time and physical constraints, offering a more comprehensive evaluation for real-time 3D object detection. We demonstrate the effectiveness of our metrics for the entire autonomous driving system using nuPlan dataset, and evaluate 3D object detection models accounting for hardware differences and accelerators. We also develop a state-of-the-art performance model for real-time 3D object detection through latency-aware hyperparameter optimization (L-HPO) using our metrics. Additionally, we quantitatively demonstrate that the assumption "the more point clouds, the better the recognition performance" is incorrect for real-time applications and optimize both hardware and model selection using our metrics.
Высококачественная и низкая задержка 3D-обнаружения имеет важное значение для автономных систем вождения. В то время как предыдущие исследования по обнаружению 3D-объектов часто оценивают производительность на основе средней средней точности (MAP) и задержки, они обычно не позволяют решать компромисс между скоростью и точностью, такой как 60,0 MAP при 100 мс против 61,0 карты при 500 мс. Количественная оценка компромиссов между различными аппаратными устройствами и ускорителями остается неисследованной, несмотря на то, что они имеют решающее значение для приложений в реальном времени. Кроме того, они упускают из виду влияние на избегание столкновений в планировании движения, например, 60,0 карты, ведущая к более безопасному планированию движения или 61,0 карте, что приводит к планированию движения высокого риска. В этой статье мы представляем AP AP (L-AP) и AP с планом AP (P-AP) в качестве новых метрик, которые рассматривают физический мир, такой как концепция времени и физических ограничений, предлагая более полную оценку для обнаружения 3D-объекта в реальном времени. Мы демонстрируем эффективность наших метрик для всей системы автономного вождения с использованием набора данных Nuplan и оцениваем модели обнаружения трехмерных объектов, учитывая оборудование различий и ускорителей. Мы также разрабатываем современную модель производительности для обнаружения 3D-объектов в реальном времени посредством оптимизации гиперпараметрической оптимизации (L-HPO) с учетом латентности (L-HPO) с использованием наших метрик. Кроме того, мы количественно демонстрируем, что предположение «чем больше точечных облаков, тем лучше производительность распознавания» неверно для приложений в реальном времени и оптимизируют как аппаратное, так и модели, используя наши метрики.
Yüksək dəqiqlik və aşağı gecikdirici 3D obyekt aşkarlanması muxtar sürücülük sistemləri üçün vacibdir. 3D obyektin aşkarlanması üçün əvvəlki işlərin tez-tez ortalama orta dəqiqlik (xəritə) və gecikmə əsasında performansı qiymətləndirin, ümumiyyətlə, 500 ms-də 100 ms vs 61.0 xəritədə sürətlə və dəqiqlik arasında ticarətin arasındakı ticarəti həll edə bilmirlər. Real vaxt tətbiqləri üçün kritik olmasına baxmayaraq, müxtəlif aparat cihazları və sürətləndiricilər arasındakı ticarət-off ticarəti arasındakı kəmiyyət qiymətləndirilməsi araşdırılmamış olaraq qalır. Bundan əlavə, Motions planlaşdırma, məsələn, daha etibarlı hərəkət planlaşdırması və ya yüksək riskli hərəkət planlaşdırmasına aparan 61.0 xəritəyə aparan 60.0 xəritə və ya 61.0 xəritəyə səbəb olan 60.0 xəritə. Bu sənəddə, Gecikmə-AP (L-AP) və Planlaşdırma AP (P-AP), real vaxt 3D obyektinin aşkarlanması üçün daha əhatəli bir qiymətləndirmə təklif edən fiziki dünyanı anlayış kimi hesablayan yeni ölçülər və planlaşdırma aparıcı AP (P-AP) təqdim edirik. Nuplan Dataset istifadə edərək bütün muxtar sürücülük sistemi üçün ölçülərimizin effektivliyini nümayiş etdirir və cihaz fərqləri və sürətləndiricilər üçün 3D obyekt aşkarlama modellərini qiymətləndiririk. Ayrıca, ölçülərimizdən istifadə edərək gecikmə bilən hiperparametr optimallaşdırılması (L-HPO) vasitəsilə real vaxt 3D obyektinin aşkarlanması üçün ən müasir bir performans modelini inkişaf etdiririk. Bundan əlavə, kəmiyyətcə "daha çox nöqtə buludları, tanınma performansının daha yaxşı olması" fərziyyəsinin real vaxt tətbiqləri üçün səhv olduğunu və ölçülərimizdən istifadə edərək həm hardware, həm də model seçimini optimallaşdırdığını göstərir.
Download Full PDF

Sim2Real Diffusion: Learning Cross-Domain Adaptive Representations for Transferable Autonomous Driving

Authors: Chinmay Vilas Samak,Tanmay Vilas Samak,Bing Li,Venkat Krovi
Published: July 2, 2025
Simulation-based design, optimization, and validation of autonomous driving algorithms have proven to be crucial for their iterative improvement over the years. Nevertheless, the ultimate measure of effectiveness is their successful transition from simulation to reality (sim2real). However, existing sim2real transfer methods struggle to comprehensively address the autonomy-oriented requirements of balancing: (i) conditioned domain adaptation, (ii) robust performance with limited examples, (iii) modularity in handling multiple domain representations, and (iv) real-time performance. To alleviate these pain points, we present a unified framework for learning cross-domain adaptive representations for sim2real transferable autonomous driving algorithms using conditional latent diffusion models. Our framework offers options to leverage: (i) alternate foundation models, (ii) a few-shot fine-tuning pipeline, and (iii) textual as well as image prompts for mapping across given source and target domains. It is also capable of generating diverse high-quality samples when diffusing across parameter spaces such as times of day, weather conditions, seasons, and operational design domains. We systematically analyze the presented framework and report our findings in the form of critical quantitative metrics and ablation studies, as well as insightful qualitative examples and remarks. Additionally, we demonstrate the serviceability of the proposed approach in bridging the sim2real gap for end-to-end autonomous driving using a behavioral cloning case study. Our experiments indicate that the proposed framework is capable of bridging the perceptual sim2real gap by over 40%. We hope that our approach underscores the potential of generative diffusion models in sim2real transfer, offering a pathway toward more robust and adaptive autonomous driving.
Проектирование, оптимизация и проверка алгоритмов автономного вождения на основе моделирования оказались решающими для их итеративного улучшения за эти годы. Тем не менее, конечной мерой эффективности является их успешный переход от моделирования к реальности (SIM2Real). Тем не менее, существующие методы передачи SIM2REAL изо всех сил пытаются всесторонне решить, ориентированные на автономию требования балансировки: (i) кондиционированная адаптация доменов, (ii) надежная производительность с ограниченными примерами, (iii) модульность в обработке с несколькими представлениями домены и (iv) производительность в реальном времени. Чтобы облегчить эти болевые точки, мы представляем единую структуру для обучения адаптивным представлениям кросс-доменов для передаваемых автономных алгоритмов вождения SIM2REAL с использованием условных моделей скрытой диффузии. Наша структура предлагает варианты использования: (i) альтернативные модели фундамента, (ii) несколько выстрела из тонкой настройки, а также (iii) текстовые, а также подсказки изображения для картирования между данными источниками и целевыми доменами. Он также способен генерировать разнообразные высококачественные образцы при распространении между параметрами, такими как время суток, погодные условия, сезоны и домены эксплуатации. Мы систематически анализируем представленную структуру и сообщаем о наших результатах в виде критических количественных показателей и исследований абляции, а также проницательные качественные примеры и замечания. Кроме того, мы демонстрируем полезность предложенного подхода в преодолении разрыва SIM2-рита для сквозного автономного вождения с использованием тематического исследования поведенческого клонирования. Наши эксперименты показывают, что предложенная структура способна преодолевать разрыв SIM2 -рита с восприимчивом более чем 40%. Мы надеемся, что наш подход подчеркивает потенциал генеративных моделей диффузии при переносе SIM2REAL, предлагая путь к более надежному и адаптивному автономному вождению.
Bir muxtar sürücülük alqoritmlərinin simulyasiyasına əsaslanan dizayn, optimallaşdırılması və təsdiqlənməsi illər ərzində iterativ yaxşılaşdırılması üçün çox vacib olduğunu sübut etdi. Buna baxmayaraq, effektivliyin son ölçüsü onların simulyasiyadan reallığa (Sim2real) qədər uğurlu keçididir. Bununla birlikdə, mövcud sim2real transfer metodları, balanslaşdırmanın muxtariyyət yönümlü tələblərinə hərtərəfli ünvanı həll etmək üçün mübarizə aparır: (i) Birdən çox domen nümayəndəliyi ilə (ii) modulıq olan (ii) və (IV) real vaxt performansı ilə möhkəm performans. Bu ağrı nöqtələrini yüngülləşdirmək üçün Sim2real Transfer Diffuziya modellərindən istifadə edərək Sim2Real köçürülə bilən muxtar sürücülük alqoritmləri üçün çarpaz domen adaptiv nümayəndəliklərini öyrənmək üçün vahid bir çərçivə təqdim edirik. Çərçüməmizdən istifadə etmək üçün seçimlər təklif edir: (i) Alternativ təməl modelləri, (ii) bir neçə vuruşlu incə tənzimləmə boru kəməri və (iii) mətn şəklini, eləcə də görüntü verilmiş mənbə və hədəf sahələri arasında xəritəçəkmə üçün göstəriş verir. Günün, hava şəraiti, fəsillər və əməliyyat dizayn domenləri kimi parametr boşluqları arasında yayıldıqda müxtəlif yüksək keyfiyyətli nümunələr yarada bilər. Təqdim olunan çərçivəni sistematik olaraq təhlil edirik və tapıntılarımızı kritik kəmiyyət ölçümləri və ablasiya tədqiqatları şəklində, həm də dərin keyfiyyət nümunələri və qeydlər şəklində bildiririk. Bundan əlavə, Davranış klonlama qutusu işindən istifadə edərək son-sona qədər muxtar sürücülük üçün Sim2real boşluğunun yanında təklif olunan yanaşmanın xidmət qabiliyyətini nümayiş etdiririk. Təcrübələrimiz, təklif olunan çərçivənin anda Sim2real boşluğunu 40% -dən çoxunu bağlamağa qadir olduğunu göstərir. Ümid edirik ki, yanaşmamız Sim2real transferində, daha sağlam və uyğunlaşdırıcı muxtar sürücülük istiqamətində bir yol təklif edən nəsil diffuziya modellərinin potensialını vurğulayır.
Download Full PDF

Control-Optimized Deep Reinforcement Learning for Artificially Intelligent Autonomous Systems

Authors: Oren Fivel,Matan Rudman,Kobi Cohen
Published: July 2, 2025
Deep reinforcement learning (DRL) has become a powerful tool for complex decision-making in machine learning and AI. However, traditional methods often assume perfect action execution, overlooking the uncertainties and deviations between an agent's selected actions and the actual system response. In real-world applications, such as robotics, mechatronics, and communication networks, execution mismatches arising from system dynamics, hardware constraints, and latency can significantly degrade performance. This work advances AI by developing a novel control-optimized DRL framework that explicitly models and compensates for action execution mismatches, a challenge largely overlooked in existing methods. Our approach establishes a structured two-stage process: determining the desired action and selecting the appropriate control signal to ensure proper execution. It trains the agent while accounting for action mismatches and controller corrections. By incorporating these factors into the training process, the AI agent optimizes the desired action with respect to both the actual control signal and the intended outcome, explicitly considering execution errors. This approach enhances robustness, ensuring that decision-making remains effective under real-world uncertainties. Our approach offers a substantial advancement for engineering practice by bridging the gap between idealized learning and real-world implementation. It equips intelligent agents operating in engineering environments with the ability to anticipate and adjust for actuation errors and system disturbances during training. We evaluate the framework in five widely used open-source mechanical simulation environments we restructured and developed to reflect real-world operating conditions, showcasing its robustness against uncertainties and offering a highly practical and efficient solution for control-oriented applications.
Глубокое обучение подкреплению (DRL) стало мощным инструментом для сложного принятия решений в области машинного обучения и ИИ. Однако традиционные методы часто предполагают совершенное выполнение действий, упуская из виду неопределенности и отклонения между выбранными действиями агента и фактическим ответом системы. В реальных приложениях, таких как робототехника, мехатроника и сети связи, несоответствия выполнения, возникающие в результате динамики системы, аппаратных ограничений и задержки, могут значительно снизить производительность. Эта работа достигает искусства путем разработки новой, оптимизированной управления структурой DRL, которая явно моделирует и компенсирует несоответствия выполнения действий, что в значительной степени упускается из виду в существующих методах. Наш подход устанавливает структурированный двухэтапный процесс: определение желаемого действия и выбор соответствующего управляющего сигнала для обеспечения надлежащего выполнения. Он обучает агента во время учета несоответствий действий и исправлений контроллера. Внедряя эти факторы в учебный процесс, агент ИИ оптимизирует желаемое действие как фактического контрольного сигнала, так и предполагаемого результата, явно рассматривая ошибки выполнения. Этот подход повышает надежность, обеспечивая, чтобы принятие решений оставалось эффективным в реальной неопределенности. Наш подход предлагает значительный прогресс для инженерной практики, преодолевая разрыв между идеализированным обучением и реализацией реального мира. Он оснащен интеллектуальными агентами, работающими в инженерных средах с возможностью предвидеть и корректировать ошибки в действии и нарушения системы во время обучения. Мы оцениваем структуру в пяти широко используемых средах механического моделирования с открытым исходным кодом, которые мы реструктурировали и разработали, чтобы отразить реальные условия работы, демонстрируя ее устойчивость в отношении неопределенности и предлагая очень практичное и эффективное решение для контрольных применений.
Dərin möhkəmləndirmə öyrənməsi (DRL) maşın öyrənmə və AI-də mürəkkəb qərar qəbulu üçün güclü bir vasitə halına gəldi. Bununla birlikdə, ənənəvi üsullar tez-tez bir agentin seçilmiş hərəkətləri və faktiki sistem cavabı arasındakı qeyri-müəyyənlik və sapmalara baxmadan mükəmməl hərəkət edamı edir. Robototexnika, mekatronika və rabitə şəbəkələri kimi real dünya tətbiqlərində, sistem dinamikası, hardware məhdudiyyətlərindən və gecikmə nəticəsində yaranan icraçı uyğunsuzluqlar performansını əhəmiyyətli dərəcədə pisləşdirə bilər. Bu iş AI-ni açıq şəkildə modelləşdirən və fəaliyyətlərin icrası uyğunsuzluğu, mövcud metodlarda gözdən yayınan bir roman idarəetmə və kompensasiya edən bir roman idarəetmə optimallaşdırılmış DRL çərçivəsini inkişaf etdirərək inkişaf edir. Bizim yanaşmamız strukturlaşdırılmış iki mərhələli bir proses qurur: istədiyiniz hərəkətin müəyyənləşdirilməsi və düzgün icrasını təmin etmək üçün müvafiq idarəetmə siqnalını seçmək. Fəaliyyət uyğunsuzluqları və nəzarətçi düzəlişləri üçün mühasibat uçotu zamanı agentə kömək edir. Bu amilləri təlim prosesinə daxil etməklə, AI ADG, həm həqiqi nəzarət siqnalı, həm də nəzərdə tutulan nəticələrə görə istənilən hərəkəti optimallaşdırır, icra səhvlərini açıq şəkildə nəzərdən keçirir. Bu yanaşma, qərar qəbulunun real dünya qeyri-müəyyənliyi altında təsirli qalmasını təmin edərək möhkəmliyi artırır. Bizim yanaşmamız idealizə edilmiş öyrənmə və real dünya icrası arasındakı boşluğu aradan qaldırmaqla mühəndislik təcrübəsi üçün əsaslı bir irəliləyiş təklif edir. Mühəndis mühitində işləyən ağıllı agentləri, məşq zamanı hərəkətə keçən səhvləri və sistem pozuntularını gözləmək və tənzimləmək imkanı ilə işləyən ağıllı agentləri təchiz edir. Real-dünya əməliyyat şəraitini əks etdirmək, qeyri-müəyyənliklərə qarşı möhkəmliyini göstərmək və idarəetmə yönümlü tətbiqlər üçün yüksək praktik və səmərəli bir həll təklif etmək üçün yenidən qurulduğumuz və inkişaf etdirdiyimiz beş geniş mənbəli mexaniki simulyasiya mühitində çərçivəni qiymətləndiririk.
Download Full PDF

Mechanical Intelligence-Aware Curriculum Reinforcement Learning for Humanoids with Parallel Actuation

Authors: Yusuke Tanaka,Alvin Zhu,Quanyou Wang,Dennis Hong
Published: July 2, 2025
Reinforcement learning (RL) has enabled significant advances in humanoid robot locomotion, yet most learning frameworks do not account for mechanical intelligence embedded in parallel actuation mechanisms due to limitations in simulator support for closed kinematic chains. This omission can lead to inaccurate motion modeling and suboptimal policies, particularly for robots with high actuation complexity. This paper presents an end-to-end curriculum RL framework for BRUCE, a kid-sized humanoid robot featuring three distinct parallel mechanisms in its legs: a differential pulley, a 5-bar linkage, and a 4-bar linkage. Unlike prior approaches that rely on simplified serial approximations, we simulate all closed-chain constraints natively using GPU-accelerated MJX (MuJoCo), preserving the hardware's physical properties during training. We benchmark our RL approach against a Model Predictive Controller (MPC), demonstrating better surface generalization and performance in real-world zero-shot deployment. This work highlights the computational approaches and performance benefits of fully simulating parallel mechanisms in end-to-end learning pipelines for legged humanoids.
Подкрепление обучения (RL) обеспечило значительные успехи в локомоции гуманоидов, однако большинство рамках обучения не учитывают механический интеллект, встроенный в механизмы параллельного привода из -за ограничений в поддержке симулятора для закрытых кинематических цепей. Это упущение может привести к неточному моделированию движения и субоптимальной политике, особенно для роботов с высокой сложностью приступа. В этой статье представлена ​​сквозная учебная программа RL для Брюса, гуманоидного робота размером с ребенка с тремя отдельными параллельными механизмами на ногах: дифференциальный шкив, 5-барная связь и 4-барная связь. В отличие от предыдущих подходов, которые зависят от упрощенных последовательных приближений, мы имитируем все ограничения с замкнутой цепью, изначально, используя MJX с ускорением GPU (MUJOCO), сохраняя физические свойства оборудования во время обучения. Мы сравниваем наш подход RL с модельным прогнозирующим контроллером (MPC), демонстрируя лучшее обобщение поверхности и производительность в развертывании с нулевым выстрелом в реальном мире. Эта работа подчеркивает вычислительные подходы и преимущества производительности полностью имитации параллельных механизмов в сквозных учебных трубопроводах для ногах-гуманоидов.
Gücləndirmə öyrənməsi (RL), humanoid robot lokomotivində əhəmiyyətli irəliləyişlər edib, lakin öyrənmə çərçivələri, hələ də öyrənilmiş kinematic zəncirlər üçün simulyator dəstəyi məhdudiyyətləri səbəbiylə paralel hərəkət mexanizmlərinə daxil edilmiş mexaniki kəşfiyyat üçün hesab etmir. Bu buraxılış, xüsusən yüksək aktı mürəkkəbliyi olan robotlar üçün qeyri-dəqiq hərəkət modelləşdirmə və suboptimal siyasətinə səbəb ola bilər. Bu sənəd, Bruce üçün sona qədər son dərəcə kurikulum RL hazırlayır, ayaqlarında üç fərqli paralel mexanizm olan bir uşaq ölçülü bir humanoid robotu təqdim edir: bir diferensial bir kasnası, 5 bar bir əlaqə və 4 bar bağlantısı. Sadələşdirilmiş serial yaxınlaşmalara güvənən əvvəlcədən yanaşmalardan fərqli olaraq, təlim zamanı cihazın fiziki xüsusiyyətlərini qoruyan GPU-da sürətlənmiş MJX (MujoCo) istifadə edərək, bütün qapalı zəncir məhdudiyyətlərini yerinə yetiririk. Real dünyanın sıfır vuruşu yerləşdirilməsində daha yaxşı səth ümumiləşdirmə və performans nümayiş etdirən bir model proqnozlaşdırma nəzarətçisinə (MPC) qarşı yanaşmamızı bizə göstərdik. Bu iş, ayaqlı humanoidlər üçün son dərəcə öyrənmə boru kəmərlərində paralel mexanizmləri tam simulyasiya edən hesablama yanaşmalarını və performans faydalarını vurğulayır.
Download Full PDF

Welcome to our Blog — a platform for sharing insights, tutorials, community stories, and discussions about technology, innovation, and more. Join the conversation and stay connected with our vibrant tech community.