RT-1: Robotics Transformer for Real-World Control at Scale

논문/Vision Language Action (VLA)

RT-1: Robotics Transformer for Real-World Control at Scale

Dogun Kim 2025. 7. 24. 10:29

RT-1: Robotics Transformer for Real-World Control at Scale

RT-1: Robotics Transformer for Real-World Control at Scale

By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been d

arxiv.org

Smal task-specific 데이터만 학습해서 딱 그 데이터에 맞는 테스크만 할 수 있던 로보틱스 분야에 Transfer learning을 도입하려한 논문이다.

0. Abstract

로보틱스 분야의 Transfer Learning

컴퓨터 비전, 자연어처리 분야의 현대 머신러닝 모델들은 크고 다양하며 1) 특정 작업에 국한되지 않은 task-agnostic 데이터 셋에서 사전학습한 후 2) 특정 다운스트림 Task로의 Transfer learning을 통해 소량의 작업별 데이터만으로도 높은 성능을 내거나 더 나아가 zero-shot 추론까지 가능하다.

하지만 모델의 일반화 능력이 특히 중요한 로보틱스 분야에서는 이 때까지 현실 로봇 데이터 수집의 어려움으로 이 Transfer Learning이 제대로 적용된 적이 없었다. 2022년 기준...

General robotic model이 성공적으로 개발되는 조건

논문에서는 일반화 성능을 갖춘 범용 로봇을 만들기 위해서는 다음과 같은 두 조건이 만족되어야 한다고 주장한다.

1) open-ended task-agnostic training
단일 작업에 특화된 학습이 아니라, 현대 머신러닝 모델들이 주로 사용하는 열린 태스크들에 대해 배우는 방식을 도입해야 한다는 것이다. 즉 실제 로봇의 범용적인 데이터가 필요하고 이를 학습해야한다는 것이다.
-> 해당 연구는 실제 로봇이 다양한 현실 작업을 수행하는 대규모 데이터를 수집하여 이 효과를 검증한다.

2) high-capacity architectures
위의 큰 데이터를 흡수할 수 있는 충분히 큰 모델 구조가 있어야 범용적인 로봇 정책 학습이 가능하다는 것이다.
-> 해당 연구는 Robotics Transformer((RT)) 모델 계열을 제안한다.

https://robotics-transformer1.github.io/

RT-2

Project page for RT-2

robotics-transformer.github.io

1. Introduction

기존 로봇 학습의 한계점 # 특정 데이터만 학습해서 특정 일만 잘한다..

최근 몇 년 사이에 비전, NLP, 그리고 다른 여러 분야에서는 작은 단일 작업 데이터와 모델에서 벗어나, 넓고 다양한 데이터셋을 기반으로 pre-trained 범용 대규모 모델로의 전환이 일어났다. ex) VIT, CLIP... 이러한 모델들의 성공 열쇠는 바로 1) 다양한 상황과 작업을 반영한 open-ended task-agnostic training과 2) 대규모 데이터로부터 지식을 흡수할 수 있는 고용량 아키텍처의 결합에 있다.

하지만 아직까지 모방 학습이나 강화 학습으로 구현된 End-to-end robotic learning은 단일 작업 혹은 다중 작업 형태의 task-specific 데이터 수집하고 이것만을 학습하게 된다. 이는 매우 비효율적이고 일반화가 어렵다.

ex) 서랍을 여는 작업을 위해 로봇이 서랍을 여는 장면만 수백번을 찍어서 그 것만을 학습해야하는 것이다..

로봇 분야에서 pre-trained 범용 대규모 모델로의 전환이 필요한 이유

1) 로봇 데이터셋은 엔지니어링이 많이 들거나 고비용의 시연이 필요하다.
> 데이터를 한 번 모으는 데도 VR 시연, 센서 연동, 수동 시정 등 많은 비용이 든다. 사람이 직접 수백 번 시연해야 한다면 데이터 확보 자체가 병목이다.

2) 일반화 성능 확보
> 특정 데이터만 학습해서 특정 일만 학습하는 것은 그 일은 잘 할 수 있겠지만, Task가 조금만 바뀌어도 적용할 수 없다. 즉 일반화 성능이 전혀 확보되지 않는 것이다...

논문의 핵심 문제 의식

그래서 해당 연구는 다음과 같은 질문을 던진다.

1) 다양한 로봇 작업이 포함된 데이터로, 하나의 강력한 다중 작업 백본 모델을 훈련할 수 있는가?

2) 이렇게 학습된 로봇 모델이 새로운 작업, 환경, 객체에 대한 zero-shot generalization를 가질 수 있는가?

해당 연구에서 이 두 가지 질문을 대답하기 위해서 1) 적절한 데이터셋 구성, 2) 적절한 모델 설계을 고려한다.

적절한 데이터셋 구성 개요

좋은 일반화 성능을 얻기 위해서는 단순히 데이터 양이 많기만 해서는 안 되고, 다양한 환경과 작업 유형을 포괄하는 데이터셋이 필요하다. 또한 데이터셋 내의 각 작업들이 서로 구조적으로 연결되어 있어야, 모델이 이들 간의 공통된 패턴을 발견하고 이를 새로운 작업에 조합해 적용할 수 있다.

이를 위해 저자들은 실제 로봇 13대를 활용해 17개월에 걸쳐 약 13만 개의 시연 episode을 수집했고, 이 데이터는 700개 이상의 다양한 작업으로 구성되어 있다. 이 데이터셋을 기반으로, RT-1이 얼마나 잘 일반화하는지를 분석하기 위해 다양한 ablation 실험도 함께 수행한다.

적절한 모델 설계 개요

다중 작업을 수행하는 로봇 정책을 효과적으로 학습하기 위해서는 높은 표현력을 가진 고용량 모델이 필요하다. 이 때 다양한 작업이 언어 명령 language instruction으로 주어지므로 Transformer를 베이스로 채택한다. 다만 실시간 제어를 위해서는 연산 효율성도 고려해야 하므로, 시각·언어·행동 신호를 토큰 단위로 압축해 입력하는 RT-1 아키텍처를 설계하였다.

2. Related Work

Transformer-based policies for robotic control.

최근 Transformer를 활용한 로봇 정책 연구가 활발하게 진행되고 있으며, 특히 언어 명령을 조건으로 활용해 다양한 작업에 일반화하려는 시도가 이어지고 있다. RT-1은 이러한 흐름을 확장해, 언어와 시각 정보를 결합해 로봇 행동을 생성하는 문제를 시퀀스 모델링 관점에서 다룬다. 이는 게임, 시뮬레이션 로봇, 조작 환경 등에서의 Transformer 성공 사례들에 기반하며, RT-1은 향후 다양한 로봇 형태나 입력 모달리티로의 일반화 가능성까지 열어두고 있다.

기존 현실 매니퓰레이션 연구의 한계와 RT-1의 기술적 목표

현실 환경에서 Transformer 기반 로봇 모델을 적용한 사례들은 존재하지만, 대부분은 작업당 소규모 시연에 기반하거나 매우 제한된 작업만 다루며, 실제 환경 변화에 대한 일반화 성능은 미흡하다. Gato와 Behavior Transformer처럼 범용성을 주장하는 모델도 사실상 단일 작업 수준에 머무른다. 이에 비해 RT-1은 고용량 모델이면서도 실시간 제어가 가능한 계산 효율성을 달성하는 아키텍처 설계를 목표로 한다.

전통적인 로봇 학습 기반 위에 놓인 RT-1

Transformer를 활용한 고용량 정책 학습은 비교적 최근의 시도지만, 로봇 분야에서는 그보다 훨씬 오래전부터 다중 작업 학습과 언어 조건 학습이 이루어져 왔다. 특히 grasping의 일반화, 언어-비전-제어를 결합한 파이프라인과 종단간 접근 방식, goal-reaching 기반의 정책 학습, 다양한 작업을 포괄하는 시연 기반 데이터 수집 등이 주요 흐름이었다. RT-1은 이처럼 누적된 연구 전통을 계승하며, 더 큰 스케일과 다양한 작업/장면을 포함하는 실험을 통해 multi-task, language-conditioned 로봇 학습의 가능성을 확장하고, 이를 실현할 수 있는 아키텍처 설계도 함께 제시한다.

3. Preliminaries

Robot learning

이 논문은 언어 지시와 시각 입력으로부터 로봇 행동을 학습하는 문제를 다룬다. 순서는 다음과 같다.

1) 에이전트가 시점 t = 0에서 언어 지시 (i)와 초기 이미지 observation (x_0)를 입력 받는다.
2) 두 입력을 조건으로 하는 action distribution 즉 Policy에서 t = 0 시점의 액션을 샘플링한다.
3) 1, 2 step을 반복하며 모든 타임 스텝에 대한 액션을 샘플링한다.

Episode

각 에피소드는 해당 지시를 잘 수행했는지 여부에 따라 이진 보상 r = {0, 1}을 받는다.

다양한 instruction, 초기 상태, 전이 동역학 분포에 대해 기대 보상을 최대화하는 정책 π를 학습하는게 목표이다.

Transformers

정책 π는 Transformer 모델로 파라미터화된다. RT-1에서는 언어 지시 (i)와 이미지 시퀀스 {x_j}를 입력 시퀀스 {ξ_h}로 변환하고, 행동 시퀀스를 {y_k}로 매핑하여 Transformer가 이 둘 사이의 대응을 학습하도록 한다.

같은 time의 지시, 이미지를 같은 time의 행동 맵핑. 이 대응관계를 Transformer가 학습하게 된다.

Imitation learning

RT-1은 imitation learning, 특히 behavioral cloning을 통해 학습된다. 다음과 같은 성공적인 에피소드 N개로 학습될 것이다

모델은 주어진 언어 instruction과 이미지 시퀀스를 입력받아, 시연된 행동 (a_t)의 log likelihood를 최대화하도록 학습되며, 이는 곧 예측 행동과 시연 행동 사이의 차이를 줄이는 방식이다.

4. System Overview

연구 목표 및 실험 환경

연구의 목적은 대규모 데이터를 흡수하고 다양한 환경에서 일반화할 수 있는 범용 로봇 학습 시스템을 구축하고 검증하는 것이다. 이를 위해 Everyday Robots 플랫폼을 사용하며, 이 로봇은 7자유도 팔, 두 손가락 그리퍼, 이동 베이스를 갖추고 있다. 데이터 수집과 성능 평가를 위해 총 세 개의 주방 환경을 사용한다: 두 개는 실제 사무실 부엌이고, 하나는 이들을 본떠 구축한 훈련용 환경이다. 훈련 환경은 단순화된 조리대로 구성되어 대규모 데이터 수집에 최적화되어 있고, 실제 환경은 조명, 배경, 구조에서 다양성을 갖는다. 저자들은 이러한 상이한 환경에 걸쳐 정책의 수행 능력과 일반화 능력을 평가한다.

시연 데이터와 지시어 처리 방식

훈련 데이터는 인간이 시연한 episode들로 구성되어 있으며, 각 episode에는 해당 행동을 설명하는 텍스트 instruction이 주석으로 포함된다. 지시어는 동작 스킬과 객체 이름 단위로 분리되어 분류된다. 전체 데이터셋은 약 13만 개 이상의 시연과 700개 이상의 고유 지시문을 포함하며, 매우 다양한 객체에 대해 학습된다. 자세한 수집 방식은 섹션 5.2에서 다루어진다.

RT-1 네트워크 아키텍처 개요

이 시스템의 핵심 기여는 RT-1 이라는 네트워크 아키텍처로, 대규모 데이터를 흡수하고 일반화하며 실시간 행동 출력을 지원한다. RT-1은 이미지 시퀀스와 자연어 지시어를 입력으로 받아 시점별로 행동을 출력한다.

1) 이미지와 텍스트는 ImageNet으로 사전학습된 CNN을 통해 처리되며, instruction은 FiLM 조건화 방식으로 입력된다.
cf. 텍스트를 이피션넷으로..? 생각이 들 수 있지만 레이어 사이 사이에 뭐 어떻게 넣는 듯 하다 ㅇㅇ.. 뒤에서 확인하자.

2) Token Learner를 사용하여 압축된 시각 토큰 집합을 생성한다.

3) Transformer가 이 토큰들에 attention을 수행해 이산 행동 토큰을 출력한다.
> 팔의 제어: x, y, z, roll, pitch, yaw, gripper open 총 7차원
> 베이스 이동: x, y, yaw 총 3차원
> 모드 전환: arm, base, terminate 총 3차원, 각 0 or 1 이산값

5. RT-1: Robotics Transformer

해당 파트에서는 RT-1 모델 구조가 이미지와 언어 지시를 받아 어떻게 Action token을 예측하는지 알아볼 것이다. 그리고 이 파이프라인이 실시간 제어를 위한 실행 속도를 어떻게 확보하는지 알아보고, 학습 데이터에 대해 설명할 것이다.

5-1. Model

RT-1 모델 구조는 Transformer를 기반으로 하며, 이미지 시퀀스와 언어 지시를 입력으로 받아 Action Token을 직접 출력한다.

해당 모델 구조 위에서부터 순서대로 구성 요소를 설명해보겠다.

Instruction and image tokenization ((1))

RT-1 구조에서 이미지와 언어 지시를 트렌스포머에 넣을 토큰으로 만드는 과정은 FiLM이 삽입된 EfficientNet-B3를 통해 수행되며, 전체 1,600만 개의 파라미터를 갖고, 26개의 MBConv 블록과 FiLM 레이어로 구성되어 있다. 이 구조는 최종적으로 81개의 비전-언어 토큰을 출력한다.

이미지 토큰 생성

6장의 300×300 이미지를 EfficientNet-B3에 통과시켜

각 이미지마다 9×9×512의 피처맵을 생성

이를 81개의 1×1×512 벡터로 평탄화 → 81개 비전 토큰 생성 # 이미지 한 장에 대한
→ 아직 비전-언어 토큰이 아님. 아래 과정을 중간 중간 넣어서 언어 정보 넣어야함.

지시어 조건화 FiLM

지시어는 Universal Sentence Encoder로 512차원 벡터로 임베딩

이 임베딩으로 각 CNN 채널에 곱해질 γ 스케일, β 이동 값을 생성
→ MLP인 FiLM Layer를 통해 생성함

CNN 중간 피처맵에 x↦((1+γ))x+β 방식으로 적용
→ 지시어에 따라 중요한 이미지 채널을 강조

사전학습 안정성 보존

γ, β를 만드는 MLP를 0으로 초기화
→ 이러면 초기 MLP output은 0임. 그렇기에 위에서 1+γ를 곱해줘 기존 피쳐맵을 유지..

학습 초기에는 FiLM이 단순히 identity처럼 작동

cf. FiLM layer....?

언어 임베딩을 인풋 FiLM layer를 통해 γ, β를 구하여, 피처맵에 Affine 연산을 해주었으므로 비전-언어 토큰이라고 할 수 있다. 필름 레이어가 좀 헷갈리는데 나도 아직 잘은 모르겠다..

FiLM: Visual Reasoning with a General Conditioning Layer

뭐 이미지는 전혀 레퍼런스로 사용하지 않았는데 어떻게 언어 임베딩만 MLP에 태워서 중요한 피쳐맵 지점을 강조하는거지..? 이 논문을 좀 자세하게 읽어봐야겠다... 그냥 여기서는 아 이렇게 피쳐맵 중에서 언어 지시와 관련된 걸 강조했다 생각하고 넘어가자..

Token Learner ((2))

이미지 한 장에 대한 비전-언어 토큰이 81개 생겼다. 한 토큰의 길이는 512이다. 이 81개의 토큰을 전부 Transformer에 때려넣는건 비효율적이기에 element-wise attention 방식으로 많은 수의 토큰을 적은 수의 토큰으로 매핑하는 모듈 Token Learner를 도입한다. 이를 통해 정보 기반으로 중요한 이미지 토큰을 soft하게 선택할 수 있고, 이후 Transformer에는 이 중요한 토큰 조합만 전달된다.

-> FiLM-EfficientNet을 통해 생성된 81개의 비전 토큰이 8개의 최종 토큰으로 축소되어 Transformer에 전달된다.

cf. 이미지 한 장에 대해서 8개의 비전-언어 토큰이 생겼다. 이미지는 6개 넣으니까 48개 토큰이 존재할 것이다 ㅇㅇ..

cf2. Transforemer는 스퀘어 계산량을 보인다. 그래서 토큰이 길어지면 연산량이 매우 커진다.

Transformer ((3))

각 이미지당 8개 토큰이고 총 이미지는 6개이므로 결합하면 총 48개의 토큰이 되고, 이는 position encoding과 함께 Transformer에 입력된다. 이 Transformer는 decoder-only 시퀀스 모델로, 8개의 self-attention 레이어와 1,900만 개의 파라미터를 가지며 행동 토큰을 출력한다.

Action tokenization ((4))

Action token에는 총 11개의 차원이 존재한다. 이 각각의 차원을 0~255 값으로 매핑해서 256개의 bin으로 이산화한다. ex) 0 -> 0 , 1 -> 255 ; 트랜프포머가 각 차원에 대해서 256개의 클래스 중 하나를 예측하게 하는 것이다.

Loss

Transformer를 로봇에 사용할 때 주로 사용되는 Cross entropy를 사용한다. 현재 타임 step보다 이후 위치의 토큰은 접근하지 못하도록 Causal Masking 또한 사용한다.

Inference Speed # 실시간성

로봇 제어 시스템은 실시간으로 작동해야하므로 RT-1 또한 빠르고 안정적인 추론 속도를 요구받는다. 이를 위해 최소 3Hz의 제어 주파수를 유지해야 하고, 시스템의 다른 지연 요소들을 고려할 때 모델 자체의 추론 시간은 100ms 이하로 제한되어야 한다.

RT-1의 실시간성을 위해 다음과 같은 제약을 준다.
1) 사전 학습된 EfficientNet이 생성하는 토큰 수를 TokenLearner를 사용해 줄인다.
-> 이미 설명했지만.. 실시간성을 위해서 있는거다 ㅇㅇ...

2) 이 토큰들을 한 번만 계산하고, 다음 타임스텝의 오버랩되는 윈도우에서는 해당 토큰을 재사용한다.
-> 똑같은거 계속 보는 등 비슷한 상황에서는 토큰 계속 뽑지 말자는거다 ㅇㅇ..

이 두 가지 기법은 각각 모델 추론 속도를 2.4배, 1.7배 빠르게 만든다.

5-2. Data

데이터 수집 개요

RT-1의 핵심 목표는 높은 성능과 일반화, 그리고 다양한 환경에서의 견고성을 확보하는 것이다. 이를 위해, 다양한 작업·객체·환경을 아우르는 대규모 로봇 시연 데이터셋이 수집되었다. 총 13대의 로봇이 17개월간 수집한 13만 개의 시연으로 구성되며, 대부분은 사무실 주방 환경에서 촬영된 실제 작업이다.

스킬과 지시어 정의

task의 정의가 논문마다 다르기 때문에 이 논문은 "지시어 instruction" 단위를 기준으로 Task을 분류한다. 각 instruction은 하나의 동사와 하나 이상의 명사로 구성된다. 이 지시어들을 사용된 동사 기준으로 그룹화한 것이 바로 skill이며, 총 744개 instruction이 9가지 skill로 분류된다.

스킬 다양성과 확장성

수집된 스킬은 픽업, 배치, 서랍 열기/닫기, 물건을 올려세우기, 쓰러뜨리기, 냅킨 뽑기, 병 열기 등 다양한 동작을 포함한다. 특히 픽업 작업에 대해서는 객체 다양성 확보를 위해 다양한 물체를 수집하였다. 실험 설계에 따라 새로운 지시어가 지속적으로 추가되었고, 특정 스킬에 국한되지 않기 때문에 시스템은 점진적으로 확장 가능하다.

6. Experiments

RT-1이 얼마나 다양한 작업을 수행하고 일반화할 수 있는지, 그리고 이 성능이 데이터 종류나 양, 모델 설계 결정에 따라 어떻게 달라지는지를 다섯 가지 핵심 질문을 통해 평가한다

1) RT-1이 훈련 지시어와 새로운 작업/객체/환경에 잘 일반화하는가? ((6-2))

2) 시뮬레이션이나 다른 로봇에서 수집된 데이터를 포함해 성능을 더 향상시킬 수 있는가? ((6-3))

3) RT-1은 복잡한 장기 long-horizon 작업에 잘 일반화하는가? ((6-4))

4) 데이터 양과 다양성이 일반화 성능에 어떤 영향을 주는가? ((6-5))

5) 모델 설계에서 어떤 결정들이 실제 성능과 일반화에 영향을 주는가?

6-1. Experimental Setup

실험은 총 3개의 환경에서 진행된다. 훈련 환경은 단순한 조리대 중심으로 구성되고, 실제 환경은 조명·배경·기하구조가 다양하다. 이 환경들에서 훈련된 정책은 여러 평가 항목에 따라 테스트된다.

1) Seen tasks: 학습에 사용된 지시어로 평가하되, 물체 배치·조명·시간 등은 달라짐 → 일반화 필요

2) Unseen tasks: 학습에는 포함되었지만 새로운 조합의 객체·지시어로 구성된 21개 지시어로 테스트

3) Robustness: 30개의 distractor robustness 테스트 + 22개의 background robustness 테스트
ex) 다른 조리대 표면, 다른 부엌

4) Long-horizon: 15개의 장기 지시어를 SayCan 시스템을 통해 단계별로 자동 분해하여 실행
cf. 각 지시어는 약 10단계로 구성

6-2. Generalize To New Tasks

RT-1은 Gato, BC-Z, BC-Z XL과 비교해 학습된 지시(97%), 처음 보는 지시(76%), distractor(83%), 배경 변화(59%) 상황 모두에서 성능이 가장 높았다. 특히 자연어 기반의 조건화가 새로운 지시 조합에 강한 일반화를 가능하게 했다

실제 사무실 주방에서의 복잡한 작업 시나리오에서도 RT-1은 다양한 분포 변화 L1~L3 상황에서 가장 높은 성공률을 기록하며, 실세계 배치 가능성을 입증했다. Fig. 5, 10, 11, 12는 각 실험 조건에 대한 성공 예시를 시각적으로 보여준다.

6-3. 시뮬레이션이나 다른 로봇에서 수집된 데이터를 포함해 성능을 더 향상시킬 수 있는가?

시뮬레이션 데이터만 본 객체·지시에서도 RT-1은 도메인 전이 성능을 보이며 실제 평가에서 87%까지 성공률을 달성. 시뮬에서만 본 지시도 7% → 33%로 상승.

RT-1은 Kuka 로봇 데이터까지 흡수 가능. EDR+Kuka 혼합 모델은 새로운 bin-picking 과제에서 성능이 22% → 39%로 향상. 두 로봇 간 모폴로지 차이가 있음에도, 과거 경험을 통해 교차 일반화가 가능함을 보임.

6-4. RT-1은 복잡한 장기 long-horizon 작업에 잘 일반화하는가?

SayCan 기반 초장기long-horizon 과제에서 RT-1은 Kitchen1에서 실행 성공률 67%로 가장 뛰어남. 더 어려운 Kitchen2에서도 성능 저하 없이 유일하게 성공했으며, 다른 모델들은 0~13% 수준에 그침. RT-1은 최대 50단계 과제도 안정적으로 수행.

6-5. 데이터 양과 다양성이 일반화 성능에 어떤 영향을 주는가?

Table 7은 RT-1의 성능과 일반화 능력이 데이터 양보다 데이터 다양성에 더 크게 의존한다는 점을 보여준다. 데이터 양을 줄였을 때보다, 다양한 작업 종류를 제거했을 때 성능 저하가 더 크게 나타났다. 예를 들어 전체 데이터의 97%를 유지하되 작업 종류를 25% 줄인 경우, 데이터 양을 절반으로 줄인 것과 비슷한 수준의 일반화 성능 저하가 발생했다. 결론적으로 로봇 학습에서는 양보다 다양한 작업이 더 중요하다.

7. Conclusions, Limitations, and Future Work

RT-1은 13대의 로봇으로 17개월간 수집한 13만 개 이상의 시연 데이터를 기반으로 학습한 로봇 학습 모델로, 데이터의 양과 다양성에 따라 확장 가능하며, 700개 이상의 지시를 97% 성공률로 수행하고 새로운 작업·객체·환경으로의 일반화도 뛰어나다. RT-1은 시뮬레이션 및 다른 로봇 형태에서 수집된 이질적 데이터도 원래의 성능을 유지한 채 흡수하고, SayCan 프레임워크를 통해 최대 50단계에 이르는 장기 작업도 성공적으로 수행한다.

그러나 imitation learning 기반이라 시연자를 초월하는 성능을 내기 어렵고, 완전히 새로운 동작에 대한 일반화는 불가능하며, 현재는 정밀 조작보다는 단순한 작업에 초점이 맞춰져 있다.

-> 실제로 이후 RT-2에서는 LLM이 내재된 모델 구조를 통해 명시적 시연 없이도 새로운 지시의 조합을 생성하거나 상황에 맞는 계획을 도출할 수 있도록 확장되었다.

향후 연구에서는 비전문가도 로봇을 학습시킬 수 있는 데이터 수집/프롬프트 방법 개발, 환경 다양성 확장을 통한 강인성 향상, scalable attention과 memory를 통한 반응 속도와 문맥 유지력 향상을 계획한다. 또한 RT-1의 코드가 오픈소스로 공개되어 공동연구 기반을 마련하였다.

'논문 > Vision Language Action (VLA)' 카테고리의 다른 글

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (1)	2025.07.24
논문 리뷰) Vision-Language-Action Models: Concepts, Progress, Applications and Challenges - 2 (3)	2025.07.21
논문 리뷰) Vision-Language-Action Models: Concepts, Progress, Applications and Challenges - 1 (0)	2025.07.17

현재글RT-1: Robotics Transformer for Real-World Control at Scale

Dogun Kim

Dept of AI, University of Seoul

강화학습, 자율주행, world model, giou, #computervision #cameraprojection #projectivetransformation #weakperspective #orthographicprojection #affineprojection #homocoordinates #calibrationmatrix #vanishingpoint, nuscenes 데이터셋, 자율주행 데이터셋, think2drive, planning algorithm, carla v2, pointnet++, waymo 데이터셋, 자율주행 평가 지표, kitti 데이터셋, PointNet, retinaface, model-based rl, 3d bounding box, 3d 객체 검출, reinforcement learning,

Today :
Yesterday :

Dogun Kim