RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

논문/Vision Language Action (VLA)

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Dogun Kim 2025. 7. 24. 16:57

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both

arxiv.org

RT-1은 Imitation learning 기반이라 시연자를 초월하는 성능을 내기 어렵고, 완전히 새로운 동작에 대한 일반화는 불가능하며, 현재는 정밀 조작보다는 단순한 작업에 초점이 맞춰져 있다는 단점이 존재했다. RT-2 논문은 이러한 단점을 해결하기 위해 비전, 언어, 액션 토큰을 한 임베딩 공간에서 통합적으로 다루는 Large Vision Language Model을 도입하고 . VLA를 정의한 최초의 논문이다.

0. Abstract

현대 VLA의 등장: VLM을 행동까지 확장한 End to End 로봇 제어 모델

이 논문은 사전 학습된 Large Vison Language Model을 로봇 제어에 직접 통합함으로써, 일반화 성능과 의미 추론 능력을 동시에 확보할 수 있는 새로운 접근법을 제안한다. 핵심 아이디어는 로봇의 행동 데이터를 기존 자연어와 동일한 방식으로 텍스트 토큰으로 표현하고, 이를 자연어 텍스트와 함께 단일 모델에 통합하여 학습시키는 것이다. 이러한 방식은 비전 정보, 언어 명령, 행동 출력이 동일한 임베딩 공간에서 표현될 수 있도록 하며, 이를 통해 Vision-Language-Action ((VLA)) 모델 구조가 완성된다. 즉, VLA란 Vision, Language, Action 세 요소가 동일한 표현 공간에서 통합되어 VLM이 이를 한 번에 처리할 수 있는 구조를 의미한다.

RT-2는 6천 건 이상의 평가에서 우수한 성능, 보지 못한 명령에 대한 해석, 의미기반 추론, 그리고 연쇄적 Chain-of-Thought 추론을 통한 다단계 의사결정 등 기존 로봇 정책이 갖기 어려운 능력들을 보여주었다. 이로써 사전학습 모델의 강점을 로봇 제어에 자연스럽게 연결시키는 첫 사례로서 큰 의의를 가진다.

1. Introduction

웹 기반 대규모 사전학습 모델의 강점을 로봇 제어로 가져올 수 있을까?

웹 기반 대규모 데이터로 사전학습된 LLM과 VLM은 텍스트 생성, 문제 해결, 이미지 이해, 시맨틱 추론 등에서 압도적인 성능을 보이고 있다. 이런 능력들은 실제 환경에서 다양한 작업을 수행해야 하는 범용 로봇에게도 매우 유용할 수 있다. 하지만 로봇이 이러한 능력을 어떻게 획득할 수 있을지는 불분명하다. 대규모 로봇 데이터를 수집하기엔 현실적인 한계가 크고, 반대로 기존의 VLM을 '그대로' 제어에 활용하기엔 시맨틱 추론과 물리적 제어 사이의 간극이 존재한다. 기존 접근은 대부분 고수준 명령만 처리하고, 실제 행동은 별도의 컨트롤러에 맡겨 VLM의 지식이 로우레벨까지 도달하지 못한다.

cf. 어떻게 VLM이 물리적 제어를 하도록 학습시킬까.. 이 고민이 필요하다.

VLA의 도입

이 논문은 이러한 간극을 단순하면서도 효과적인 방식으로 좁힌다. 기존 VQA나 비전 대화용 VLM처럼, 자연어 명령과 관찰 정보에 대응하는 로봇 행동을 직접 출력하게 만드는 것이다. 핵심은 로봇의 행동 데이터를 텍스트 토큰으로 변환해, 명령어와 관찰 정보와 함께 학습시키는 방식이다. 이렇게 하면 본래 자연어만 출력하던 VLM이 이제는 행동을 표현한 텍스트 토큰, 즉 action token도 출력할 수 있게 되어, 별도 아키텍처를 새로 설계하거나 추가 파라미터 없이 기존 사전학습된 VLM을 그대로 활용해 로봇 정책으로 fine-tuning할 수 있다. 우리는 이러한 구조를 Vision-Language-Action VLA 모델이라 정의하고, RT-1의 프로토콜을 확장해 대형 VLM 백본을 탑재한 RT-2를 제안한다.

cf. 어떻게 VLM이 물리적 제어를 하도록 학습시킬까를 고민하다가, 간단하게 액션을 그냥 렝기지 토큰처럼 만들어버리고 이걸로 파인튜닝하자 이거다.

RT-2 결과 요약 # Zero-shot generalization

새로운 물체나 다양한 언어 표현에 대한 일반화 성능이 크게 향상될 뿐 아니라, 학습되지 않은 방식으로도 행동을 구성할 수 있는 emergent 능력이 나타난다. 로봇 데이터에 없는 명령도 실행하거나, 이미지 내 객체 관계를 추론해 어떤 물체를 어디에 놓을지 결정하는 식이다. 단순히 배운 동작을 복사하는 것이 아니라, 의미에 기반한 재구성이 가능해진 것이다. 특히 chain-of-thought prompting을 활용하면 고차원적 reasoning도 가능해진다.

RT-2의 핵심 기여와 실험적 검증

이 논문의 핵심 기여는, pretrained된 Large Vision-Language Model을 fine-tuning하여 로봇 정책으로 전환한 RT-2 모델 시리즈를 제안한 것이다. RT-2는 기존 로봇 시연 데이터에 instruction annotation을 더해 학습되며, 별도 아키텍처 변경 없이 기존 VLM을 그대로 활용한다.

실험에서는 최대 55B 규모의 모델을 사용해 총 6,000건의 로봇 태스크를 평가했고, RT-2는 unseen objects, novel scenes, 다양한 language instructions에 대한 generalization 성능에서 강력한 향상을 보였다. 뿐만 아니라, 웹 사전학습을 통해 내재된 시맨틱 추론 능력 덕분에, 로봇 데이터에 포함되지 않은 상황에서도 의미 기반으로 행동을 구성하는 emergent capability가 나타나는 것을 확인할 수 있었다.

2. Related Work

Vision-language models

Vision-Language Model(VLM)은 크게 두 가지 계열로 나뉜다. 첫째는 CLIP처럼 이미지와 텍스트를 공통 임베딩 공간에 투영하는 표현 학습 계열, 둘째는 이미지와 텍스트를 입력으로 받아 텍스트를 생성하는 언어 생성 계열이다. 이 두 계열은 객체 분류, 검출, 분할 등 다양한 downstream task에 활용되었고, 본 연구는 그중 두 번째 계열에 초점을 맞춘다. 이 계열의 VLM은 캡셔닝, VQA, 언어 생성 등 여러 태스크를 동시에 학습하는 멀티태스크 방식으로 훈련되며, 최근에는 로봇 분야에서도 응용이 활발히 이뤄지고 있다. 본 논문은 이러한 모델들이 기존의 추론 능력만이 아니라 로봇 제어에서도 동작 예측까지 확장될 수 있는지를 탐구하며, 이를 통해 더욱 강력한 일반화 능력을 확보하고자 한다.

Generalization in robot learning

로봇 제어에서 일반화된 정책을 개발하는 것은 오래된 핵심 목표다. 이를 위한 유망한 접근은 RT-1과 같이 다양한 환경과 객체를 포함하는 대규모 로봇 데이터셋으로부터 학습하는 것이다. 기존 연구들은 이를 통해 새로운 물체, 조합된 태스크, 낯선 명령, 새로운 환경 등 다양한 축에서 일반화되는 사례를 보여주었다. 하지만 기존 연구들은 대부분 특정한 한 가지 방향.. 예를 들어 새로운 물체, 새로운 언어 명령 등에만 일반화를 시도했다. 반면 해당 연구는 이러한 다양한 조건 변화에 모두 대응할 수 있는 하나의 단일 모델을 목표로 한다. 핵심은 Large Vison Language Model 즉 Foundation Model을 도입하여 로봇이 직접 경험하지 않아도 이미 pretrained 모델이 학습한 넓은 세상 지식을 최대한 활용하는 데 있다.

Pre-training for robotic manipulation

기존 로봇 학습에서의 pre-training은 주로 비전 모델을 카메라 인코더로 초기화하거나, 언어 모델을 명령 인식과 고수준 계획에 활용하는 데 그쳤다. 하지만 본 논문은 시각과 언어를 함께 다루는 LVLM 자체를 로봇 정책으로 확장한다. 별도 구조 없이 언어와 행동을 하나의 출력 공간에서 함께 생성하도록 하여, 파라미터 공유는 물론 기존 방식보다 훨씬 간결하고 유연한 제어가 가능해진다.

3. Vision-Language-Action Models

이제 기존 VLM을 로봇 제어에 적용하기 위한 모델 구조와 학습 방식을 설명한다. 먼저 VLM이 어떻게 VLA 모델로 확장될 수 있는지를 설명하고, 웹 기반으로 사전학습된 대규모 모델을 로봇 행동 예측용으로 fine-tuning하는 과정에서 필요한 설계 선택지와 그때 마주하게 되는 문제들, 예를 들어 모델 크기나 추론 속도 같은 제약을 다룬다.

3-1. Pre-Trained Vision-Language Models

이미지와 텍스트를 입력받아 자연어를 생성하고, 로봇 작업에 필요한 시각적 추론 능력도 이미 갖춘 VLM PaLI-X와 PaLM-E를 기반으로, 로봇 행동을 출력하는 VLA로 확장한다. 언어 토큰을 출력하는 구조를 그대로 활용하고, 로봇 행동을 언어 토큰처럼 표현하여 이를 학습함으로써, 모델이 행동을 직접 출력할 수 있도록 만든다. 이 방법으로 각 모델들을 RT-2-PaLI-X와 RT-2-PaLM-E로 확장해 실험에 사용하며, 수십억 개 파라미터 규모의 백본은 그대로 유지한다.

3-2. Robot-Action Fine-Tuning

VLM을 VLA로 확장하는 방법 # Language로 위장한 Action...

계속 말하지만... Language token만 결과로 내놓을 수 있는 VLM을 구조 변화 없이 사용하기 위해서 결과로 나오길 원하는 로봇의 액션을 Language token처럼 위장해서 이걸로 파인튜닝해 행동을 출력할 수 있는 VLA로 확장한다.

cf. 그래서 VLA는 Vision, Language, Action Token이 한 임베딩 공간에 존재한다.

1) 액션을 언어 토큰으로 위장

RT-1처럼 로봇 제어를 위한 Action output을 0~255 값을 갖는 256개의 Bin으로 이산화하고, 이를 위 처럼 공백으로 연결한 하나의 문자열로 변환한다. 이를 파인튜닝의 목적으로 사용하면 VLM이 액션을 뱉을 수 있는 VLA로 확장된다. 예시는 다음과 같다.

2) VLM의 토크나이저 고려

VLM이 아웃풋 문자열을 우리가 원하는 토큰으로 뜯어서 이해할 수 있어야한다. 다시 말하면 우리가 정의한 행동 토큰들이 모델의 vocabulary 안에 포함되어 있어야 하며, 모델이 출력한 문자열을 정확한 행동값으로 해석할 수 있어야 한다.

우리가 사용하는 PaLI-X와 PaLM-E는 서로 다른 토크나이저를 갖는다. PaLI-X는 숫자 0부터 1000까지 각각을 고유한 토큰으로 포함하고 있어, 행동값 128을 그대로 해당 숫자 토큰에 매핑할 수 있다. 즉, 별도의 조정 없이 기존 vocabulary 내에서 행동을 표현할 수 있다. 반면 PaLM-E는 이러한 숫자 토큰이 없기 때문에, 사용 빈도가 가장 낮은 256개의 기존 토큰을 덮어써 행동 토큰으로 재정의한다. 이렇게 기존 vocabulary에 있는 토큰을 새로운 의미로 사용하는 방식은 symbol tuning이라고 불리며, 기존 연구들에서 효과적으로 작동함이 확인된 기법이다.

3) 파인 튜닝 # VLM -> VLA

입력은 이미지와 작업 설명 문장이고, 출력은 재정의된 토큰으로 구성된 행동 문자열이 된다.

학습은 일반적인 VQA 형식을 따른다.
Q: what action should the robot take to [task instruction]?
A: "1 128 91 241 5 101 127"

Co-Fine-Tuning

단순히 로봇 데이터만 학습하는 것이 아니라 웹 기반 비전-언어 데이터와 함께 학습하는 co-fine-tuning 방식을 사용한다. 이를 통해 모델은 로봇의 저수준 행동뿐만 아니라 웹에서 학습한 시각적 개념과 언어 지식까지 함께 활용할 수 있다. 공동 파인튜닝 과정에서 로봇 데이터의 샘플링 비중을 높여, 각 학습 배치에서 로봇과 웹 데이터 간 비율이 균형을 이루도록 조정한다.

Output Constraints

RT-2는 실제 로봇 제어에 쓰이기 때문에 반드시 유효한 행동 토큰만 출력해야 한다. 로봇 작업을 수행할 때는 출력 vocabulary를 사전 정의된 행동 토큰으로 제한하고 일반적인 비전-언어 작업에서는 전체 언어 토큰을 자유롭게 출력할 수 있도록 한다 이를 통해 RT-2는 실제 환경에서 안전하게 동작 가능한 로봇 정책을 학습할 수 있다

cf. 액션 뱉어야하는데 갑자기 이상한 말 하면 안되니까..

3-3. Real-Time Inference

RT-2는 최대 550억 개 파라미터 규모의 VLM을 활용하는데, 이처럼 큰 모델은 로봇에 직접 실시간으로 탑재해 구동하기 어렵다. 이를 해결하기 위해, RT-2는 클라우드 TPU 서버에 모델을 띄우고 로봇이 네트워크를 통해 해당 서버에 질의하는 방식으로 동작한다. 이렇게 하면 다수의 로봇이 동시에 서비스를 사용할 수 있으며, 55B 모델은 약 1–3Hz, 5B 모델은 약 5Hz의 실시간 제어 주파수를 달성할 수 있다.

4. Experiments

RT-2의 일반화 성능, emergent 능력, 파라미터 수와 학습 전략의 영향, 그리고 chain-of-thought reasoning 가능성을 검증하기 위해 약 6,000개의 평가 trajectory를 통해 실험을 진행한다. 주요 질문은 다음 네 가지다

1) 일반화 성능: RT-2는 학습에서 본 적 없는 객체, 배경, 환경에서도 잘 작동하는가?

2) Emergent 능력: 웹 기반 사전학습에서 유래한 의미 추론 능력이나 상징 이해 같은 예기치 못한 능력을 보이는가?

3) 모델 크기와 학습 전략의 영향: 모델 크기 및 pretraining/fine-tuning 전략에 따라 일반화 성능이 어떻게 달라지는가?

4) Chain-of-Thought reasoning: 언어와 행동을 모두 다루는 RT-2가 LLM처럼 reasoning step을 내재화할 수 있는가?

4-1. Generalization

RT-2는 RT-1 대비 평균 2배, 나머지 모델 대비 평균 6배 이상 높은 성공률을 기록했으며, 특히 RT-2-PaLM-E는 더 복잡하고 어려운 조건에서도 강한 일반화 능력을 보였다.

추가적으로, Language Table이라는 시뮬레이션 환경에서도 소형 PaLI-3B를 co-fine-tuning 방식으로 학습시킨 결과 기존 방법들보다 높은 정확도를 기록했다.

4-2. Emergent Capabilities

“사과를 3번 위치로 옮겨라”처럼 숫자 인식, “같은 색깔 컵에 사과를 넣어라”처럼 시각적 추론, “안경 쓴 사람에게 콜라를 옮겨라”처럼 사람 인식 등은 로봇 데이터에 등장하지 않았지만, RT-2는 이를 성공적으로 수행한다. RT-2는 RT-1 대비 3배 이상의 평균 성공률을 기록한다

4-3. Ablations

큰 모델을 처음부터 학습하면 성능이 매우 낮아 실용적이지 않고, 반대로 웹 데이터와 로봇 데이터를 함께 사용하는 co-fine-tuning이 일반화에 가장 효과적이었다. 또한 모델 크기가 클수록 일반화 성능도 더 좋았다.

4-4. Chain-of-Thought Reasoning

RT-2에 간단한 fine-tuning을 적용해 chain-of-thought 추론을 유도한 결과, 모델은 자연어로 먼저 계획을 말한 후 행동을 출력하는 구조로 더 복잡한 지시문에 응답할 수 있게 되었다. 이로써 기존처럼 Planner와 Policy를 따로 나누는 게 아니라, 하나의 VLA 모델 안에서 전부 수행하는 통합 구조가 가능함을 시사한다.

5. Limitations

RT-2는 웹 기반 사전학습 덕분에 시맨틱한 일반화 성능은 높지만, 로봇이 수행할 수 있는 실제 물리적 동작 자체는 여전히 로봇 데이터셋 내에서 보았던 동작에 한정된다. 즉, 새로운 개념이나 상황은 잘 이해하지만 이해한 것을 바탕으로 새로운 동작을 발명해내는 것은 불가능하다. 이는 로봇 데이터셋 자체가 다양한 스킬을 충분히 포함하지 못하기 때문으로 분석되며, 향후에는 인간의 동작 영상 같은 데이터로 새로운 스킬을 학습시키는 방법을 탐색할 필요가 있다.

또한, RT-2는 실시간 제어에 사용될 수 있을 정도로 작동은 하지만, 연산 비용이 크고, 더 높은 제어 주파수를 요구하는 상황에서는 추론 속도가 병목이 될 수 있다. 이에 대한 해결책으로는 양자화 quantization 나 지식 증류 distillation 같은 경량화 기법을 사용하는 것이 제안된다.

6. Conclusions

VLM + 로봇 시연 데이터를 결합해 Vision-Language-Action (VLA) 모델을 학습하는 방법을 제시한다. PaLM-E와 PaLI-X 기반의 두 모델인 RT-2-PaLM-E와 RT-2-PaLI-X를 구축하고, 이들을 텍스트 토큰으로 표현된 로봇 행동을 출력하도록 fine-tuning했다. 그 결과, RT-2는 강력한 로봇 정책을 형성할 수 있었고, 무엇보다 웹 기반 VLM 사전학습의 이점을 일반화 성능과 emergent capability로 전이할 수 있음을 입증했다. 이처럼 간단하고 일반적인 접근 방식이 로봇 학습이 다른 AI 분야의 진보에 따라 함께 발전할 수 있는 전략적 가능성을 보여준다는 점에서 큰 의의를 가진다.

'논문 > Vision Language Action (VLA)' 카테고리의 다른 글

RT-1: Robotics Transformer for Real-World Control at Scale (2)	2025.07.24
논문 리뷰) Vision-Language-Action Models: Concepts, Progress, Applications and Challenges - 2 (3)	2025.07.21
논문 리뷰) Vision-Language-Action Models: Concepts, Progress, Applications and Challenges - 1 (0)	2025.07.17

현재글RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Dogun Kim

Dept of AI, University of Seoul

model-based rl, 자율주행 데이터셋, giou, 3d 객체 검출, carla v2, think2drive, reinforcement learning, world model, nuscenes 데이터셋, 3d bounding box, waymo 데이터셋, pointnet++, 자율주행, 자율주행 평가 지표, planning algorithm, kitti 데이터셋, #computervision #cameraprojection #projectivetransformation #weakperspective #orthographicprojection #affineprojection #homocoordinates #calibrationmatrix #vanishingpoint, 강화학습, PointNet, retinaface,

Today :
Yesterday :

Dogun Kim