해당 서베이는 시각적 인식, 자연어 이해, 그리고 물리적 행동 embodied action을하나의 통합된 프레임워크 내에서 수행하고자 하는 Vision-Language-Action (VLA) 모델을 다룬다.
휴머노이드, 자율주행 차량 등의 다양한 응용 도메인에서 최근 3년간 발표된 80개 이상의 VLA 논문을 정리하였으며, 이와 함께 실시간 제어의 어려움, 여러 모달리티의 행동을 통합적으로 표현하는 문제, 시스템의 확장성, 보지 못한 작업에 대한 일반화 능력, 윤리적 문제 등 다양한 도전과제와 해결 방법을 제시한다.
1. Introduction
Vision, Language, Action System은 독립적으로 발전해왔기에 연결하기 어렵다.
VLA 모델이 등장하기 전까지 인공지능과 로보틱스의 발전은 시각, 언어, 행동 제어라는 세 개의 독립적인 분야에서 이루어졌다. 시각 시스템은 이미지를 인식하고 분류할 수 있었고, 언어 시스템은 텍스트를 이해하고 생성했으며, 행동 시스템은 로봇의 움직임을 제어할 수 있었다. 하지만 이들은 서로 긴밀하게 연결되지 못했고, 특히 새로운 상황이나 환경 변화에 적응하는 데 큰 한계를 드러낸다. 시각과 언어를 결합해 멀티모달 이해에 성공한 VLM의 발전에도 불구하고, 여전히 일관된 행동을 생성하거나 실행할 수 없는 한계를 보인다.
이런 단절 구조는 새로운 태스크에 대한 일반화 능력을 심각하게 제한했고, 많은 엔지니어링 노력을 필요로 하는 비효율적인 시스템으로 이어졌다. 따라서 진정한 자율성과 지능을 가진 로봇을 만들기 위해서는 세 가지 능력을 동시에 갖춘 통합된 시스템이 필요하며, 이것이 바로 VLA가 해결하고자 하는 문제이다.
VLA의 등장과 초기 개념
기존의 분리된 시각, 언어, 행동 시스템 간의 통합 필요성이 높아지면서 VLA 모델이 2021–2022년경 등장했다. 대표적으로 Google DeepMind의 RT-2는 인식, 추론, 제어를 하나의 프레임워크에서 수행할 수 있도록 구성되었다.
초기 VLA는 Vision-Language 모델에 action token을 추가함으로써, 시각-언어-행동 데이터를 함께 학습하고 행동을 생성할 수 있게 했다. 이는 로봇이 보지 못한 물체나 새로운 명령에 일반화하고, 복잡한 환경에서도 추론과 행동을 수행할 수 있도록 한다. VLA는 시각, 언어, 행동을 별개로 취급하던 기존의 한계를 극복하며, 진정한 멀티모달 지능을 향한 전환점을 형성한 것이다.
cf. 시각, 언어, 행동 정보를 통합한 인터넷 규모의 데이터셋을 활용함으로써, VLA는 로봇이 환경을 인식하고 설명하는 것을 넘어, 맥락에 맞는 추론과 복잡한 상황에서의 행동 수행까지 가능하다.
VLA 리뷰 필요성 및 서베이 논문의 목적
VLA이 불러온 혁신이 갖는 중대한 함의를 고려할 때, 방대한 문헌과 비판적 분석을 바탕으로 철저하고 체계적인 리뷰가 필요하다.
(1) VLA의 개념적 기초와 아키텍처 원리를 명확히 하기 위해 (2) 기술 발전의 궤적과 전환점을 구조화하기 위해 (3) 다양한 응용 사례를 포괄적으로 맵핑하기 위해 (4) 데이터 효율성, 안전성, 일반화, 윤리성과 같은 과제를 식별하기 위해 (5) AI/로봇 연구자 커뮤니티가 이 방향성을 공유하고 공동 연구를 촉진할 수 있도록 하기 위해
이 서베이 논문은 VLA 모델의 개념적 원리, 발전 과정, 기술적 한계를 체계적으로 분석한다. 목표는 VLA에 대한 현재 이해를 통합하고, 남아 있는 한계를 식별하며, 향후 발전 방향을 제안하는 것이다.
VLA 분야를 개념–기술–과제라는 세 축에서 시각적으로 구성
먼저, Ch2에서 Figure 2 처럼 VLA의 정의, 역사적 발전, 모달리티 통합 메커니즘, 언어 기반 토큰화 및 인코딩 전략 등 개념적 토대를 분석한다. 이후 Ch3에서 Figure 3와 같이 최근 모델 구조의 진보, 데이터 효율적 학습, 파라미터 절약 모델링 기법, 계산 비용을 줄이기 위한 가속화 전략 등 훈련 효율성과 관련된 기술들을 통합적으로 소개한다. 마지막으로 Ch4에서 Figure 4 추론 병목, 안전성, 계산 비용, 일반화 부족, 윤리 문제 등 VLA 시스템이 직면한 한계를 다루고, 이에 대한 잠재적 해결책을 논의한다.
2. Concepts of Vision-Language-Action Models
VLA의 정의, 장점, 발전 방향
VLA 모델은 시각 입력을 처리하고, 자연어를 해석하며, 동적인 환경에서 실행 가능한 행동을 생성하는 새로운 종류의 지능 시스템이다. Vision Encoder, Language Model 그리고 policy modules 혹은 Planner를 결합하여 로봇 제어를 수행하게 된다.
전통적인 visuomotor 파이프라인과 달리, VLA는 센서 데이터를 통해 환경을 관찰하고, 언어로 주어진 목표를 해석한 뒤, 행동 시퀀스를 직접 출력한다. 이 과정에서 semantic grounding을 통해 시각 정보와 언어 명령 간의 의미적 연결이 형성되며, 이를 바탕으로 문맥 기반 추론, 행동 가능성(affordance) 탐지, 시간적 순서를 고려한 계획 등이 가능해진다.
cf. semantic grounding: 언어 표현이 시각적 대상과 의미적으로 연결하는 것
최신 모델들은 imitation learning, reinforcement learning, retrieval 모듈을 통합하여 샘플 효율성과 일반화 능력을 높이고 있다. 이러한 발전을 통해, VLA는 단순한 멀티모달 결합을 넘어 실제 로봇, 내비게이션, 인간-AI 협업에 적용 가능한 범용 지능 에이전트로 진화하고 있으며, 시각–언어–행동 사이의 전통적인 분절 구조를 해소하고 있다.
cf. 어디까지 VLA이라고 볼 수 있는가?
1) 입력이 Vision + Language 2) 출력이 실제 실행 가능한 Action 3) 전체 파이프라인이 학습 기반으로 연결되어 있는 경우 즉 Gradient가 연결되어 E2E 학습이 가능한 경우 -> 즉 Modular 형태여도 괜찮은 것이다... 그래서 GR00T N1도 VLA이라고 부르는 것 같다..
2-1. Evolution and Timeline
VLA는 2022~2025년에 다음과 같은 3단계 진화 단계를 보이며 빠르게 발전해왔다.
1단계: Foundational Integration 2022–2023
RT-2 2023
초기 VLA 모델들은 시각-언어 임베딩을 로봇의 행동 단위인 motion primitive와 연결해 기본적인 시각-운동 조정을 달성했다. CLIPort는 CLIP 임베딩과 조작 행동을 직접 매핑했고, Gato는 600개 이상의 작업을 하나의 범용 정책으로 처리했다. RT-1은 대규모 imitation learning으로 높은 성공률을 달성했으며, VIMA는 transformer 기반 계획기를 통해 시간 추론을 시도했다. 이후 RT-2는 시각적 chain-of-thought 추론을 도입했고, Diffusion Policy는 확률적 행동 예측을 도입했지만, 이 시기의 모델들은 여전히 조합적 추론 능력이나 의미 기반 행동 계획은 부족했다.
2단계: Specialization and Embodied Reasoning 2024
두 번째 세대 VLA는 특정 도메인에 맞춘 inductive bias를 적용하며 복잡한 추론 능력을 갖추기 시작했다. retrieval 기반 학습을 통한 few-shot 적응, 3D scene graph를 이용한 공간적 내비게이션, reversible 구조로 메모리 효율성 확보, 물리 기반 attention으로 부분 가시성 문제 대응 등이 이뤄졌다. 또한 object-centric disentanglement를 통해 조합 추론 능력을 강화하고, 자율주행 등 복잡한 환경에서도 VLA 적용이 가능해졌다. 이런 발전으로 인해 기존 벤치마크만으로는 측정이 어려워 새로운 평가 체계의 필요성이 대두되고 있다.
3단계: Generalization and Safety-Critical Deployment 2025
최신 VLA는 실환경 배치를 위한 일반화, 안전성, 인간 정렬성에 초점을 맞춘다. 형식 검증을 통한 위험 회피, 계층적 구조에 기반한 전신 제어, 경량화를 통한 임베디드 배치, 신경-기호 결합을 통한 인과 추론 등이 등장했다. 또한 affordance chaining, sim-to-real transfer, 사용자 피드백 기반 자연어 정렬 등으로 다양한 로봇 embodiment에서도 유연하게 작동할 수 있는 구조로 진화하고 있다.
2-2. Multimodal Integration: From Isolated Pipelines to Unified Agents
로봇 시스템이 기존 모듈별로 나뉘어 있던 구조에서, VLA 모델로 진화하면서 어떻게 시각–언어–행동을 하나의 통합된 아키텍처로 융합해냈는지를 설명하는 파트이다.
기존 방식은 perception, language understanding, control이 모두 분리되어 있었고, 사람이 수작업으로 설계한 인터페이스나 파이프라인을 통해 연결되어야 했다. 이는 새로운 환경이나 모호한 상황에서 잘 작동하지 못했고, 미리 정의된 템플릿을 벗어난 명령은 일반화할 수 없었다.
반면 최신 VLA 모델은 대규모 사전학습 인코더와 transformer 구조를 사용하여 시각 정보와 언어 명령을 같은 표현 공간 내에서 처리하고 융합한다. 예컨대, 비전 인코더(ViT 등)는 이미지 내 객체를 분할하고 특징을 추출하며, 언어 모델은 명령어를 고차원 임베딩으로 변환한 뒤, cross-attention이나 token 융합 방식으로 통합한다. 이렇게 생성된 latent space는 행동 정책 결정에 바로 연결된다.
CLIPort 2021, 시각 정보와 언어 명령을 같은 Latent space 내에서 처리하고 융합한다.
이 구조는 CLIPort, VIMA 같은 초기 모델에서 먼저 구현되었고, 이후 VoxPoser, RT-2, Octo 같은 모델들이 시공간적 의미 정렬temporal/spatial grounding, 메모리 내장형 장기 계획, zero-shot 일반화 등으로 발전시켰다. 실제로 Occllama는 가려진 객체를 attention으로 처리하고, ShowUI는 음성·자연어 기반 사용자 제어를 지원한다. 이처럼 VLA의 멀티모달 통합은 단순한 결합을 넘어서, 실제 현실적 복잡성을 다루는 강건한 프레임워크로 진화하고 있다.
2-3. Tokenization and Representation: How VLAs Encode the World
서베이 논문을 읽으면서 시각-언어 임베딩을 로봇의 행동 단위인 motion primitive와 연결해 기본적인 시각-운동 조정을 달성했다는데 이게 계속 헷갈렸다 그래서 이게 일반적인 VLM이랑 VLA가 뭐가 그렇게 다르다는건지... 이걸 명확하게 해주는 파트이다.
VLA 모델을 기존의 비전-언어 아키텍처와 차별화시키는 핵심 혁신은 시각, 언어, 로봇 상태, 행동까지 모든 모달리티를 공통 토큰 공간에 정규화하여 통합적으로 표현하고 처리한다는 점이다. 기존의 VLM은 시각 언어만을 같은 토큰 공간에서 처리한다. 이 방식은 transformer 계열의 autoregressive 모델 구조에서 영감을 받았으며, VLA는 "무엇을 해야 하는가", "어떻게 해야 하는가"를 모두 end-to-end 학습 가능한 방식으로 표현할 수 있게 된다.
같은 임베딩 공간에 있는 이 토큰들에 대해서 알아볼 것이다.
Prefix Tokens: Encoding Context and Instruction
VLA 모델에서 Prefix token은 시각 장면과 언어 명령을 통합하여 요약하고 정렬해주는 문맥 설정용 입력이다. Prefix token을 받은 모델은 주어진 목표와 환경 배치에 대한 초기 이해를 갖게 된다. 즉, 모델이 행동을 생성하기 전, 환경과 목표에 대한 이해를 심어주는 contextual backbone 역할을 Prefix token이 하는 것이다.
이러한 shared representation 덕분에 모델이 시각과 언어 간의 의미 정렬이 가능해진다.
cf. 이거 그냥 VLM이 임베딩 공간에 언어 토큰, 시각 토큰 잘 배열해놓는 그거 아님? -> 맞다 ㅇㅇ 막 특별한 건 아니다.
State Tokens: Embedding the Robot’s Configuration
VLA State Token은 로봇의 물리적 구성 상태를 실시간으로 인코딩한 토큰으로, 상황 인식과 안전한 동작을 위해 필수적인 요소이다.
Ex) 관절 각도, 힘/토크 센서 값, 엔드이펙터의 위치 및 자세, 주변 물체의 상대적 위치 등이 물리적 구성 요소에 해당한다.
b 피규어의 State Token에는 오돔 정보, 라이더 정보 등이 담길 것이다.
Prefix Token이 외부 환경과 명령어에 대한 정보를 담는다면, State Token은 로봇 자체의 내부 상태를 반영한다. 이를 통해 로봇은 자신이 어떤 자세로, 어떤 힘을 받고 있으며, 어떤 위치에 있는지를 파악할 수 있게 되며 지형 이동이나 장애물 회피를 할 수 있게 된다.
요약하자면, state token은 로봇의 관절 위치, 힘/토크 값, 그리퍼 상태 등 내부 물리 상태를 표현하는 토큰이며, 이는 환경 정보 및 언어 명령을 담은 prefix token과 함께 트랜스포머에 입력되어, 로봇의 내부 상태와 외부 맥락을 모두 반영한 정밀하고 상황 적응적인 행동 시퀀스를 생성하는 데 활용될 것이다.
Action Tokens: Autoregressive Control Generation
VLA 모델의 마지막 출력은 Action Token으로 구성되며, 이는 실제 로봇의 제어 신호를 직접적으로 생성하는 역할을 한다.
이 토큰들은 모터 제어의 다음 단계를 나타내기 위해 전형적인 자연어 생성 방식처럼 Autoregressive 하게 만들어진다.
RT-2, 디토크나이저를 통과하기 전이 바로 액션 토큰 A이다. 0~255로 변환한 팔 각도등을 의미하게 된다.
더 정확하게는 추론할 때 모델이 Prefix + State Token을 받아 Action Token을 한 개씩 생성하게 되며, 여기서 생성된 각 Action Token은 관절 각도 조정, 토크 값, 휠 속도 같은 저수준 제어 신호 또는 고수준 동작 프리미티브에 대응한다.
cf. 고수준 동작 프리미티브: 모델이 의도한 동작을 표현 ex) pick_up(cube_id=3) 등 프로그래밍된 primitive
이 접근 방식의 핵심은, 원래 텍스트 생성을 위해 쓰이던 트랜스포머가 이제는 물리적 행동 시퀀스를 문장처럼 생성할 수 있다는 점이다. 즉, 문장의 형태가 아니라 행동 그 자체가 문장처럼 생성되는 것이다.
cf. 뭐 어디까지가 VLA이고, 뭐 어디까지가 VLM인건가???? 아니 그냥 VLM이 명령 내려서 그거 따르게 하면 되는거 아닌가? 이런 생각이 들더라.... 이거도 VLA 아닌가? 자율주행을 예시로 들어보겠다. VLM은 비전, 언어 토큰을 받아서 1) waypoint 혹은 2) 5M 앞에서 좌회전해~ 와 같은 output을 내보낼 수 있을 것이다. 이 구분되는 VLM의 두 가지 아웃풋은 제어로 바로 연결될 수 없다. 이게 핵심이다. 이걸 제어기가 이해할 수 있는 신호로 바꿔주기 위해서 다시 한번 MLP로 구성된 어뎁터를 태우는 등의 행동을 해야만 한다.VLM 모델... 중 LMdrive라는 모델이다. LLM에서 나온 토큰을 다시 MLP로 구성된 어텝터를 태워서 실현 가능한 제어 신호로 바꾸는 모습을 확인할 수 있다.
이와 달리 VLA는 진짜 제어기에서 사용 가능한 토큰이 나오는 것이다.물론 스케일 등은 조금 조절해줘야하긴 하지만, 이 조절을 뉴럴 네트워크가 하는게 아니라 그냥 대응 함수 느낌으로 해주면 된다.
하 근데 진짜 헷갈리는게 이 서베이 논문에서 VLM + Policy 모듈이 존재하는 경우를 초기 VLA이라고 하더라... RT-1 같은 경우를 말한다.
정리하자면.. Foundation Model이 시각·언어 입력을 받아 직접 제어 신호로 바로 사용할 수 있는 action token을 end-to-end로 생성하면 그것이 진정한 VLA이다. 이때 Prefix Token, State Token 그리고 Action Token이 같은 임베딩 공간에 존재할 것이다. 반대로, Foundation Model은 보조적으로 사용되고, 그 출력이 별도의 policy network나 adapter를 거쳐서 제어 신호로 변환되는 구조라면, 이는 VLM 기반 모듈형 방식이며, 흔히 ‘초기 VLA’로 분류된다. -> 걍 VLM써서 행동을 하게 하네? VLA는 ㅇㅋ 근데 초기 VLA 인지 ㄹㅇ VLA인지 구분하면 되겠다 ㅇㅇ..
VLA가 실제 로봇 시스템에서 어떻게 작동하는가?
VLA가 사용하는 같은 공간에 위치한 세 가지 토큰에 대해서 알아보았다. 이제 전체적인 파이프라인을 공부해보겠다.
1) 시각, 언어 입력을 통해 Prefix Token을 생성한다. ((2, 3)) -> 언어 토큰과, 시각 토큰이 생성된 것이다. 이 두개가 바로 Prefix Token이다. ㄱㄱ
2) 로봇의 물리적 구성 상태를 실시간으로 인코딩하여 State Token을 생성한다. ((4)) -> 지금 로봇의 위치, 팔 각도 등의 정보가 들어간 토큰이 생성된 것이다.
3) 이 두 가지 토큰을 Cross-modal attention으로 융합한다. ((5))
4) 최종적으로 autoregressive transformer를 통해 action token을 생성하여 제어기로 전달한다. ((6, 7)) 12 layer, 512 임베딩 공간 차원, 8개의 어텐션 헤드
이 전체 흐름은 텍스트 생성과 유사하게 설계되어 있으며, 결과적으로 하나의 문장이 아닌 모션 시퀀스가 생성된다. 이처럼 VLA는 시각, 언어, 로봇의 상태를 통합된 토큰 공간에서 처리하여 일관되고 해석 가능한 구조를 갖추며, 다양한 작업과 로봇에 일반화 가능하다.
2-4. Learning Paradigms: Data Sources and Training Strategies
일반적인 VLA 학습 과정
VLA를 학습시키기 위헤서는 다음과 같이 웹 기반의 의미적 지식과 로봇 데이터를 통한 물리적 경험을 함께 통합한 이중 학습 패러다임이 요구된다. 시각-언어-행동 3가지 모듈을 모두 훈련하는 게 핵심이다.
Step 1) 웹 기반 사전 학습 [Pretraining for Semantic Prior]
먼저, 인터넷에서 수집된 대규모 시각-언어 데이터셋을 사용하여 시각 인코더와 언어 인코더를 사전 학습시킨다. 이 과정에서는 CLIP-style contrastive learning, masked modeling 등의 방법을 사용하여 시각과 언어 정보를 공유 임베딩 공간 shared embedding space에 정렬한다. cf.COCO, LAION-400M, HowTo100M, VQA 등의 데이터셋이 있다.
이 단계는 VLA 모델이 세상을 이해하는 능력을 갖추게 하며, 이를 통해 구성적 일반화 compositional generalization, 객체 기반 grounding, zero-shot transfer를 가능하게 한다.
Step 2) 행동 데이터 기반 학습 [Grounding via Robot Data]
세계에 대한 의미적 이해만으로는 로봇 제어를 할 수 없다. 따라서 두 번째 단계에서는 실제 로봇이나 시뮬레이터에서 수집된 시각-행동 쌍 데이터를 활용하여, language + perception → action으로 이어지는 연결을 학습한다. 대표적인 데이터셋으로는 RoboNet, BridgeData, RT-X 등이 있으며, 자연어 명령에 따라 수집된 비디오, 관절 궤적, 물리적 상호작용이 포함되어 있다. Demonstration data를 수집하기 위한 시연 방식은 사람이 직접 움직이거나 kinesthetic teaching, 원격 조작 teleoperation, 또는 스크립트 기반 자동 제어 등이 있다.
더 자세하게 말하면 지도학습, 강화학습, 또는 모방학습을 주로 사용하며, 융합된 시각-언어-상태 임베딩을 기반으로 액션 토큰을 예측하는 autoregressive policy decoder를 학습시키는 단계이다.
최근 연구들의 VLA 학습 전략
최근에는 이러한 두 단계를 더 세분화하는 multistage 혹은 동시에 해버리는 multitask 방식으로 학습하려는 흐름이 등장하고 있다. 예를 들어 마스킹된 언어 모델링 등으로 사전학습을 한 후, 행동 데이터로 파인튜닝하거나, 간단한 작업부터 복잡한 작업으로 점차 학습시키는 커리큘럼 러닝, 또는 시뮬레이터에서 학습한 모델을 실제 환경에 적용하는 sim-to-real 방식이 사용된다. 이러한 통합적 학습 전략은 언어적 의미 이해와 제어 수행 능력을 하나의 모델로 통합해, 다양한 작업과 환경, 로봇 형태에 잘 일반화되도록 한다.
대표적인 사례가 RT-2이다. RT-2는 행동 생성을 마치 문장 생성을 하듯이 수행하며, 액션 토큰 하나하나가 실제 로봇 제어 명령에 대응된다. 웹 기반 멀티모달 데이터와 대규모 로봇 시연 데이터를 모두 학습함으로써, RT-2는 새로운 객체나 작업에 대해서도 명령만 이해하면 제로샷 수행이 가능하다.
cf. Masked Language Modeling: 문장에서 일부 단어를 가리고, 이를 모델이 예측하도록 학습시키는 방식
cf. 아니 뭐가 다르다는거지..? VLA도 결국 그냥 2Step 초기 방식 때린거 아님? 뭔가 논문이 자기들도 이걸 명확하게 구분을 못해서 대충 넘어가는 것 같다..
그냥 앞의 2 step 방식은 초기의 VLA 즉 아직 비전, 언어, 액션 토큰이 같은 임베딩 공간에 없는 경우를 의미하는 듯 하고 최근 VLA 학습 방식은 같은 임베딩 공간에 있는 경우의 학습을 의미하는 듯 하다 ㅇㅇ...
2-5. Adaptive Control and Real-Time Execution
전통적인 로봇과 VLA의 근본적인 차이: Adaptive Control
VLA 모델의 또 다른 핵심 강점은 적응적 제어 adaptive control 능력이다. 이는 실행 중 센서 피드백을 받아 실시간으로 행동을 조정하는 능력으로, 과수원, 가정, 병원 등 예측 불가능한 환경에서 특히 중요하다.
VLA는 state token을 실시간으로 업데이트하고 이를 바탕으로 계획된 동작을 동적으로 수정할 수 있다. 예컨대, 사과 따기 작업 중 목표 사과가 움직이거나 다른 사과가 시야에 들어오면, 모델은 이를 해석해 grasp trajectory를 즉시 수정한다. 이러한 유연성은 인간과 유사한 적응력을 모방한 것이며 전통적인 파이프라인 기반 로봇 시스템과 VLA의 근본적인 차이이자 장점이다.