Vision-Language-Action Models: Concepts, Progress, Applications and Challenges
https://arxiv.org/abs/2505.04769
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges
Vision-Language-Action (VLA) models mark a transformative advancement in artificial intelligence, aiming to unify perception, natural language understanding, and embodied action within a single computational framework. This foundational review presents a c
arxiv.org

https://dogunkim.tistory.com/115
논문 리뷰) Vision-Language-Action Models: Concepts, Progress, Applications and Challenges - 1
Vision-Language-Action Models: Concepts, Progress, Applications and Challengeshttps://arxiv.org/abs/2505.04769 Vision-Language-Action Models: Concepts, Progress, Applications and ChallengesVision-Language-Action (VLA) models mark a transformative advanceme
dogunkim.tistory.com
3. Progress in Vision-Language-Action Models
VLA 모델의 발전은 2022년 ChatGPT의 등장으로부터 촉발되었다. 이 모델이 보여준 강력한 의미 추론 능력은 언어 모델을 시각 인식과 행동 생성까지 확장하려는 시도를 자극했다. 이어서 2023년 GPT-4가 텍스트뿐 아니라 이미지까지 처리할 수 있는 멀티모달 기능을 도입하면서, 언어와 시각, 행동을 통합한 로봇 시스템을 설계하려는 연구가 본격화되었다.
사실 이보다 앞서 CLIP, Flamingo와 같은 비전-언어 모델들은 이미지와 텍스트 사이의 의미 정렬을 통해 강력한 제로샷 인식 능력을 보여주며, VLA의 기반을 마련해왔다. 하지만 이들 모델은 '행동'이라는 물리적 차원을 다루지 못했다.
이 한계를 넘기 위해 구글의 RT-1은 약 13만 개의 로봇 시연 데이터를 수집하여 비전, 언어, 행동 사이의 매핑을 학습하기 위한 행동 접지 action grounding 를 시도했다. 이를 기반으로 발전된 RT-2는 비전, 언어, 행동 토큰을 하나의 시퀀스로 통합하여 오토리그레시브하게 제어 시퀀스를 생성하는 VLA 모델로 등장했으며, DCT와 BPE를 활용해 토큰 공간의 압축 및 표현력을 향상시켰다.
한편, UC Berkeley의 Octo 모델은 디퓨전 기반 디코더를 도입하고, OpenX-Embodiment 데이터셋에 기반한 80만 개 이상의 시연을 통해 훈련되며, 오픈소스 기반의 대규모 VLA 연구 확장에 기여하고 있다.
3-1. Architectural Innovations in VLA Models
2023년부터 2024년까지 VLA 모델들은 아키텍처와 학습 전략 모두에서 큰 발전을 이루었다. 대표적으로 듀얼 시스템 아키텍처가 등장했는데, NVIDIA의 Groot N1처럼 빠른 디퓨전 정책 System 1과 고수준 계획을 위한 LLM System 2을 결합해 실시간 제어와 전략적 계획을 동시에 가능하게 했다.
OpenVLA와 같은 오픈소스 VLA도 등장하며 대규모 시연 데이터와 LLM 기반 구조를 활용해 RT-2-X보다도 뛰어난 성능을 보였다. 이들은 웹 기반 VLM 데이터와 로봇 트래젝토리를 동시에 학습 co-fine-tuning 하여 의미적 지식과 물리적 제약을 일치시키고자 했다.
UniSim 같은 합성 데이터 생성기는 가려진 객체와 같은 어려운 장면을 학습에 활용할 수 있게 했고, LoRA는 적은 연산 자원으로 도메인 적응을 가능케 했다. 특히 pi 0처럼 디퓨전 기반 정책을 사용하는 모델은 행동 다양성을 높이는 데 기여했다.
전체적으로 최근 VLA 모델들은 효율, 모듈성, 견고함을 균형 있게 갖춘 Early Fusion, Dual-System, 그리고 Self-Correcting 구조세 가지 아키텍처 패러다임으로 수렴되고 있다
- Early Fusion Models ((1))
첫 번째 아키텍쳐 패러다임은 시각과 언어 정보를 입력단에서 즉시 결합해 policy 모듈로 넘기는 구조이다.

대표적으로 EF-VLA 모델이 있다. CLIP 사전학습에서 얻은 의미 정렬을 그대로 유지하고, 시각-언어 임베딩을 transformer 초기에 융합해 성능과 일반화를 동시에 확보한다.
- Dual-System Architectures ((2))

두 번째 아키텍쳐 패러다임은 인간 인지의 이중처리 이론에 영감을 받아 빠른 반응 모듈 System 1과 느리지만 고수준 계획을 수행하는 플래너 System 2 두 보완적인 하위 시스템으로 구현된다.
System 1은 매우 낮은 Latency를 보이는 diffusion 기반 제어 정책으로 구성되며, 엔드이펙터 안정화나 적응형 파지와 같은 정밀한 저수준 제어에 적합하다.
System 2는 LLM을 이용해 작업 계획, 스킬 조합, 고수준 시퀀스 생성을 수행하며, 장기 목표를 최소 작업 단위의 하위 작업들로 분해하고, 저수준 컨트롤러는 이를 실시간으로 실행한다.
ex) 식탁 치우기 -> 접시 치우기, 닦기....
- Self-Correcting Frameworks ((3))

세 번째 VLA 시스템은 이제 단순한 계획과 실행을 넘어서, 자체적으로 실패를 감지하고 수정하는 Self-Correcting 구조까지 갖추고 있다. 예를 들어 SC-VLA는 빠르게 동작하는 경로와 느리게 사고하는 경로를 모두 탑재하여, 실패 감지 시 LLM 등을 통해 원인을 분석하고 대안을 생성한다. 이런 구조는 클러터된 환경에서도 회복력을 높이고, 자율성 높은 로봇 시스템을 가능하게 만든다.
위 세 가지 아키텍쳐 구분말고도 다음과 같이도 구분할 수 있다.
- End-to-End vs Modular Pipelines ((4))
End-to-End 구조는 시각과 언어 입력을 하나의 통합된 네트워크로 처리해 곧바로 제어 신호를 생성하는 방식이다.
이와 달리 Modular 구조는 인식·이해·행동 과정을 명시적으로 분리해 각 모듈을 독립적으로 설계하고 개선할 수 있도록 한다.


CLIPort, RT-1, OpenVLA 같은 모델들은 End-to-End 방식으로 입력부터 행동까지를 하나의 모델에서 직접 매핑하며, 파이프라인이 간결하고 통합적으로 설계된다. 반면, VLATest, Chain-of-Affordance는 Modular 방식을 채택해 인식, 언어 grounding, 행동 모듈을 따로 학습함으로써 각 구성 요소를 세밀하게 조정할 수 있는 유연성을 확보한다.
- Hierarchical vs Flat Policy Structures ((5))
Hierarchical 구조는 전략적 목표와 저수준 실행을 분리해 계층적으로 제어하며, Flat 구조는 하나의 정책으로 전체 행동을 직접 생성한다. Modulary 구조의 하위 범주이며 좀 더 계층적으로 모듈이 추가된 느낌이라고 생각하자 ㅇㅇ..


CogACT, NaVILA는 LLM 기반의 고수준 플래너가 중간 목표 subgoal를 생성하고, 이를 저수준 컨트롤러가 실행하는 이중 계층 구조를 사용한다. ORION은 QT-Former로 장기 컨텍스트를 집약하고, 생성기반 트래젝토리 플래너로 행동을 계획하는 계층적 연산 방식을 구현한다.
- Low-level vs High-level Policy Emphasis ((6)) # 선택과 집중
일부 VLA 모델은 미세하고 연속적인 동작을 생성하는 저수준 제어에 집중하는 반면, 일부는 추상적 명령 생성에 특화된 고수준 정책에 중점을 둔다.
Pi-0, DexGraspVLA는 diffusion 기반의 저수준 정책으로 부드럽고 다양한 동작을 생성하는 데 최적화되어 있으나, 연산 비용이 높다. 반면 FAST Pi-0 Fast, CoVLA는 빠른 서브골 생성이나 대략적 궤적 예측에 집중하며, 실제 세부 동작은 전통적인 모션 플래너나 보조 모듈에 위임한다.
3-2. Training and Efficiency Advancements in VLA # 학습 전략
VLA 모델은 다중 모달 입력을 통합하고, 계산량을 줄이며, 실시간 제어를 가능하게 하기 위한 학습 및 최적화 기술에서 빠른 발전을 보였다. 다음과 같은 세 가지 핵심 영역을 살펴보자.
- Data-Efficient Learning ((1))
1) Co-fintuning
웹 기반의 거대 비전-언어 데이터셋과 로봇 트래젝토리 데이터셋을 함께 학습시키는 방식이다. 단순히 두 단계를 나눠 사전학습과 파인튜닝을 하는 것이 아니라, 언어적 의미와 물리적 동작을 동시에 정렬하도록 병렬적으로 조정(co-fine-tuning)한다.
ex. OpenVLA는 단 70억 파라미터로 550억 파라미터의 RT-2 변형보다도 16.5% 높은 성공률을 보였다.
2) Synthetic Data Generation # 합성 데이터 생성
UniSim과 같은 합성 시뮬레이터를 활용해 가려진 객체, 복잡한 조명 등 현실의 edge case를 반영한 포토리얼리스틱 장면을 생성한다. 이를 통해 클러터된 환경에서도 견고한 성능을 확보하며, 20% 이상의 성능 향상 효과를 보인다.
3) Self-Supervised Pretraining
행동 학습 전에, 이미지와 텍스트 쌍을 활용한 자가지도 contrastive 학습을 먼저 수행하여, 시각과 언어의 의미를 같은 임베딩 공간에서 정렬해놓는다. 이때 CLIP과 유사하게, ‘이미지와 짝이 맞는 문장’은 가깝게, 아닌 것들은 멀게 학습한다. 이렇게 정렬된 표현 공간 위에서 행동 디코더를 학습하면, 모델이 '언어-시각' 의미를 잘 파악한 상태에서 행동까지 자연스럽게 이어지므로 학습 효율이 올라간다.
- Parameter-Efficient Adaptation ((2))
Low-Rank Adaptation((LoRA)): 거대한 트랜스포머 전체를 다시 학습시키는 대신, 주요 계층에 소형 어댑터 행렬만 삽입하여 효율적으로 도메인 적응을 수행한다. Pi-0 Fast는 단 1천만 개의 어댑터 파라미터로 200Hz의 제어 속도를 유지하며도 성능 저하 없이 작동했다.
- Inference Accleration ((3)) # 추론 속도 업...
1) Compressed Action Tokens + Parallel Decoding
Groot N1 등 듀얼시스템 구조에서, 액션 토큰을 압축하고 병렬 디코딩을 수행해 제어 속도를 2.5배 향상시키며, sub-5ms의 낮은 지연을 달성했다.
2) Hardware-Aware Optimization
텐서코어 정밀도 양자화, pipelined attention 등을 통해 8GB 미만의 메모리에서도 실행 가능하게 하며, 임베디드 GPU 상에서도 실시간 추론을 가능케 한다.
3-3. Parameter-Efficient Methods and Acceleration Techniques in VLA Models
VLA 모델은 대규모 파라미터와 멀티모달 연산이라는 구조적 특성상, 실시간 제어나 로컬 디바이스에서의 운용에 큰 제약이 있었다. 이를 극복하기 위한 최근 연구들은 파라미터 효율성과 추론 가속 두 축에서 다양한 기술적 최적화를 시도해왔다. 대표적으로는 다음과 같은 7가지 접근법이 있다.
1) Low-Rank Adaptation (LoRA)
기존 트랜스포머 계층을 고정한 채로, 저차원의 어댑터 행렬만을 삽입해 파라미터 수를 획기적으로 줄인다. 예를 들어 OpenVLA는 전체 70억 파라미터 중 단 2천만 개만 학습하며도, 24시간 이내에 commodity GPU에서 학습을 완료했고, 기존 RT-2 수준의 성능을 유지했다. 이는 수퍼컴퓨팅 리소스가 없는 실험실에서도 대형 VLA를 실용화할 수 있게 만든다.
2) Quantization
파라미터 정밀도를 8비트 정수 INT8로 낮춰 연산 속도와 메모리 효율을 동시에 개선한다. Jetson Orin과 같은 임베디드 GPU에서도 pick-and-place 작업에서 97% 성능을 유지했고, 정밀 제어 작업에서도 5% 이하의 정확도 감소만을 보였다. 센서 입력의 동적 범위가 큰 경우, 채널 단위 보정을 통한 정밀 양자화post-training quantization로 추가적인 성능 저하를 방지한다.
3) Model Pruning
전체 모델 중 중요도가 낮은 어텐션 헤드나 피드포워드 블록을 제거해 연산량을 줄이는 기법이다. 초기 실험에서는 ConvNet 기반 디퓨전 정책에 대해 최대 20% 프루닝해도 그립 안정성에 큰 영향이 없었으며, 트랜스포머 기반 VLA에서도 25%의 메모리 절감과 2% 미만의 성능 저하로 효율성을 입증했다.
4) Compressed Action Tokenization

Compressed Action Tokenization(FAST)은 긴 제어 시퀀스를 주파수 기반의 압축된 토큰으로 변환해 추론 속도를 높인다. Pi-0 Fast 모델은 1초짜리 제어 시퀀스를 16개의 토큰으로 변환하고, 200Hz로 동작할 수 있었다. 미세한 궤적 정밀도를 일부 희생하지만, 동적인 양손 조립처럼 고주파 제어가 필요한 작업에서는 매우 효과적이다
ex. 1초에 100Hz로 제어하려면 100개의 연속적인 액션 벡터 시퀀스 필요함 -> DCT를 사용해 16개의 주파수 성분 토큰
으로 압축 -> 16개 토큰만으로도 전체 1초짜리 제어 궤적을 복원 가능
cf. DCT = Discrete Cosine Transform: 액션 시퀀스를 주파수 성분으로 변환
5) Parallel Decoding and Action Chunking
Parallel Decoding과 Action Chunking은 오토리그레시브 구조의 병목을 해소하기 위한 접근이다. 병렬 디코딩을 통해 토큰 그룹을 동시에 생성함으로써 지연을 줄였고, 액션 청킹을 통해 복잡한 루틴을 단일 토큰으로 추상화해 제어 단계를 40% 이상 단축시킬 수 있었다. 예를 들어 '컵을 집고 옮기기' 같은 루틴을 하나의 명령으로 처리한다.
ex. Parallel Decoding: 컵을 잡고, 들어올리고, 이동 후, 내려놓기를 위한 4개 하위 동작 액션 토큰을 병럴로 한 번에 디코딩
ex. Action Chunking: 위 4개의 하위 동작을 따로 예측하는 대신, “컵을 집어 들어 옮기기” 전체를 하나의 Chunk된 액션으로 예측
6) Reinforcement Learning–Supervised Hybrid Training
RL-Supervised 하이브리드 학습은 강화학습과 인간 시연 데이터를 번갈아 사용하는 방식이다. iRe-VLA는 시뮬레이터에서 RL을 수행하고, 이를 인간 시연을 통해 안정화하며, DPO와 Conservative Q-Learning을 이용해 보상 모델을 조정하고 오버슈팅 문제를 완화했다. 특히 sparse reward 환경에서 강건한 정책을 형성할 수 있다.
-> 이게 엄청 재밌는 접근인 것 같다 ㅇㅇ.. 그냥 모방학습만 하면 너무 멍청해지니까..
7) Hardware-Aware Optimizations
Hardware-Aware Optimization은 NVIDIA TensorRT-LLM과 같은 컴파일러 수준의 최적화를 통해 트랜스포머와 디퓨전 모델의 연산을 가속화한다. OpenVLA-OFT는 RTX A2000에서 추론 속도를 30% 줄이고, 에너지 소모를 25% 감소시켜 실시간 임베디드 제어를 실현했다. 이러한 최적화는 이동형 로봇이나 드론처럼 전력 제약이 있는 플랫폼에서 특히 중요하다.
3-4. Applications of Vision-Language-Action Models
Vision-Language-Action VLA 모델은 시각, 언어, 행동을 하나의 통합된 구조에서 다루며, 실제 환경과의 자연스러운 상호작용을 가능하게 하는 차세대 로봇 지능의 핵심 구성요소로 자리 잡고 있다. VLA는 시각과 언어 정보를 의미 공간에서 정렬하고, 이를 기반으로 문맥에 맞는 행동을 생성함으로써 다양한 물리적 환경에서 적용 가능하다.
현재 VLA는 사람 형태의 로봇부터 자율주행, 산업 제조, 농업, AR 내비게이션까지 다양한 분야에 걸쳐 실용화되고 있다. 아래에서는 각 분야별 대표적 적용 사례들을 정리해보자.

3-4.1. Humanoid Robotics
휴머노이드 로봇은 인간의 형태와 기능을 모방하는 복잡한 플랫폼으로, 시각 인식, 언어 이해, 정밀한 신체 제어가 통합적으로 요구된다. 전통적인 로봇 시스템은 각 작업마다 별도로 프로그래밍하거나 모듈을 조합해 행동을 설계해야 했지만, VLA 모델은 이를 단일 프레임워크로 통합하며 시각–언어–행동을 하나의 토큰 기반 표현 위에서 처리한다는 점에서 큰 차이를 보인다.
VLA의 가장 큰 장점은 엔드투엔드로 학습 가능한 통합 구조를 통해 시각 RGB-D 이미지, 언어 음성 혹은 텍스트 명령, 행동 관절 제어 시퀀스을 일관된 의미 공간에서 해석하고 제어할 수 있다는 점이다.
사례: Helix (Figure AI)
Figure AI에서 개발한 Helix 2는 이러한 구조의 대표적인 구현체다. 이 로봇은 듀얼 시스템 구조를 갖추고 있으며, 시각-언어 입력은 멀티모달 Transformer가 처리하고, 제어 정책은 200Hz 속도로 동작해 팔, 손가락, 상체를 정밀하게 실시간 제어할 수 있다. 덕분에 Helix는 훈련되지 않은 객체나 새로운 작업에도 일반화된 행동을 수행하며, 환경 변화에 즉각적으로 적응할 수 있다.
예: “냉장고에서 물병 꺼내줘”라는 명령이 주어지면, DINOv2나 SigLIP 같은 비전 모델이 냉장고와 손잡이, 병을 식별하고, LLaMA-2 같은 LLM이 명령을 토큰화하고 시각 정보와 융합한다. 이 표현은 고수준 정책에 의해 작업 순서 냉장고 식별 → 문 열기 → 병 인식 → 집기로 변환되고, 미드레벨 플래너가 그립 방식이나 관절 궤적을 정의한 뒤, 디퓨전 기반 저수준 제어기가 이를 실행한다.
심지어 병이 기울어져 있거나 미끄러지는 등의 변화가 발생할 경우, Helix는 피드백을 바탕으로 마이크로 정책 수정(micro-policy refinement)을 실시간으로 수행해 안정적인 동작을 유지한다.
3-4.2. Autonomous Vehicle Systems
자율주행 분야는 VLA 모델의 핵심 응용처 중 하나로, 시각 인식, 언어 이해, 그리고 실시간 제어가 긴밀하게 통합되어야 하는 안전 중심 환경이다. 전통적인 자율주행 파이프라인은 인식–계획–제어를 모듈로 나누지만, VLA는 이를 하나의 오토리그레시브 모델에서 통합 처리한다.
VLA 기반 자율주행 차량은 단순히 물체를 감지하는 것을 넘어, 언어적 지시나 인간 행동의 의미까지 이해하고 이에 맞는 주행 결정을 내릴 수 있다. 예를 들어 "주유소 지나 두 번째 골목에서 우회전해" 같은 지시는 시각·언어의 의미적 통합을 필요로 한다.


CoVLA: 80시간 이상의 주행 영상, 센서 데이터 LiDAR, Odometry , 자연어 주석, 고해상도 주행 궤적을 포함한 대규모 멀티모달 데이터셋 기반 모델.
CLIP 기반 시각 인코딩 + LLaMA-2 명령 해석 + Trajectory 디코더 조합 “앰뷸런스에게 양보해” 같은 자연어도 이해하여 제어에 반영
OpenDriveVLA: 2D/3D 시점 토큰과 자연어를 계층적으로 정렬해, 사람이 해석 가능한 주행 계획 ex. 조향각, 가속을 생성
egocentric + world-centric 시각 정보 통합 자율주행 QA 및 계획 문제에서 SOTA 성능
ORION: QT-Former로 긴 시각 컨텍스트 유지, LLM으로 문맥 추론, Trajectory Planner로 연속 제어
“빨간 트럭 지나 출구로 빠져” 같은 모호한 지시를 처리 가능 폐루프 제어까지 포함한 완전 통합형 구조
3-4.3. Industrial Robotics
기존 산업 로봇은 정해진 순서와 환경에만 작동했으나, CogACT 같은 VLA는 비전-언어 입력을 통해 작업 지시를 이해하고 디퓨전 트랜스포머로 정밀한 조작을 수행한다. 이 프레임워크는 공용 언어 인코더와 행동 디코더를 분리해 도구나 배치가 바뀌더라도 빠른 적응이 가능하다. 실제 조립, 나사 조이기, 분류 등 고정밀 작업에서 OpenVLA 대비 59% 높은 성공률을 기록했다.
3-4.4. Healthcare and Medical Robotics

수술 로봇, 환자 보조 시스템 등 의료 환경에서도 VLA는 시각 인식, 언어 이해, 정밀 제어를 실시간으로 통합한다. 예를 들어 RoboNurse-VLA는 음성 명령으로 외과 도구를 넘겨주는 기능을 수행하며, 다양한 조명, 도구, 환경에서도 견고한 성능을 보인다. 자가지도 학습, LoRA 기반 도메인 적응, 장면 기반 설명 가능성이 더해져 의료 인증에도 유리하다.
3-4.5. Precision and Automated Agriculture
VLA 기반 농업 로봇은 작물 식별, 병해 감지, 선택적 수확 등에서 뛰어난 적응성과 범용성을 보인다. RGB-D, 멀티스펙트럼 영상과 자연어 명령을 통합하여 “관개 트렌치 근처에서 잘 익은 사과만 수확” 같은 작업을 수행한다. 합성 데이터 기반 학습, LoRA, 액션 토큰화, 디퓨전 기반 정책을 통해 다양한 작물, 계절, 지역에도 대응한다.
3-4.6. Interactive AR Navigation with Vision-Language-Action Models
스마트 글래스나 폰을 통한 증강현실(AR) 환경에서 VLA는 복잡한 장면 해석과 자유로운 명령 이해를 바탕으로 맞춤형 길안내를 제공한다. 예를 들어 “Gate 22까지 가되 계단은 피해서” 같은 명령에 따라 실시간 경로 시각화를 수행하며, 시야 내 랜드마크, 장애물, 혼잡도 등을 기반으로 루트를 동적으로 수정한다. IoT, 디지털 트윈과 통합되어 물류, 공장, 공공시설 내 안내도 지원 가능하다.
4. Challenges and Limitations of Vision-Language-Action Models
4-1. Real-Time Inference Constraints
4-2. Multimodal Action Representation and Safety Assurance
4-3. Dataset Bias, Grounding, and Generalization to Unseen Tasks
4-4. System Integration Complexity and Computational Demands
여담.

그냥 무지성으로 GPT 돌린 것 같은 서베이 논문같았는데 논문 맨 마지막에 저런게 있더라..... 뭐가 있는지는 대충 알 수 있으나 이상한 문장도 많고 여기서 말해놓고 저기서 또 말하는 것도 많고 뭔가 뭔가다 ㅇㅇ..... 굳이 제대로 읽기 보다는 그냥 대충 gpt 돌려서 함 읽고 넘어가면 될 듯 하다....