Attention please

[논문 리뷰] Imagine while Reasoning in Space:Multimodal Visualization-of-Thought (2025) 본문

논문 리뷰/Multi-Modal

[논문 리뷰] Imagine while Reasoning in Space:Multimodal Visualization-of-Thought (2025)

Seongmin.C 2025. 3. 14. 15:46
728x90
반응형

 

이번에 리뷰할 논문은 Imagine while Reasoning in Space: Multimodal Visualization-of-Thought 입니다.

 

https://arxiv.org/abs/2501.07542

 

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition ex

arxiv.org

 

 

Chain-of-Thought (CoT) 의 한계

Chain-of-Thought (CoT) prompting은 Large Language Models (LLMs)의 추론 능력을 향상시키기 위해 제안된 기법 중 하나로, 모델이 사고하는 과정을 단계별로 설명할 수 있도록 합니다. 간단하게 예시를 들어보자면, 

 


 

Q : 숫자의 홀수 합 구하기 (4, 8, 9, 15, 12, 2, 1)

A-1: 먼저 숫자들 중 홀수만 남긴다. -> (9, 15, 1)

A-2 : 홀수의 합을 구한다. (9+15+1 = 25)

A-3 : 결과적으로, 홀수의 합은 25 이다.

 


 

와 같이 모델이 질문에 대한 답을 할 때, 한번에 대답을 도출해내는 것이 아닌 인간의 사고방식과 같이 단계적으로 사고 단계를 거쳐 답을 도출해내도록 합니다. 이런 CoT를 통해 "수학적 문제 해결(mathematical reasoning)", 논리적 추론(logical deduction)", "고급 문제 해결 능력(advanced problem-solving capabilities)" 에 대해 성능을 향상시킬 수 있었습니다. 하지만, CoT를 통해 복잡한 공간적 추론(spatial reasoning) 문제를 접근할 때 성능이 크게 저하되는 한계를 보여주죠. 

 

 

Spatial reasoning에 대한 한가지 예시를 들어보자면, 위 그림과 같이 미로 이미지가 주어지고, Action Sequence에 해당하는 대로 행동을 취했을 때 "빨간색 점이 어느 위치에 놓여지게 되는가?" 처럼 시각적으로 추론해야 하는 문제를 의미합니다. 즉, CoT는 언어적 관점에서는 추론 능력이 향상될 수 있어도 Visual 관점에서의 복잡한 추론에서는 한계를 보입니다. 

 

 

 

 

 

기존 Multi-modal CoT 확장 연구

최근 연구에서는, CoT를 Multimodal 모델로 확장하기 위해 꾸준히 연구를 진행해왔으며, 크게 두 가지 접근법을 사용해왔습니다.

  1. 이중 단계 접근법 (Two-Stage Strategies)
  2. ReAct 스타일 파이프라인 (ReAct-Style Pipelines)

 

[1] Two-Stage Strategies 접근법의 경우 이미지 정보를 먼저 추출한 후 텍스트로 변환한 뒤 추론을 진행합니다. 이미지의 정보를 텍스트로 변환하는 데에는 "Captioning", "Scene-graph generation", "bounding box detection" 등을 통해 이미지로부터 정보를 추출하게 됩니다. 다만, 이 접근법의 경우 Visual data를 text로 변환하는 것이기 때문에 이 과정에서 정보 손실이 발생할 수 있다는 한계가 존재합니다.

 

[2] ReAct-Style Pipelines 접근법의 경우 "code interpreter", "specialized vision model" 과 같은 외부 도구와 결합하여 이미지 정보를 처리합니다. 다만, 이 접근법의 경우 별도의 Visual module과 외부 도구에 대한 의존성이 커져, 복잡한 공간적 추론에 적응하기 힘들다는 한계가 존재합니다.

 

 

 

 

 

인간 사고와 멀티모달 모델의 한계

인간 즉, 우리는 어떤 물리적 세계를 이해하고, 개념을 형성할 때 특정 장면(이미지)들을 떠올리면서 생각을 정리합니다. 즉, 인간의 인지 능력은 언어적 사고(Verbal Thinking) 뿐만 아니라 시각적 사고(Visual Thinking)도 함께 수행하는 특징을 가집니다. 

 

https://medium.com/on-breaking-the-mold/the-mind-palace-a-place-for-everything-753688facc6d

 

즉, 인간은 언어적(Verbal) 및 비언어적(Non-verbal) 채널을 동시에 활용하여 정보를 처리하는 반면, 기존 LLM 및 MLLM은 텍스트 기반 사고(verbal reasoning)만을 수행하는 경우가 대부분이며, 이로 인해 공간적 문제를 해결하는 데 한계를 보입니다. 최근 연구에서는 이를 해결하고자 Visualization-of-Thought (VoT) 를 통해, CoT 방식에서 텍스트 기반의 시각화(visualization)를 추가하는 방식으로 공간적 추론을 시도한 바가 있지만, 이 방식 역시 단순한 텍스트 변환에 의존하는 경향이 있으며, 텍스트만으로 복잡한 이미지 패턴이나 공간적 배치를 정확하게 포착하는 데에는 여전히 한계가 존재합니다.

 

 

 

 

 

Main Contribution

최근 연구에서는 멀티모달 모델이 단순한 시각적 입력에 대해 해석하는 것을 넘어서, Image generation까지 수행할 수 있도록 확장되고 있습니다. 이와 같은 Multimodal Generation 이 강화되면서, 모델이 추론하면서 진행한 시각적 사고(Visual Thought)를 직접 생성하는 것이 가능해졌습니다. 이와 같은 발전에 근거하여 본 논문은 다음과 같은 질문을 던집니다.

Can MLLMs imagine in visual modality while reasoning?

 

 

Multimodal Visualization-of-Thought (MVoT)

위 문제를 해결하고자 본 논문에서는 "Multimodal Visualization-of-Thought (MVoT)" 을 제안합니다. 저자는 이를 텍스트와 비전을 결합하여 사고 과정을 생성하는 최초의 멀티모달 추론 패러다임이라 제안합니다. 이는 시각적 사고(Visual Thought)를 통해 복잡한 과제에서 언어적 사고(Verbal Thought)를 보완할 가능성을 제시합니다.

 

Token Discrepancy Loss

기존 MLLM에서 개별 토크나이저 간의 불일치를 해소하여 시각적 사고 품질을 향상시킵니다.

 

Comprehensive Experiments

세 가지의 공간적 추론 과제에서 실험을 수행하였으며, MVoT가 CoT보다 더 높은 Adaptability와 Robustness를 보인다는 것을 증명합니다.

 

 

 

 

 

 

Multimodal Visualization-of-Thought (MVoT)

위에서 말했듯이 인간은 의사 결정을 내릴 때 종종 mental images를 생성하여 사고 과정에 활용합니다. 하지만 기존 모델들은 이러한 시각적 사고를 텍스트 기반의 단순한 대체물(text proxies)로 표현하는 방식에 의존해왔습니다. 

 

MVoT는 이러한 한계를 극복하기 위해, 실제 "시각적 사고(Visual Thought)"를 생성함으로써 모델이 멀티모달 방식으로 추론할 수 있도록 합니다. 즉, 언어적 사고(Verbal Thought)와 시각적 사고(Visual Thought)를 결합하여, 보다 직관적이고 효과적인 멀티모달 추론 과정을 수행할 수 있도록 하는 것이죠.

 

 

Formulation

MVoT는 주어진 멀티모달 Input Sequence인 $x$에 대해 단계별(interleaved) 멀티모달 사고를 생성하여 사고를 도출하는 식으로 진행됩니다. 

  • $P_{\theta}$: Pretrained MLLM (Multimodal Large Language Model)
  • $x$: Input Sequence
  • $z$: Verbal Thought Sequence
  • $v$: Visual Thought Sequence

Multi-Hop 공간 추론 task에서, CoT prompting은 중간 단계인 $\hat{z}_{1},..., \hat{z}_{m}$ 을 생성하며, 각 $\hat{z}_{i}$는 입력 및 이전 단계에서 생성된 사고들을 기반으로 순차적으로 sampling 됩니다. 즉, 최종 결과는 이전 단계들의 사고를 모두 고려하여 도출되게 되는 것이죠. 

 

MVoT는 앞서 말한 CoT prompting 의 process를 확장하여, 각 중간 단계인 $z_{i}$에 대해 시각적 사고(Visual Thought) $v_{i}$를 추가함으로써 개선시킵니다. 즉, 다음 단계인 $z_{i+1}$는 이전 단계들의 언어적 사고(Verbal Thought) $\hat{z}_{1},..., \hat{z}_{i}$ 및 시각적 사고(Visual Thought) $\hat{v}_{1},..., \hat{v}_{i}$ 를 조건으로 하여 sampling 됩니다.

 

수식으로 표현하면 다음과 같습니다.

 

[1] 시각적 사고 $v_{i}$ 생성

$$
\hat{v}_i \sim P_{\theta}(v_i \mid \hat{z}_1, \hat{v}_1, ..., \hat{v}_{i-1}, \hat{z}_i)
$$

이전 언어적 사고 단계인 $\hat{z}_{1},..., \hat{z}_{i}$ 와 이전 시각적 사고인 $\hat{v}_{1},..., \hat{v}_{i}$ 를 바탕으로 새로운 시각적 사고 $\hat{v}_{i}$를 생성합니다. 

 

[2] 다음 언어적 사고 $z_{i+1}$ 생성
$$
\hat{z}_{i+1} \sim P_{\theta}(z_{i+1} \mid x, \hat{z}_1, \hat{v}_1, ..., \hat{z}_i, \hat{v}_i)
$$

이전 단계의 언어적 사고 및 시각적 사고를 입력으로 하여 다음 언어적 사고 $\hat{z}_{i+1}$를 생성합니다. 

 

위와 같은 MVoT 기능을 MLLM에 추가하기 위해, 모델을 멀티모달의 입력인 $x$ 및 해당 출력 라벨에 대해 학습을 진행합니다. 출력 라벨의 경우 멀티모달 근거(multimodal rationales)인 $(z_{1},v_{1}),...,( z_{n},v_{n} )$ 및 최종 정답을 포함시킵니다. 

 

이와 같은 학습 전략을 통해, 모델은 언어적 사고 단계와 해당하는 시각적 사고를 교차적으로 학습(interleaved learning) 하게 되며, 복잡한 멀티모달 추론 작업을 처리하는 능력을 향상시킬 수 있게 됩니다. 

 

 

 

 

 

 

Training with Autoregressive MLLMs

MVoT를 학습시킬 때 이산 이미지 토큰(Discrete Image Tokens)을 사용하여 학습과 추론을 수행하는 자기 회귀 MLLM(Autoregressive MLLM)에 초점을 맞춥니다. 

 

 

Multimodal Sequence Modeling

 

MVoT는 Chameleon architecture를 따르며, Transformer를 사용하여 이미지와 텍스트 토큰을 통합적으로 처리합니다.

2025.03.18 - [논문 리뷰/Multi-Modal] - [논문 리뷰] Chameleon: Mixed-Modal Early-Fusion FoundationModels (2024)

 

[논문 리뷰] Chameleon: Mixed-Modal Early-Fusion FoundationModels (2024)

이번에 리뷰할 논문은 Chameleon: Mixed-Modal Early-Fusion FoundationModels 입니다. https://arxiv.org/abs/2405.09818 Chameleon: Mixed-Modal Early-Fusion Foundation ModelsWe present Chameleon, a family of early-fusion token-based mixed-modal mod

smcho1201.tistory.com

 

해당 Architecture는 다음과 같은 두 가지 개별적인 토크나이저(tokenizer)를 포함합니다.

  • Image Tokenizer
    • 입력 이미지를 Discrete Codebook 기반의 이미지 token sequence로 변환
  • Text Tokenizer
    • 입력 이미지를 언어 모델에서 사용하는 일반적인 Text token sequence로 변환

이렇게 변환된 이미지 및 텍스트 토큰 sequence는 transformer 모델에서 결합하여 처리됩니다.

 

 

Codebook

멀티모달 모델에서 codebook 기반의 이미지 표현 방식을 사용하며, 이미지를 직접 픽셀 단위로 처리하는 대신, 고정된 Discrete Token으로 변환하여 처리합니다. 

 

MLLM의 Codebook은 다음과 같이 정의됩니다.

  • $C \in R^{N \times D}$: 멀티모달 모델의 코드북
    • $N$: 코드북 항목 개수 (ex. 8192개의 이미지 패치)
    • $D$: 각 코드북 항목의 차원 (이미지 임베딩 차원
  • $t_{vis}$ : Visual Codebook Index (몇 번째 인덱스, 코드인가?)
  • $e_{vis}$ : Visual Codebook Embedding (해당 코드에 대응되는 embedding vector)
  • $\hat{t}_{vis}$ : 모델이 예측한 이미지 토큰

 

 

 

 

 

Token Discrepancy Loss

Language Modeling은 Autoregressive Model 내에서 text token과 image token을 통합적으로 처리합니다. 하지만 별도로 학습된 text tokenizer와 image tokenizer 간의 불일치(discrepancy)는 생성된 이미지의 품질을 저하시킬 수 있습니다. 

 

위와 같은 문제를 해결하기 위해, 본 논문에서는 토큰 불일치 손실(Token Discrepancy Loss)을 도입합니다. 이 손실 함수는 Language Modeling과 Visual Embedding Space 간의 격차를 줄이는 역할을 하며, 동시에 Gradient가 유지될 수 있도록 해줍니다.

 

 

토큰 불일치 손실 $L_{D}$ 은 예측된 이미지 토큰과 실제 정답 토큰 사이의 불일치를 최소화하는 것을 목표로 합니다.

 

 

먼저, 이미지 토큰 간의 관계를 포착하기 위해 Similarity Matrix $S$ 를 계산합니다. 이 유사도 행렬 $S \in {N \times N}$ 는 각 이미지 토큰 $t_{vis _{i}}$ 와 다른 이미지 토큰들 간의 pairwise distance 를 측정하게 됩니다. 유사도 값은 MSE를 통해 계산되죠. 

 

위 식과 같이 $e_{vis _{i}}$ 가 주어졌을 때, 모든 N개의 embedding vector 와의 유사도 MSE를 측정하게 되며, 만약 $i$와 유사한 벡터가 있다면 해당 인덱스의 MSE값을 줄어들게 됩니다. 

 

 

모델은 이미지 토큰 vocabulary에서 $i$번째 이미지 토큰에 대한 확률 분포 $P(t_{i}) \in R^{1 \times N}$ 를 예측하게 되며, 모델의 예측값인 $P(t_{i})$ 과 유사도 행렬 $S_{t_{vis_{i}}}$ 과 dot product를 수행함으로써 최종적으로 Token Discrepancy Loss 인 $L_{D}$ 를 구하게 됩니다.

 

이를 통해, $L_{D}$는 예측된 토큰이 실제 정답인 $t^{i}_{vis}$ 와 크게 벗어나는 경우 이를 penalty로 부과하는 방식으로 정의됩니다. 즉, 예측된 시각적 임베딩과 실제 정답 토큰의 임베딩을 정렬(alighment)하여, 생성된 이미지 품질을 향상시키는 역할을 합니다.

 

 

최종적으로 모델을 학습할 때는 앞서 정의했던 토큰 불일치 손실 $L_{D}$ 과 Cross Entropy loss $L_{C}$ 를 결합하여 최종적인 손실 함수를 정의합니다. 

  • $L_{C}$ : 텍스트 토큰과 이미지 토큰에 대한 Cross Entropy Loss
  • $L_{D}$ : 이미지 토큰의 예측 정밀도를 높이기 위한 Token Discrepancy Loss

 

 

 

 

 

 

Spatial Reasoning Tasks

 

본 논문에서는 세 가지의 dynamic reasoning tasks를 선정하였습니다. 위 그림과 같이 이 과제들은 모델이 객체의 위치를 동적으로 파악하고, 환경이 어떻게 변화하는지 이해하며, 특정 행동이 적용될 때 결과를 예측하는 능력을 평가하는 데 중점을 둡니다. 

 

 

 

 

 

 

Experiments

Data

본 논문에서는 Spatial Reasoning Tasks 3개에 대한 데이터셋을 구축하였으며, 각 데이터셋의 자세한 정보는 다음과 같습니다. 

 

 

 

 

Model and Experiments

[훈련 방법]

  • LoRA (Low-Rank Adaptation) 기법을 사용하여 일부 모델 파라미터만 fine-tuning
  • Instruction Tuning 방식으로 MI300X 에서 40 epochs 동안 학습
  • 학습 중에는 예측된 값의 loss만 최적화

 

[비교 실험]

  • GPT-4o3 : Zero-shot 방식으로 평가
  • CoT 및 MVoT : ReAct-style 파이프라인을 적용하여 비교

 

"자세한 Prompting templates 과 hyperparameters 에 대한 내용은 본 논문의 Appendix C 를 참고하시기 바랍니다."

 

 

 

 

 

 

Experiments Results

 

 

[1] MVoT vs. Direct 및 GPT-4o

  • Direct(즉각적인 응답 생성) 방식은 공간적 추론에서 Overfitting 문제가 발생하였으며, 정확도 약 70% 수준에 머뭄
  • GPT-4o 는 Direct 보다도 낮은 성능을 보였으며, CoT prompting 사용 여부와 관계없이 성능이 저조함
  • MVoT는 모든 과제에서 성능이 지속적으로 향상되었으며, Direct 보다 7% 높은 성능을 보임
    • 특히, MAZE와 MINIBEHAVIOR 에서 90% 이상의 정확도를 보임.

 

[2] MVoT vs. CoT (Chain-of-Thought)

  • CoT는 MAZE 및 MAZEBEHAVIOR에서는 95% 이상의 높은 성능을 보임
  • 하지만, FROZENLAKE에서는 Direct 보다도 성능이 떨어짐
    • 환경이 복잡해질수록 성능이 저하됨
  • MVoT는 MAZE(92.95%) 및 MINIBEHAVIOR(95.14%)에서 CoT와 유사한 성능을 보이며, FROZENLAKE에서는 85.60%로 CoT보다 높은 성능을 기록
CoT의 한계점:

환경이 복잡할수록(CoT의 환경 복잡도 민감성) FROZENLAKE에서 CoT 성능이 급격히 저하된다.
이는 CoT가 텍스트 좌표 정보를 기반으로 추론하는데, 복잡한 환경에서는 좌표 오류가 많아지기 때문임 (ex. 3×3 격자에서는 94.01% 정확도, 6×6 격자에서는 39.11%까지 급락)

CoT는 텍스트 설명(좌표 정보)에 과도하게 의존함.
환경을 텍스트로 설명하는 경우 높은 성능을 보이지만, 오직 좌표 정보만 사용할 경우 Direct보다도 성능이 떨어짐 특히 FROZENLAKE에서는 환경 설명이 부정확하면 예측 오류가 빈번하게 발생

-> MVoT는 이러한 CoT의 문제점을 극복하며, 더 강건한 추론을 수행

 

 

 

[3] 시각적 사고(Visual Thought) 와 토큰 불일치 손실(Token Discrepancy Loss)

  • FROZENLAKE 과제에서 토큰 불일치 손실 적용 여부에 따른 시각화 비교
  • 토큰 불일치 손실을 적용하면, 시각화가 더 정밀하게 생성됨 (Blur 현상 감소)
  • 텍스트 기반 예측만 수행하는 기존 모델 대비, 시각화가 포함된 MVoT가 더 직관적이고 정확한 추론을 수행

 

 

 

 

 

 

 

 

 

 

 

728x90
반응형
Comments