Attention please

[논문 리뷰] SAMScore: A Semantic Structural Similarity Metricfor Image Translation Evaluation(2023) 본문

논문 리뷰/Image generation

[논문 리뷰] SAMScore: A Semantic Structural Similarity Metricfor Image Translation Evaluation(2023)

Seongmin.C 2024. 2. 21. 03:44
728x90

이번에 리뷰할 논문은 SAMScore: A Semantic Structural Similarity Metric for Image Translation Evaluation 입니다. 

 

https://paperswithcode.com/paper/samscore-a-semantic-structural-similarity/review/

 

Papers with Code - Paper tables with annotated results for SAMScore: A Semantic Structural Similarity Metric for Image Translati

Paper tables with annotated results for SAMScore: A Semantic Structural Similarity Metric for Image Translation Evaluation

paperswithcode.com

 

 

 

 

저는 최근에 사람의 텍스트를 입력 받아 흑백 이미지를 채색된 이미지로 변환시켜주는 프로젝트를 진행했었습니다. 

2023.12.10 - [프로젝트] - Instruct pix2pix 모델을 활용한 텍스트 기반 캐릭터 자동 채색 시스템 구축

 

Instruct pix2pix 모델을 활용한 텍스트 기반 캐릭터 자동 채색 시스템 구축

Why Did We Start This Project? 이번 프로젝트는 생성 모델 중 캡션을 기반으로 하여 이미지를 변환시키도록 학습된 instruct pix2pix 모델을 활용하여 채색이 되지 않은 캐릭터 사진을 단순히 텍스트만으로

smcho1201.tistory.com

 

하지만 이내 저는 이런 궁금증이 들었습니다. 

 

 

"생성된 이미지를 사람의 주관적인 평가가 아닌 수치적인 지표로 평가할 수 있을까?"

 

 

이번에 리뷰할 논문은 최근 높은 성능을 보여주었던 Segment Anything Model(SAM) 모델을 활용한 SAMScore를 제안하였습니다. 이미지 변환에 있어 가장 중요한 것은 생성된 이미지가 소스 이미지와 비교했을 때 의미론적 구조 정보(semantic structural information)의 견고함을 보여야 합니다. 단순히 채색에 대한 변환을 요구했지만 객체의 형태까지 변환된다면 이는 제대로 수행되었다고 볼 수 없는 것이죠. 

 

사실 이전에도 이미지 변환을 위해 제안된 평가 지표들이 존재했습니다. 예를 들면 L2 norm, Peak Signal-to-Noise Ratio(PSNR), Structural Similarity Index(SSIM) 등이 있죠. 이러한 지표들은 이미지의 유사성을 측정하는 데에는 능숙하지만 고수준의 의미 이해(Semantic understanding)를 지표에 담을 수 없다는 한계가 존재했습니다. 물론 이러한 점을 해결하기 위해 FCNScore(Fully-convolutional-Network Score)가 제안되었습니다. 해당 지표는 FCN을 통해 의미론적 분할을 수행하여 간접적으로 구조적 유사성에 접근할 수 있었으나, 해당 데이터셋의 레이블링을 통해 학습을 해야한다는 단점이 존재했습니다. 또한 생성 전후의 도메인 차이로 인해 이미지 분할의 성능이 떨어지는 것도 감수해야 했죠. 

 

본 논문은 기존 평가지표들의 단점을 보완하고자 최근 높은 성능을 보이는 SAM모델을 사용하였습니다. 이는 FCN과 달리 다양한 도메인에서 높은 zero-shot 성능을 보여주었으며, 높은 의미 구조 정보를 추출할 수 있다는 특징이 존재했습니다. 이런 SAM을 encoder로 사용하여 생성된 이미지의 의미 구조의 보존 정도를 평가할 수 있는 SAMScore를 제안하게 됩니다. 

 

 

SAM Encoder

변환 전후의 이미지를 의미 구조 정보(semantic structural information)이 풍부한 고수준의 이미지 임베딩 공간으로 각각 매핑하기 위해 SAM Encoder를 거치게 됩니다. 이때 Encoder는 $ \varepsilon  $ 으로 표기합니다. 또한 변환 전 소스 이미지와 생성된 이미지는 각각 $ X_{0}, Y_{0} $으로 표기하며, SAM Encoder를 거쳐 나온 임베딩들은 $ X_{E}, Y_{E} $으로 표기합니다. 

 

 

임베딩되기 전 $ X_{0}, Y_{0} $의 shape은 $ C_{0} \times H_{0} \times W_{0} $ 이며, 표준 SAM Encoder를 적용한 임베딩 $ X_{E}, Y_{E} $의 경우 $ C $는 256이고, $ H $ 와 $ W $는 입력 이미지의 해상도의 1/16의 크기를 가진다고 합니다. 

 

 

Similarity Metrics

다음으로 소스 이미지와 변환 이미지의 유사성을 구하기 위해 임베딩 벡터의 코사인 유사도(cosine similarity)를 계산합니다. 간단하지만 벡터의 크기가 아닌 방향만을 고려하여 유사도를 계산하기 때문에 소량의 노이즈에 대해 견고함(Robustness)를 가진다는 특징이 존재합니다. 

 

 

각 픽셀에 대한 코사인 유사도 계산은 다음과 같이 표기합니다. 

 

 

모든 픽셀에 대해 코사인 유사도를 구하여 $ 1 \times H \times W $의 shape을 가지는 Cosine Similarity Matrix를 구했다면 각 픽셀의 유사도를 모두 더한 후 픽셀의 개수로 나누어 최종적인 SAMScore를 구할 수 있게 됩니다. 

 

 

 

 

Evaluation

다음으로는 본 논문에서 제안한 SAMScore가 다른 지표들에 비해 생성 전 후 이미지 사이의 의미 구조 유사성(semantic structural similarity)을 잘 판단하는지 실험을 진행합니다. 해당 실험을 위해 생성된 이미지에서 "piecewise affine transformation을 통한 기하학적 왜곡""가우시안 노이즈 추가"를 통해 왜곡 정도를 늘려가며 SAMScore의 결과와 왜곡 수준의 절대 피어슨 상관계수(absolute Pearson Correlation)을 측정하였습니다. 비교 실험으로 사용된 기존의 지표들은 L2 norm, PSNR, SSIM, LPIPS 이 사용되었습니다.

 

 

위 그림은 CycleGAN 모델의 변환된 이미지에서 Piecewise Affine Deformation 정도를 점점 늘려가며 각 지표들의 수치를 시각적으로 보여줍니다. 선형적인 왜곡이기 때문에 의미 구조 정보가 점점 사라지게 되며, 만약 의미 구조 보존을 잘 반영하는 평가 지표라면 왜곡의 정도가 심해질 수록 점수가 떨어져야 합니다. 위 그림을 보면 알 수 있듯이 다른 지표에 비해 SAMScore의 수치가 일정하게 떨어지는 것을 확인할 수 있습니다. 

 

 

반대로 가우시안 노이즈(Gaussian Noise)를 주게 되면 구조 자체가 왜곡되는 것이 아니기에 의미 구조 정보가 어느정도 보존이 됩니다. 물론 노이즈의 정도가 심하면 의미 구조 정보의 보존 역시 힘들어지게 되겠죠. 실제로 위 그림을 보면 SAMScore의 수치가 일정 수준의 노이즈까지는 점수가 보존되지만, 노이즈의 정도가 너무 심해지게 되면 점수 역시 떨어지는 것을 확인할 수 있습니다.

 

 

위 표는 다양한 양의 affine geometric 왜곡이 적용되었으며, 상관계수의 수치가 높을 수록 소스와 변환 이미지 간 의미적 차이를 더 잘 포착할 수 있음을 나타냅니다. 실제로 다른 지표와 비교했을 때 SAMScore의 상관 계수 값이 높은 것을 확인할 수 있습니다. 

 

 

 

위 표는 다양한 정도의 gaussian noise로 손상시킨 경우의 상관계수 값을 나타낸 것입니다. 노이즈의 정도가 너무 무겁지 않다면, 상관 계수의 값이 낮을 수록 이미지 간 무작위 노이즈로 인한 변환에 덜 민감한 것을 의미합니다. 위 표를 확인해보면 다른 지표에 비해 SAMScore의 값이 대체로 낮은 것을 확인할 수 있습니다.

 

728x90
Comments