6. Bootstrap Your Own Latent A New Approach to Self-Supervised Learning

논문 2024. 3. 23. 16:13

대학원 고급기계학습 3주차? 수업의 첫번째 논문인
"Bootstrap Your Own Latent A New Approach to Self-Supervised Learning," 2020에 대해서 정리를 하려고 한다.

위의 논문 또한 2주차 내용과 큰틀은 비슷하게 self-supervised-learning에 대해서 다루고 있다.

"Bootstrap Your Own Latent (BYOL)"은 SSL를 통한 이미지 표현 학습의 새로운 접근 방법입니다. BYOL은 서로 상호 작용하고 서로로부터 배우는 두 개의 신경망, 즉 온라인 네트워크와 타겟 네트워크를 사용합니다. 한 이미지의 변형된 뷰에서 온라인 네트워크를 훈련시켜 다른 변형된 뷰 아래에서 같은 이미지의 타겟 네트워크 표현을 예측하도록 합니다. 동시에 온라인 네트워크의 천천히 움직이는 평균으로 타겟 네트워크를 업데이트합니다. 최신 방법들이 음성 쌍에 의존하는 반면, BYOL은 이러한 음성 쌍 없이도 새로운 최고 수준의 성능을 달성합니다. BYOL은 ResNet-50 아키텍처를 사용하여 ImageNet에서 74.3%의 top-1 분류 정확도를 달성하고, 더 큰 ResNet을 사용할 경우 79.6%까지 도달합니다. BYOL은 전이 및 준지도 학습 벤치마크에서 현재 최고 수준의 성능과 동등하거나 그 이상의 성능을 보입니다.

두 개의 네트워크(온라인 네트워크와 타겟 네트워크)가 서로를 향상시키는 방식으로 학습합니다.
음성 쌍을 사용하지 않고도 이미지의 유용한 표현을 학습할 수 있음을 입증합니다.
다양한 아키텍처와 데이터셋에서의 폭넓은 실험을 통해 그 효과를 검증합니다.

예를 들어, 우리가 "고양이" 이미지를 가지고 있다고 가정해보겠습니다. 이 이미지로부터 우리는 두 가지 다른 변형된 뷰를 생성합니다. 첫 번째 변형된 뷰는 이미지를 임의로 자르고, 밝기를 조절하여 생성합니다(예: 고양이의 얼굴 주위를 자르고, 밝기를 증가시킴). 두 번째 변형된 뷰는 다른 방식으로 변형됩니다(예: 고양이의 꼬리 부분을 자르고, 이미지를 회전시킴).

1. 온라인 네트워크와 타겟 네트워크의 작동 방식:
온라인 네트워크: 첫 번째 변형된 뷰(예: 고양이의 얼굴 주위가 잘린 이미지)를 입력으로 받습니다. 온라인 네트워크는 이 이미지를 분석하여 고양이 이미지의 특징을 담은 벡터(표현)을 생성합니다. 이 표현은 이미지의 중요한 정보, 예를 들어 고양이의 얼굴 형태, 눈의 위치 등을 압축적으로 포함합니다.
타겟 네트워크: 두 번째 변형된 뷰(예: 고양이의 꼬리 부분이 잘린 이미지)를 입력으로 받습니다. 타겟 네트워크 역시 이 이미지로부터 고양이 이미지의 특징을 담은 벡터를 생성합니다. 이 표현은 첫 번째 변형된 뷰와는 다른, 고양이의 꼬리나 몸통과 같은 다른 특징을 포함할 수 있습니다.

2. 학습 과정:
온라인 네트워크는 자신이 생성한 표현(예: 고양이 얼굴의 특징을 담은 벡터)이 타겟 네트워크가 생성한 표현(예: 고양이 꼬리의 특징을 담은 벡터)과 가능한 유사하도록 학습합니다. 이 과정에서, 온라인 네트워크는 첫 번째 변형된 뷰로부터 얻은 정보를 사용하여 두 번째 변형된 뷰의 정보를 예측하려고 시도합니다.이러한 학습 과정을 통해, 온라인 네트워크는 다양한 변형된 뷰로부터 중요한 정보를 포착하고, 이를 통합하여 이미지의 전체적인 특징을 잘 표현하는 벡터를 생성할 수 있게 됩니다. 동시에, 타겟 네트워크는 온라인 네트워크의 파라미터가 업데이트됨에 따라 천천히 업데이트되어, 온라인 네트워크에 안정적인 목표를 제공합니다.

1. 온라인 네트워크
온라인 네트워크는 학습 과정에서 직접 업데이트되는 네트워크입니다. 입력 이미지의 변형된 뷰를 받아들여, 이미지의 표현을 생성하는 역할을 합니다. 이 표현은 이후 타겟 네트워크에서 생성된 표현과 비교되어, 두 표현 간의 유사도를 최대화하는 방향으로 네트워크의 파라미터가 업데이트됩니다.

2. 타겟 네트워크
타겟 네트워크는 온라인 네트워크와 동일한 아키텍처를 가지고 있지만, 파라미터는 직접적으로 업데이트되지 않습니다. 대신, 온라인 네트워크의 파라미터에 기반하여 천천히 업데이트됩니다(예를 들어, 지수 가중 이동 평균을 사용). 이를 통해, 타겟 네트워크는 일종의 안정적인 기준점 역할을 하게 되어, 온라인 네트워크가 과도하게 빠르게 변화하는 것을 방지하고, 학습 과정에서 일관성 있는 타겟을 제공합니다.

3. 상호 작용과 학습 과정
학습 과정에서 입력 이미지는 두 가지 다른 방법으로 변형되어 각각 온라인 네트워크와 타겟 네트워크에 입력됩니다. 온라인 네트워크는 자신의 표현을 생성하고, 이를 타겟 네트워크에서 생성된 표현과 비교하여 유사도를 최대화하도록 학습합니다. 이러한 과정은 두 네트워크가 서로의 출력을 타겟으로 사용하여, 서로로부터 배우고 상호 작용하는 구조를 형성합니다.

음성 쌍(negative pairs)에 의존하는 것은 대조적 학습(contrastive learning)의 전형적인 접근 방식 중 하나입니다. 이 방식에서는 같은 이미지의 다른 변형(양성 쌍, positive pairs)의 표현들을 서로 가깝게 하고, 서로 다른 이미지(음성 쌍)의 표현들을 서로 멀게 하는 것을 목표로 합니다. 이러한 접근 방식은 고차원 데이터를 저차원의 의미있는 표현으로 변환할 때, 서로 다른 데이터 포인트들이 잘 분리되도록 돕습니다. 즉, 유사한 이미지는 표현 공간에서 서로 가까이 배치되고, 서로 다른 이미지는 멀리 배치되어야 합니다.

BYOL의 접근 방식
BYOL(BBootstrap Your Own Latent)은 이러한 음성 쌍에 의존하지 않고도 효과적인 이미지 표현을 학습할 수 있는 새로운 메커니즘을 제안합니다. BYOL은 대신 양성 쌍만을 사용하며, 특히 한 이미지의 서로 다른 두 변형된 뷰를 사용하여 학습합니다. 그러나 대조적 학습에서 발생할 수 있는 문제점 중 하나는, 양성 쌍만을 사용할 경우 모든 이미지가 같은 점(예: 평균)으로 수렴할 위험이 있다는 것입니다. 이는 학습된 표현이 모든 이미지에 대해 동일하거나 매우 유사한 값으로 수렴하게 되어, 실질적으로 유용하지 않은 표현을 만들어내는 결과로 이어질 수 있습니다.

BYOL이 음성 쌍 없이도 효과적인 이유
BYOL은 온라인 네트워크와 타겟 네트워크라는 두 개의 네트워크를 사용하고, 이들 사이의 상호 작용을 통해 학습합니다. 온라인 네트워크는 한 이미지의 변형된 뷰에서 생성된 표현을 사용하여 다른 변형된 뷰에서 타겟 네트워크가 생성한 표현을 예측하려고 시도합니다. 이 과정에서 온라인 네트워크는 타겟 네트워크로부터 학습하는 동시에, 타겟 네트워크는 온라인 네트워크의 파라미터 변경에 따라 천천히 업데이트됩니다. 이렇게 함으로써 BYOL은 양성 쌍 사이의 관계만을 기반으로 효과적인 표현 학습을 달성할 수 있습니다.

BYOL의 핵심은 온라인 네트워크와 타겟 네트워크가 서로를 '따라잡으려는' 과정에서 서로 다른 이미지들 사이에서도 충분히 구별 가능한 표현을 학습한다는 것입니다. 즉, 온라인 네트워크가 타겟 네트워크의 출력을 계속해서 추측하려고 시도함으로써, 서로 다른 이미지들이 표현 공간에서 잘 분리될 수 있도록 유도합니다. 이는 음성 쌍을 명시적으로 사용하지 않음에도 불구하고, 학습 과정에서 자연스럽게 서로 다른 이미지들이 구별되는 효과를 만들어냅니다.

"1 Introduction" 섹션에서는 이미지 표현 학습의 중요성과 이를 위해 제안된 다양한 접근 방법들에 대해 설명하고 있습니다. 좋은 이미지 표현을 학습하는 것은 컴퓨터 비전에서의 핵심적인 도전 과제 중 하나로, 이를 통해 다운스트림 작업(예: 객체 검출, 의미론적 분할 등)의 효율적인 훈련이 가능해집니다. 이러한 표현을 학습하기 위해 시각적 전처리 작업에 의존하는 다양한 훈련 접근 방법들이 제안되었습니다. 이 중에서도 state-of-the-art인 대조적 방법들은 같은 이미지의 다른 변형된 뷰들 사이의 거리를 줄이고(‘양성 쌍’), 다른 이미지들의 변형된 뷰들 사이의 거리를 늘리는(‘음성 쌍’) 방식으로 훈련됩니다. 이러한 방법들은 음성 쌍을 적절히 처리하는 것이 중요하며, 이를 위해 큰 배치 크기, 메모리 뱅크, 또는 맞춤형 마이닝 전략에 의존합니다. 또한, 이들의 성능은 이미지 변형의 선택에 크게 의존합니다.

이 논문에서는 음성 쌍을 사용하지 않고도 이미지 표현을 자기지도 학습할 수 있는 새로운 알고리즘인 "Bootstrap Your Own Latent (BYOL)"을 소개합니다. BYOL은 두 개의 신경망(온라인 네트워크와 타겟 네트워크)을 사용하여, 한 이미지의 변형된 뷰로부터 다른 변형된 뷰에 대한 표현을 예측하는 방식으로 학습됩니다. 이 과정에서, 온라인 네트워크의 천천히 변하는 평균으로 타겟 네트워크를 업데이트함으로써, 음성 쌍 없이도 상호 향상적인 학습이 가능함을 보여줍니다. BYOL은 최신 대조적 방법들보다 높은 성능을 달성하며, 이는 음성 쌍에 의존하지 않는 접근 방법의 잠재력을 시사합니다.

"2 Related work" 섹션에서는 이미지 표현 학습에 대한 기존의 연구들과 BYOL이 제안되기 이전의 관련 작업들을 다룹니다. 대표적으로 두 가지 주요 카테고리로 나뉘는데, 하나는 생성적 방법(generative approaches)이고 다른 하나는 판별적 방법(discriminative approaches)입니다.

생성적 방법은 데이터와 잠재 표현 사이의 분포를 모델링하는 데 중점을 둡니다. 이러한 접근 방법은 이미지의 자동 인코딩이나 적대적 학습을 통해 이미지 표현을 학습합니다. 생성적 방법은 일반적으로 픽셀 공간에서 직접 작동하는데, 이는 계산 비용이 많이 들고 이미지 생성에 필요한 고도의 세부 사항이 표현 학습에는 반드시 필요하지 않을 수 있다는 단점이 있습니다.

반면, 판별적 방법, 특히 최근에는 대조적 방법(contrastive methods)이 자기지도 학습에서 주목받고 있습니다. 대조적 방법은 양성 쌍(같은 이미지의 다른 뷰)의 표현을 가깝게 하고 음성 쌍(다른 이미지의 뷰)의 표현을 멀어지게 하여 학습합니다. 이러한 방법은 각 예시를 많은 다른 예시와 비교해야 효과적으로 작동한다는 특징이 있습니다. 이 섹션에서는 음성 쌍을 사용하지 않으면서 표현을 학습할 수 있는 DeepCluster와 같은 방법도 언급합니다. DeepCluster는 이전 버전의 표현을 사용하여 다음 표현의 타겟을 생성하며, 이는 비용이 많이 드는 클러스터링 단계와 특정 조치를 필요로 합니다.

BYOL(BBootstrap Your Own Latent)은 이미지 표현 학습을 위한 자기지도 학습 방법입니다. 이 방법은 온라인 네트워크와 타겟 네트워크라는 두 개의 신경망을 사용합니다. 각 네트워크는 이미지의 변형된 두 뷰로부터 표현을 생성하고, 온라인 네트워크는 자신의 표현이 타겟 네트워크의 표현과 유사하도록 학습합니다.

네트워크 구조
- 온라인 네트워크 : 온라인 네트워크는 가중치 세트 $θ$를 사용하며, 인코더 $f_θ$, 프로젝터 $g_θ$, 그리고 예측기 $q_θ$로 구성됩니다.
- 타겟 네트워크 : 타겟 네트워크는 온라인 네트워크와 동일한 구조를 가지지만, 다른 가중치 세트 $ξ$를 사용합니다. 타겟 네트워크의 가중치는 온라인 네트워크의 가중치의 지수 가중 이동 평균을 통해 업데이트됩니다.

학습 과정
1. 이미지 증강 : 이미지 집합 $D$에서 이미지 $x$를 샘플링하고, 이미지 증강 분포 $T$와 $T'$를 통해 두 개의 변형된 뷰 $v = t(x)$와 $v' = t'(x)$를 생성합니다.
2. 표현 및 프로젝션 생성 :
   - 온라인 네트워크는 첫 번째 뷰 $v$로부터 표현 $y_θ = f_θ(v)$와 프로젝션 $z_θ = g_θ(y_θ)$를 생성합니다.
   - 타겟 네트워크는 두 번째 뷰 $v'$로부터 타겟 표현 $y_ξ = f_ξ(v')$와 타겟 프로젝션 $z_ξ = g_ξ(y_ξ)$를 생성합니다.
3. 손실 계산 : 온라인 네트워크의 프로젝션 $z_θ$에 대한 예측 $q_θ(z_θ)$와 타겟 네트워크의 프로젝션 $z_ξ$를 사용하여 평균 제곱 오차 손실을 계산합니다.

   손실 함수는 다음과 같습니다:
   $ L(θ, ξ) = \| \text{normalize}(q_θ(z_θ)) - \text{normalize}(z_ξ) \|_2^2$

4. 타겟 네트워크 업데이트 : 타겟 네트워크의 가중치 $ξ$는 온라인 네트워크의 가중치 $θ$의 지수 가중 이동 평균을 사용하여 업데이트됩니다. 이는 타겟 네트워크가 제공하는 회귀 타겟을 안정적으로 유지하도록 합니다.

결론
BYOL은 효과적인 이미지 표현 학습을 위해 온라인 네트워크와 타겟 네트워크 사이의 상호 작용을 활용합니다. 이 방법은 라벨이 없는 이미지 데이터로부터 복잡한 특징을 학습할 수 있으며, 타겟 네트워크의 천천히 변화하는 특성을 통해학습 과정의 안정성을 높이고 모델이 일관된 목표를 향해 나아갈 수 있도록 돕습니다. 이는 전통적인 자기지도 학습 방식에서 발생할 수 있는 몇 가지 문제점, 예를 들어 모든 이미지에 대해 동일하거나 유사한 표현으로 수렴하는 현상을 피하는 데에 도움이 됩니다.

핵심 포인트

동적인 타겟 네트워크: 타겟 네트워크는 온라인 네트워크의 천천히 변화하는 지수 가중 평균으로 업데이트되므로, 온라인 네트워크에 비해 변동성이 적습니다. 이는 학습 과정에서 온라인 네트워크가 안정적인 타겟을 향해 나아갈 수 있도록 합니다.
라벨 없는 학습: BYOL은 라벨이 없는 데이터로부터 효과적인 표현을 학습할 수 있는 방법을 제공합니다. 이는 대규모 데이터셋에서의 학습에 특히 유용하며, 다양한 다운스트림 작업에 적용될 수 있는 강력한 이미지 표현을 생성할 수 있습니다.
데이터 증강의 활용: 변형된 이미지 뷰를 생성하기 위한 데이터 증강 방법은 모델이 더 다양한 시각적 변형에 대해 강인한 표현을 학습할 수 있도록 합니다. 이는 모델의 일반화 능력을 향상시키는 데 중요한 역할을 합니다.

BYOL의 접근 방식은 이미지 처리 뿐만 아니라, 원리적으로는 자연어 처리(NLP)나 다른 데이터 유형에도 적용될 수 있는 가능성을 가집니다. 핵심은 데이터의 변형된 뷰들로부터 학습하는 것이며, 이를 통해 복잡한 데이터 구조를 이해하고 유의미한 표현을 추출하는 것입니다.

BYOL은 자기지도 학습 분야에서 중요한 발전을 나타내며, 이 방법론을 바탕으로 한 후속 연구와 응용이 계속해서 등장할 것으로 예상됩니다. 이러한 연구는 모델의 학습 효율성을 높이고, 라벨이 필요 없는 상황에서도 강력한 표현 학습 방법을 개발하는 데 기여할 수 있습니다.

수식은 타겟 네트워크의 파라미터 $ \xi $를 업데이트하는 과정을 나타냅니다. 이 수식은 지수 가중 이동 평균(Exponential Moving Average, EMA)의 한 형태로 사용되며, BYOL 학습 알고리즘에서 중요한 역할을 합니다.
수식에서 $ \tau $는 타겟 감쇠율(target decay rate)로, 0과 1 사이의 값으로 설정됩니다. 이는 타겟 네트워크의 파라미터를 업데이트할 때, 이전 상태의 파라미터 $ \xi $와 온라인 네트워크의 현재 파라미터 $ \theta $ 사이의 가중치를 결정합니다.
수식을 풀어서 설명하면 다음과 같습니다:
- $ \tau \xi $: 타겟 네트워크의 이전 파라미터 $ \xi $에 타겟 감쇠율 $ \tau $를 곱한 것으로, 이전 상태를 얼마나 유지할지 결정합니다.
- $ (1 - \tau)\theta $: 온라인 네트워크의 현재 파라미터 $ \theta $에 $ (1 - \tau) $를 곱한 것으로, 새로운 정보를 얼마나 반영할지 결정합니다.
따라서 전체 수식 $ \xi \leftarrow \tau\xi + (1 - \tau)\theta $는 타겟 네트워크의 파라미터 $ \xi $를, 이전 상태의 일부와 온라인 네트워크의 새로운 파라미터의 일부를 혼합한 것으로 업데이트합니다. 이 방법은 타겟 네트워크가 온라인 네트워크의 변화를 천천히 추적하도록 하며, 이로 인해 학습 과정이 안정되고, 네트워크가 축소(collapse)되지 않도록 방지하는 안정적인 학습 목표를 제공합니다.

온라인 네트워크의 가중치의 지수 가중 이동 평균(Exponential Moving Average, EMA)은 타겟 네트워크의 파라미터를 업데이트하는 메커니즘에서 중요한 부분입니다. 이 방법은 BYOL의 학습 프로세스에서 온라인 네트워크의 변화를 타겟 네트워크가 안정적으로 따라가게 하기 위해 사용됩니다.

지수 가중 이동 평균(EMA)의 원리: EMA는 시계열 데이터에서 최신 데이터에 더 큰 가중치를 부여하면서도 과거의 모든 데이터를 고려하는 평활 기법입니다. BYOL의 컨텍스트에서 EMA는 다음과 같이 적용됩니다:
1. 파라미터의 가중치 할당
온라인 네트워크의 최신 파라미터$θ$는 더 높은 가중치 $(1 - \tau)$를 받아, 네트워크가 최근에 학습한 정보를 더 많이 반영하도록 합니다. - 타겟 네트워크의 이전 파라미터$ξ$는 낮은 가중치 $\tau$를 받아, 네트워크의 안정성을 유지하고 변동성을 줄이도록 합니다.

2. 가중치 업데이트 식
EMA는 타겟 네트워크 파라미터$ξ$를 업데이트하기 위한 식 $ \xi \leftarrow \tau\xi + (1 - \tau)\theta $를 제공합니다. 이 식은 새로운 파라미터와 이전 파라미터의 가중치를 결합하여 타겟 네트워크를 업데이트합니다.

3. EMA의 장점과 BYOL에서의 역할
학습의 안정성 : EMA는 타겟 네트워크가 너무 빠른 온라인 네트워크의 변화를 따라가지 않고 일정한 '속도'로 업데이트되게 하여 학습을 안정시킵니다. 이는 무작위성이나 각 개별 배치에서 발생할 수 있는 극단적인 파라미터의 변화로 인한 영향을 완화시킵니다.
- 일관된 학습 목표 제공 : 온라인 네트워크의 파라미터 변화를 부드럽게 추적하며, 일관된 방향성을 가진 목표(타겟 네트워크 파라미터)를 온라인 네트워크에 제공합니다. 이는 학습 프로세스에서 잡음이나 불안정 요소를 줄여서, 보다 안정적이고 신뢰할 수 있는 학습 경로를 마련합니다.
- 표현 학습의 개선 : 안정적인 업데이트 메커니즘을 통해, 온라인 네트워크는 타겟 네트워크로부터 일관된 피드백을 받으며 더 나은 표현을 점진적으로 학습할 수 있습니다. 그 결과, 모델은 데이터의 중요한 특징을 더 잘 포착하고 추상화할 수 있게 됩니다.

수식은 BYOL 학습 알고리즘에서 사용되는 손실 함수를 정의합니다. 이 손실 함수는 온라인 네트워크의 출력과 타겟 네트워크의 출력 사이의 유사성을 측정하는데 사용됩니다.

$ \mathcal{L}_{\theta,\xi} \triangleq \|q_{\theta}(z_{\theta}) - \hat{z}'_{\xi}\|^2_2$

여기서 $ q_{\theta}(z_{\theta}) $는 온라인 네트워크에 의해 생성된 예측 프로젝션을 나타내고, $ \hat{z}'_{\xi} $는 타겟 네트워크에 의해 생성된 타겟 프로젝션의 정규화된 버전입니다. 정규화는 벡터의 크기를 1로 조정하기 위해 수행됩니다.

손실 함수를 더 자세히 살펴보면, 이는 두 프로젝션 벡터 사이의 유클리디언 거리의 제곱을 계산하는 것입니다. 이 거리를 최소화하도록 온라인 네트워크의 파라미터를 조정함으로써, 두 네트워크가 비슷한 표현을 생성하도록 합니다.

수식을 전개하면 다음과 같습니다:
$ \mathcal{L}_{\theta,\xi} = 2 - 2 \cdot \frac{\langle q_{\theta}(z_{\theta}), \hat{z}'_{\xi} \rangle}{\|q_{\theta}(z_{\theta})\|_2 \cdot \|\hat{z}'_{\xi}\|_2} $
여기서 $ \langle \cdot , \cdot \rangle $는 두 벡터의 내적을 나타냅니다. 내적은 두 벡터의 방향이 얼마나 유사한지 측정합니다. 두 벡터가 완전히 동일한 방향을 가리키면 내적은 최대값(벡터의 크기의 곱)이 됩니다.
분모에 있는 $ \|q_{\theta}(z_{\theta})\|_2 $와 $ \|\hat{z}'_{\xi}\|_2 $는 각각 온라인 네트워크의 예측 프로젝션과 타겟 네트워크의 타겟 프로젝션의 L2 노름입니다. 이는 각 벡터를 정규화하여, 벡터의 방향만 비교하고 크기는 고려하지 않도록 합니다.
최종적으로 이 손실 함수는 0에서 2 사이의 값으로 측정될 수 있으며, 이 값이 낮을수록 두 프로젝션이 유사하다는 것을 의미합니다. 따라서, BYOL 학습의 목표는 이 손실 값을 최소화하여, 온라인 네트워크가 타겟 네트워크와 유사한 표현을 생성하도록 하는 것입니다.

수식은 BYOL(BBootstrap Your Own Latent) 학습 알고리즘에서 사용되는 두 가지 주요 업데이트 스텝을 보여줍니다.

1. 온라인 네트워크의 업데이트 :
   - 첫 번째 줄은 온라인 네트워크의 파라미터 $ \theta $를 업데이트하는 것과 관련이 있습니다.
   - $ \theta \leftarrow \text{optimizer}(\theta, \nabla_{\theta}\mathcal{L}_{\theta,\xi}, \eta) $는 경사하강법을 기반으로 한 최적화 함수(예: SGD, Adam 등)를 나타냅니다. 여기서 $ \nabla_{\theta}\mathcal{L}_{\theta,\xi} $는 손실 $ \mathcal{L}_{\theta,\xi} $에 대한 $ \theta $의 그래디언트이며, $ \eta $는 학습률(learning rate)입니다.
   - 이 스텝은 그래디언트를 사용하여 온라인 네트워크의 가중치를 업데이트하며, 손실을 줄이는 방향으로 파라미터를 조정합니다.

2. 타겟 네트워크의 업데이트 :
   - 두 번째 줄은 타겟 네트워크의 파라미터 $ \xi $를 업데이트하는 것과 관련이 있습니다.
   - $ \xi \leftarrow \tau\xi + (1 - \tau)\theta $는 지수 가중 이동 평균을 통해 타겟 네트워크의 파라미터를 업데이트하는 방법을 나타냅니다. $ \tau $는 타겟 감쇠율로, 보통 0과 1 사이의 값을 가지며, 이 값은 타겟 파라미터를 업데이트할 때 이전 파라미터의 비중을 결정합니다.
   - 타겟 파라미터 $ \xi $는 온라인 파라미터 $ \theta $의 값에 영향을 받아 업데이트되지만, $ \theta $가 매우 빠르게 변할 경우에도 타겟 파라미터는 천천히 변하도록 설계되어 있습니다. 이는 온라인 네트워크가 학습하는 동안 안정적인 목표를 유지하기 위함입니다.
이 두 스텝을 통해 BYOL은 온라인 네트워크가 타겟 네트워크의 표현을 예측하려고 시도하면서, 타겟 네트워크는 안정적인 참조점으로서 기능하게 됩니다. 이 과정은 반복적으로 이루어져서, 두 네트워크가 협력하여 강력하고 일반화된 이미지 표현을 학습하게 됩니다.

BYOL이 기존의 자기지도 학습 접근법과 어떻게 다른지, 그리고 왜 효과적인지에 대한 통찰을 제공합니다.

BYOL은 예측기(predictor)와 타겟 네트워크를 사용하여, 한 이미지의 변형된 뷰로부터 다른 뷰의 표현을 예측합니다. 이 방법은 자기지도 학습에서 일반적으로 발생하는 문제인 표현 축소(representation collapse)를 방지합니다.

표현 축소란 모델이 항상 동일한 표현만을 출력하게 되는 상태로, 이는 학습된 모델이 유용한 특징을 추출하지 못한다는 것을 의미합니다. BYOL은 타겟 네트워크를 온라인 네트워크와 동일한 아키텍처로 구성하되, 그 파라미터를 온라인 네트워크의 파라미터의 천천히 변화하는 버전으로 유지함으로써 이 문제를 해결합니다.

이 접근법의 핵심은 온라인 네트워크가 생성하는 표현이 타겟 네트워크의 표현과 유사해지도록 하면서, 타겟 네트워크는 계속해서 변화하여 항상 새로운 타겟을 제공한다는 것입니다. 이러한 동적인 타겟은 온라인 네트워크가 더 복잡하고 더 유용한 표현을 계속해서 학습하도록 독려합니다.

BYOL의 이러한 독특한 특성은 대조적 학습 접근법에서 필요한 음성 쌍을 사용하지 않고도 강력한 표현 학습이 가능하게 합니다. 대조적 학습이 서로 다른 이미지의 쌍을 비교하여 각 이미지의 표현이 서로 멀어지도록 하는 것과 달리, BYOL은 같은 이미지의 다른 뷰의 표현이 서로 가까워지도록 하여, 이미지의 내재된 특징을 보다 효과적으로 포착할 수 있도록 합니다.

또한 BYOL은 타겟 네트워크의 파라미터가 점진적으로만 변화하므로, 변동성이 큰 최신 파라미터의 변화에도 불구하고 학습의 안정성을 보장합니다. 이는 학습 과정을 안정화시키고, 최종적으로 데이터의 복잡한 구조를 더 잘 이해하는 모델을 만들어내는 데 기여합니다 .

이 수식은 BYOL(BBootstrap Your Own Latent) 프레임워크 내에서 최적의 예측기 $ q^* $를 찾는 과정을 나타냅니다. 이 예측기는 온라인 네트워크가 생성한 표현 $ z_{\theta} $을 이용하여 타겟 네트워크의 표현 $ \hat{z}'_{\xi} $을 예측하는 함수입니다.
수식을 해석하면 다음과 같습니다:

$ q^* \triangleq \arg\min_{q} \mathbb{E}\left[\|q(z_{\theta}) - \hat{z}'_{\xi}\|^2_2\right], $

여기서 $ q^* $는 최적의 예측 함수를 나타냅니다. $ \arg\min_{q} $는 함수 $ q $에 대해 기대값 $ \mathbb{E}[\cdot] $ 안의 표현 $ \|q(z_{\theta}) - \hat{z}'_{\xi}\|^2_2 $이 최소화되는 $ q $의 값을 찾는 것을 의미합니다. 이 기대값은 모든 가능한 $ z_{\theta} $에 대해 계산됩니다.
기대값 안의 $ \|q(z_{\theta}) - \hat{z}'_{\xi}\|^2_2 $는 $ q(z_{\theta}) $와 $ \hat{z}'_{\xi} $ 사이의 유클리디안 거리(즉, L2 노름)의 제곱을 나타냅니다. 이 거리를 최소화함으로써, 온라인 네트워크의 표현을 이용해 타겟 네트워크의 표현을 정확히 예측하는 $ q $의 형태를 찾고자 합니다.
또한, 수식은 다음과 같은 조건을 포함합니다:
$ q^*(z_{\theta}) = \mathbb{E}[\hat{z}'_{\xi}|z_{\theta}], $

이는 최적의 예측기 $ q^* $가 주어진 $ z_{\theta} $에 대해 $ \hat{z}'_{\xi} $의 조건부 기대값을 출력해야 함을 의미합니다. 즉, $ q^* $는 $ z_{\theta}$가 주어졌을 때 \( \hat{z}'_{\xi} $를 예측하는 함수로서, 타겟 네트워크의 표현의 조건부 기대값에 최대한 가깝게 만듭니다.

이러한 최적화 과정은 BYOL에서 표현 학습의 정확성을 높이기 위해 중요합니다. 그것은 온라인 네트워크의 표현이 타겟 네트워크의 표현과 일치하도록, 또는 가장 가까운 예측을 할 수 있도록 예측기 $ q $를 조정하는 과정입니다.

이 수식은 BYOL에서 사용하는 손실 함수의 그래디언트를 계산하는 과정을 나타냅니다. 수식은 손실 함수의 기대값의 그래디언트가 타겟 네트워크의 출력의 분산과 관련이 있음을 보여줍니다.

수식을 분해하여 설명하면 다음과 같습니다:
1. 첫 번째 등호 이전
   - $ \nabla_{\theta} \mathbb{E} [\|q^*(z_{\theta}) - \hat{z}'_{\xi}\|^2_2] $는 손실 함수의 기대값에 대한 온라인 네트워크 파라미터 $ \theta $의 그래디언트를 나타냅니다. 여기서 $ q^*(z_{\theta}) $는 온라인 네트워크의 출력에 대한 최적의 예측이며, $ \hat{z}'_{\xi} $는 정규화된 타겟 네트워크의 출력입니다.

2. 첫 번째 등호 이후
   - $ \mathbb{E} [\hat{z}'_{\xi} | z_{\theta}] $는 주어진 $ z_{\theta} $에 대한 $ \hat{z}'_{\xi} $의 조건부 기대값을 나타냅니다. 이는 $ q^*(z_{\theta}) $와 동일하다고 볼 수 있습니다.
   - $ \| \mathbb{E}[\hat{z}'_{\xi} | z_{\theta}] - \hat{z}'_{\xi} \|_2^2 $는 예측된 값과 실제 값 사이의 거리를 나타내며, 이 거리를 최소화하려는 것이 손실 함수의 목적입니다.

3. 두 번째 등호
   - $ \nabla_{\theta} \mathbb{E} [\sum Var(\hat{z}'_{\xi,i} | z_{\theta})] $는 각 차원 $ i$에 대해, 조건부 기대값과 실제 값 사이의 분산 $ Var(\hat{z}'_{\xi,i} | z_{\theta}) $의 합을 최소화하는 것을 목표로 한다는 것을 나타냅니다. 이는 최적화 과정이 타겟 네트워크의 출력의 분산을 최소화하도록 온라인 네트워크의 파라미터 $ \theta$를 조정함을 의미합니다.

종합적으로, 이 수식은 BYOL의 학습 과정에서 온라인 네트워크가 생성하는 표현이 타겟 네트워크의 표현과 일치하도록 하는 것이며, 이 과정에서 타겟 네트워크의 출력의 분산을 최소화하려고 한다는 것을 나타냅니다. 이를 통해 모델이 더 안정적이고 일관된 표현을 학습할 수 있도록 합니다.

'논문' 카테고리의 다른 글

8. MULTI-TASK INFERENCE:Can Large Language Models Follow Multiple Instructions at Once? (0)	2024.03.26
7. Unsupervised Learning of Visual Features by Contrasting Cluster Assignments (0)	2024.03.24
5. A Simple Framework for Contrastive Learning of Visual Representations (2)	2024.03.22
4. GAUSSIAN ERROR LINEAR UNITS (GELUS) (0)	2024.03.21
3. Momentum Contrast for Unsupervised Visual Representation Learning (0)	2024.03.19

ABOUT ME

Memorize Memorize

핵심 포인트

'논문' 카테고리의 다른 글

티스토리툴바

ABOUT ME

핵심 포인트

'논문' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바