GRU(Gated Recurrent Unit)
LSTM에서 Cell이 빠진 모델
LSTM
GRU
•
순차 데이터를 처리하는 데 사용되는 모델
•
Reset Gate, Update Gate라는 두 개의 게이트를 사용하여 작동
•
LSTM(Long Short-Term Memory) 네트워크를 개선하기 위한 모델
•
Cell이 빠짐으로서 hidden layer에서 Cell역할을 같이 하고 있다.
GRU 구조
상태(State)
•
새로운 기억 상태 ()
◦
새로운 기억 상태는 리셋 게이트를 이용해 이전 은닉 상태의 일부를 초기화하고, 이를 현재 입력과 결합해 새로운 정보를 만든다.
◦
함수를 사용해 비선형성을 추가한다.
▪
여기서 는 원소별 곱셈(Element-wise multiplication)을 의미
•
최종 은닉 상태 ()
◦
최종 은닉 상태 는 업데이트 게이트 를 이용해 이전 상태 와 새로운 기억 상태 를 조합하여 결정된다.
◦
업데이트 게이트는 새 정보와 이전 정보를 어떤 비율로 유지할지를 조정하는 역할을 한다.
게이트(Gate)
•
리셋 게이트 (r_t)
◦
리셋 게이트는 이전의 은닉 상태 와 현재 입력 을 얼마나 활용할지를 결정한다.
◦
이 리셋 게이트는 주어진 시점의 입력과 이전 시점의 은닉 상태에 대해 시그모이드 함수()를 적용하여 계산된다.
•
업데이트 게이트 ()
◦
업데이트 게이트는 새로 계산된 정보와 이전의 은닉 상태를 어떻게 조합할지를 결정한다.
◦
이 게이트 역시 입력 와 이전 은닉 상태 를 이용해서 계산되며, 시그모이드 함수를 사용해 를 얻는다.
•
리셋 게이트는 이전 은닉 상태의 일부를 리셋해 특정 정보만 남기도록 하며,
•
업데이트 게이트는 이전 은닉 상태와 새로 계산된 상태 간의 균형을 맞춘다.
GRU 동작 과정
1. 업데이트 게이트 계산
•
업데이트 게이트는 현재 입력과 이전 숨겨진 상태를 기반으로 계산된다.
•
이 게이트는 이전 상태를 얼마나 유지할지를 결정한다.
◦
여기서 는 시그모이드 함수, 와 는 학습 가능한 가중치 행렬, 는 현재 입력, 는 이전 숨겨진 상태이다.
2. 리셋 게이트 계산
•
리셋 게이트는 현재 입력과 이전 숨겨진 상태를 기반으로 계산된다.
•
이 게이트는 이전 상태를 얼마나 잊을지를 결정한다.
◦
여기서 와 는 학습 가능한 가중치 행렬이다.
3. 후보 숨겨진 상태 계산
•
리셋 게이트를 사용하여 이전 숨겨진 상태를 조정한 후, 후보 숨겨진 상태를 계산한다.
◦
여기서 는 요소별 곱(element-wise multiplication), 와 는 학습 가능한 가중치 행렬이다.
4. 최종 숨겨진 상태 계산
•
업데이트 게이트와 후보 숨겨진 상태를 결합하여 최종 숨겨진 상태를 업데이트한다.
◦
이 식을 통해 GRU는 이전 상태를 유지할지, 새로운 정보를 반영할지를 결정하게 된다.