RNN의 역전파 수행은 시간에 대해서도 이루어집니다. 따라서 time-step이 많은 데이터일수록 time-step별 기울기가 더해져서 최종 기울기가 커집니다. 기울기가 클 때 너무 큰 학습률을 사용하면 해당 학습은 발산할 가능성이 높습니다. 따라서 기울기가 정해진 임계치보다 클 경우, 그래디언트 클리핑을 통해 방향은 유지한 채로 기울기의 크기를 임계치만큼 감소시킵니다. 그에 따라 기울기의 최대 크기가 정해지므로, 학습률 1과 같은 매우 큰 값도 학습에 사용할 수 있습니다.