먼저 신경망의 마지막 계층은 2개의 노드에 softmax 함수를 사용하는 대신, 1개의 노드에 시그모이드sigmoid 함수를 사용합니다. 얼핏 생각하면 기존에 n개의 클래스를 분류하기 위해 n개의 노드를 갖는 마지막 계층에 softmax 함수를 사용했지만, 2개의 클래스만을 갖는 이진 분류 문제에서는 1개의 노드의 값이 결정되면 다른 1개 노드의 값이 결정되는 것은 당연하므로 1개 의 노드만 갖는 것이 맞습니다. 즉, 이진 분류 상황(또는 베르누이 분포)에서는 다음의 수식을 항상 만족합니다.