마치며

15장에서는 전이학습을 활용하여 자연어 처리 기술의 성능을 끌어올리는 방법을 살펴보았습니다. 기존의 word2vec와 같은 사전 훈련 방법과 달리 이번 장에서 다룬 내용들은 ELMo에서처럼 문맥을 반영한 단어 임베딩 벡터를 구하거나, BERT와 같이 신경망 전체에 대해 사전 학습된 가중치 파라미터를 제공합니다.

특히, 기존의 영상 처리 분야에서 사전에 이미지넷 데이터를 통해 훈련된 가중치 파라미터를 다른 데이터셋의 훈련에 사용함으로써 얻었던 효과를, 이제 자연어 처리 분야에서도 얻을 수 있게 되었습니다. BERT는 손쉽게 수집할 수 있는 일반적인 문장들을 바탕으로 양방향 언어 모델을 학습한 후, 이를 다른 문제 해결에 사용합니다. 따라서, 예를 들어 기계번역과 같이 병렬 코퍼스가 필요하거나, 텍스트 분류와 같이 레이블링된 코퍼스가 필요한 경우에면 제한적으로 데이터셋을 수집할 수밖에 없지만, 전이학습을 통해 훨씬 더 많은 양의 코퍼스로부터 문장의 특징을 추출하는 방법을 신경망이 배울 수 있을 것입니다.

이제 우리는 BERT와 같은 하나의 모델 아키텍처를 통해 다양한 분야의 자연어 처리 문제들에 대해 매우 높은 성능을 실현할 수 있습니다.

한계

하지만, 우리가 원하는 수준의 인공지능에 도달하려면 여전히 여러 가지 어려움이 남아있습니다. 먼저, 전이학습에 대한 명확한 수학 및 이론적인 배경이 아직 정립되지 않았습니다. 따라서 우리가 전이학습을 구성할 때는 상당히 경험적으로empirically 접근할 수 밖에 없는 것이 사실입니다. 물론 경험적인 접근을 통해서도 기존에 비해 매우 높은 성능을 실현할 수 있지만, 만약 이론적인 내용이 좀 더 탄탄해진다면 훨씬 더 높은 성능을 기대할 수도 있을 것입니다.

즉, 현재 얻어진 높은 성능은 온라인에 존재하는 무한대에 가까운 문장 데이터셋을 활용하여 예전보다 전역 최소점에 가까운 자연어에 대한 연속적인 표현continuous representation방법을 찾아냈다는 큰 의의가 있지만, 달리 표현하면 다른 추가적인 알고리즘의 개선 없이 단순히 많은 양의 데이터를 쏟아부음으로써 높은 성능을 달성했다는 아쉬움이 한 켠에 남아있습니다. 하지만 결론적으로 전이학습의 가능성을 확인시켜준 만큼 새로운 알고리즘이나 개념이 등장한다면 단번에 그 알고리즘의 숨겨진 성능의 한계까지 도달시켜줄 것임은 분명합니다.

원래의 방법이 갖고 있던 성능의 한계를 끌어올린 것이 아닌, 주어진 한계 내에서 높은 성능을 달성한 느낌이랄까요.

또한 BERT를 활용함으로써 질의응답 문제에 대해 사람보다 뛰어난 해결 능력을 가진 신경망을 손쉽게 얻을 수 있게 되었지만, 그렇다고 해서 정말 그 신경망이 사람보다 뛰어난 두뇌를 가진 인공지능이 되지는 않습니다. 사람들은 대화할 때 서로가 가진 공통된 지식이나 상식 등에 기반을 두고 쉽게 생략된 정보를 유추하고 문맥을 이해합니다. 하지만 딥러닝은 아직 그러한 지식이나 상식을 배워 자연어 처리 문제에 적용하고 해결하는 능력은 없습니다. 단지 주어진 문장들만을 활용하여 단순한 질의응답 문제를 해결할 뿐입니다. 그러므로 마치 영화에서처럼 자유자재로 사람과 대화하는 인공지능을 만들기 위해서는 아직 풀어야 하는 숙제가 많이 남아 있습니다.

Last updated