인공지능 (AI)

트랜스포머 (인코더-디코더) 개념, 구조, 장점

worldproblemsolver 2025. 2. 13. 10:00

요즘은 ChatGPT를 비롯한 생성 AI가 주목을 받고 있습니다. ChatGPT는 높은 자연어 처리 능력이 강점인데, 이를 뒷받침하는 것은 트랜스포머(Transformer)라는 기술입니다.

 

이번 포스팅에서는 AI를 보다 깊게 이해하기 위해 트랜스포머의 구조나 특징에 대해 소개합니다.


트랜스포머란

트랜스포머는 AI의 지능을 향상시키기 위한 심층 학습(딥러닝) 모델의 일종입니다. 2017년 구글 연구자들에 의해 발표된 'Attention is All You Need'라는 논문에 기재된 자연어 처리에 대한 모델로써 기존과는 다른 혁신적인 접근으로 주목받았습니다.

트랜스포머는 OpenAI가 개발한 'GPT'나 구글이 개발한 'BERT' 'PaLM' 등 다양한 대규모 언어 모델(LLM)의 기반이 되고 있습니다.

 

이러한 대규모 언어 모델은 이미 우리 생활에 없어서는 안 될 것이 되었고, 트랜스포머가 생성 AI 붐의 계기가 되었다고 할 수 있을 것입니다.


트랜스포머의 구조

트랜스포머의 구조는 인코더(Encoder)와 디코더(Decoder)의 두 가지로 나누어져 있습니다.

 

인코더는 입력된 문장을 단어로 분할한 후 벡터와(수치 데이터화) 하여 기계가 처리할 수 있는 형식으로 변환하는 역할을 담당합니다.

 

디코더는 인코더에 의해 변환된 데이터를 받아 새로운 데이터를 생성하는 역할을 담당합니다.

 

예를 들면, 영어 문장을 입력해 "한국어로 번역해 달라"라고 지시를 했을 경우, 우선은 인코더가 영어 문장을 벡터화해서, 디코더가 그 데이터를 기초로 한국어 문장 데이터로 변환한다고 하는 흐름으로 처리가 진행됩니다.

 

이전 블로그에서 Encoder-Decoder에 대해서 심층적으로 다뤘으니, 참고해 보시기 바랍니다.

 

Encoder-Decoder 네트워크의 개념, 정의

약 2년 전부터 우리의 삶을 바꿔놓고 있는 ChatGPT는 자연어 처리하는 기술로 만들어진 서비스입니다. 이 서비스에서는 사용자가 문장을 입력하면 기술을 통해 그에 알맞은 문장을 출력함으로써

hope2solveproblems.com


종래의 심층 학습 모델에서는, 인코더나 디코더에 RNN(리커런트 뉴럴 네트워크)라고 하는 구조가 채용되고 있었습니다.

 

RNN은 문장 속 단어를 하나씩 차례로 처리하는 것인데 트랜스포머에서는 RNN을 사용하지 않고 문장 속 모든 단어를 병렬 처리하는 방식으로 개량되어 있습니다.

또, 트랜스포머를 이야기하는 데 있어서 중요한 구조가 되고 있는 것이 Attention입니다.

 

Attention은 입력된 문장의 어떤 단어에 주목할지 결정하는 구조인데 트랜스포머는 동시에 여러 단어에 주목할 수 있는 Multi-head Attention이라는 구조를 채택하고 있습니다.

 

이를 통해서 입력된 문장의 어떤 단어에 주목을 할지 가중치를 정하면서 학습하는 "Self-Attention"이 실현되어 있어서 좀 더 정확하게 문장을 이해한 후 처리를 할 수 있습니다.


트랜스포머를 활용하는 장점

트랜스포머에는 그 이전의 심층 학습 모델과 비교하여 뛰어난 점이 많이 있습니다. 여기에서는 트랜스포머의 주요 장점을 소개합니다.

1. 병렬 처리로 빨라진 학습 속도

기존의 심층 학습 모델에서 많이 채택되었던 RNN에서는 문장 속 단어를 하나씩만 처리할 수 있다는 어려움이 있었습니다.

 

반면 트랜스포머에서는 문장 속 모든 단어를 병렬 처리할 수 있기 때문에 머신러닝의 속도가 크게 빨라집니다.

 

이 트랜스포머 덕분에 GPT나 BERT와 같이 다종다양한 언어나 방대한 지식을 학습하는 대규모 언어 모델(LLM)의 트레이닝이 가능하게 된 것입니다.

2. 장기 기억 및 장문 처리 가능

기존의 RNN에서는 장문이나 시계열 데이터를 처리하다 보면 초기에 입력한 정보를 서서히 잊어버리는 현상(구배 소실 문제)이 발생했습니다.

 

한편, 트랜스포머는 데이터 전체를 장기적으로 기억해 둘 수 있는 구조로 되어 있기 때문에, 처음부터 끝까지 정확하게 처리할 수 있습니다.

 

그 결과 장문의 요약이나 문장 생성, 시계열을 의식한 문맥의 이해 등이 요구되는 용도에서의 실용성이 높아졌습니다.

3. Self-Attention에 의한 품질 향상

트랜스포머에서는 위에서 설명한 Self-Attention에 의해서 문장 중의 단어의 관계성을 정확하게 파악할 수 있습니다.

 

예를 들어서 문장 안에 여러 개의 의미를 가진 단어가 포함되어 있는 경우에는 그 단어가 어떤 의미로 쓰이고 있는지를 다른 단어나 문맥을 통해서 추측해서 처리하는 것이 가능합니다.

 

그 덕분에 전체 문장을 보다 깊고 정확하게 파악할 수 있기 때문에 요약이나 번역과 같은 자연어 처리 능력을 비약적으로 향상시킬 수 있습니다.


 

오늘 포스팅에서는 Encoder-Decoder 개념에서 한발 더 나아간 트랜스포머에 대해서 알아보았습니다.


트랜스포머는 다양한 생성 AI로 채택되고 있으며, 그 진화를 뒷받침해 왔습니다. 확장성이 높기 때문에 파생계의 모델도 만들어내기 쉽고, 현재도 연구 개발이 진행되고 있습니다.

 

AI를 활용할 때는 트랜스포머와 같은 심층 학습 모델의 구조까지 알고 있으면 더 이해가 깊어지기 때문에 관심을 가지면 더 좋을 것 같습니다.