Attention Is All You Need 논문 리뷰: 셀프 어텐션과 자기회귀(Autoregressive)의 모든 것
fredly.dev·1d
📊LR Parsing
Preview
Report Post

🤖

1. 서론: 자연어 처리의 패러다임을 바꾼 거인, 트랜스포머

현대 생성형 인공지능의 근간인 트랜스포머(Transformer)는 “어텐션만 있으면 충분하다(Attention Is All You Need)“는 선언으로 기존 순환 구조(RNN)의 한계를 극복하고 현대 LLM의 표준이 되었다.

병렬 연산(Parallel Computing)의 혁신과 문장 속 단어들 사이의 관계를 입체적으로 연결하여 텍스트의 숨은 의미와 맥락을 짚어내는 셀프 어텐션(Self-Attention)은 과연 어떻게 거대한 데이터를 지능으로 전환시키는 것일까?

RNN은 단어를 하나씩 순서대로 처리해야 하기에 GPU의 병렬성을 활용하지 못했고, 문장이 길어질수록 앞단의 정보가 소실되는 치명적인 단점이 있었다. 구글은 순환(Recurrence)을 완전히 제거하고, 오직 어텐션만으로 시퀀스를 처리하는 아키텍처를 통해 이 문제를 해결했다.

데이터가 트랜스포머라는 거대한 파이프라인을 통과하며 어떻게 의미를 갖게 되는지, 그 구조적 흐름을 딥다이브 해본다.

2. 배경: 왜 RNN은 물러나야 했는가.

트랜스포머 이전의 자연어 처리는 RNN기반의 Seq2Seq 모델이 주도했다. 하지만 두가지 치명적인 문제가 있었다.

  1. 순차적 연산의 한계: RNN은 단어를 하나씩 순서대로 처리해야 한다. 이는 현대 GPU의 강점인 병렬 연산(Parallelism)을 활…

Similar Posts

Loading similar posts...