odigital

딥시크, '초고속 장문 훈련·추론 기술' 공개…"최고 11배 빨라"
기사 작성일 : 2025-02-19 17:00:57

딥시크의 'NSA' 기술 공개 논문


[딥시크 논문 캡처. 재판매 및 DB 금지]

김준억 기자 = 고효율 생성형 인공지능(AI) 모델로 전 세계적 돌풍을 일으킨 딥시크가 장문을 빠르게 훈련하고 추론할 수 있는 최신 기술을 공개했다.

19일 딥시크의 엑스(X·옛 트위터) 공식 계정에 따르면 창업자 량원펑을 포함한 딥시크의 개발자 등은 'NSA(Native Sparse Attention)'라고 명명한 메커니즘을 소개한 논문을 논문저장 사이트인 'arXiv'에 공개했다.

딥시크는 이 논문에서 "장문(long-context) 모델링은 차세대 언어모델에서 매우 중요하지만, 표준 어텐션(Attention) 메커니즘의 높은 연산 비용은 상당한 도전이 된다"며 "'희소(sparse) 어텐션'은 모델의 역량은 유지하면서도 효율성을 개선할 수 있다"고 밝혔다.

모든 토큰(AI 모델에서 처리되는 데이터 단위) 간 관계를 계산하는 기존의 '풀(Full) 어텐션' 메커니즘은 시퀀스 길이가 증가할수록 계산 복잡도가 기하급수적으로 늘어나는 문제가 있어 AI 업계에서는 일부 토큰만 선택해 계산하는 '희소 어텐션' 연구가 활발하다.

딥시크는 "효율적인 장문 모델링을 위해 알고리즘 혁신과 하드웨어 최적화를 통합한 '선천적으로 훈련할 수 있는 희소 어텐션(NSA)' 메커니즘'을 발표한다"며 "NSA는 동적 계층화(dynamic hierarchical) 희소 전략을 채택해 토큰 압축과 토큰 선택을 결합했다"고 설명했다.

최근 AI 모델은 챗GPT 개발사 오픈AI의 'o'시리즈와 딥시크의 'R1', 구글의 제미니 2.0 등 추론(reasoning) 모델이 대세로 장문 처리 능력이 더욱 요구되고 있다.

따라서 계산 비용이 급증하는 등의 문제를 해결하기 위해 '희소 어텐션' 방식이 잇따라 연구되고 있지만, 일부 단계에만 희소성이 적용되거나 최신 어텐션 구조와 호환되지 않으며 훈련 효율성을 간과한 설계 등의 문제가 있다고 딥시크는 지적했다.

반면 딥시크가 개발한 NSA는 중요하지 않은 토큰은 선천적으로 압축하고, 필수적인 토큰만 선택해 연산 비용을 줄이고 속도를 높이는 '동적 계층화' 희소 전략을 적용했다. 토큰 압축으로 전반적인 맥락을 인식하고, 토큰 선택으로 세부 정보를 유지할 수 있게 됐다고 딥시크는 설명했다.

딥시크는 풀 어텐션과 NSA의 벤치마크(성능 실험) 테스크 결과 NSA의 점수가 높았으며 64K 시퀀스 처리 속도를 비교한 결과 디코딩은 NSA가 11.6배 빨랐고, 역전파(backpropagation)도 6배 빨랐다고 주장했다.



[딥시크 논문 캡처. 재판매 및 DB 금지]

딥시크는 NSA의 2가지 주요 혁신으로 ▲ 균형된 알고리즘 설계를 통한 하드웨어 최적화 구현 및 상당한 속도 향상 달성과 ▲ 모델 성능의 저하 없는 사전 훈련 계산 비용 절감이라고 강조했다.

앞서 딥시크는 효율적인 LLM 기법인 'MoE(Mixture of experts·전문가 혼합)' 등을 활용해 미국 AI 업체들보다 10배 적은 개발비용으로 생성형 AI를 출시해 돌풍을 일으켰다.

댓글