엔비디아, 자체 최고 성능 ‘네모트론 3 울트라’ 출시…“비용 30% 절감”

 

차세대 인공지능 모델, 장시간 작업 처리에 최적화

엔비디아가 오랜 시간 동안 실행되는 인공지능 에이전트 시대를 겨냥한 새로운 대형 언어 모델을 선보였다. 5500억 개의 매개변수를 갖춘 이 모델은 오픈소스로 제공되며, 단순한 대화형 챗봇이 아닌 복잡한 장기 작업을 수행하는 에이전트용으로 설계되었다.

기존 대비 최대 6배 빠른 처리 속도, 비용은 30% 절감

이번 모델의 가장 큰 장점은 처리 성능과 비용 효율성이다. 기존 언어 모델보다 최대 5~6배 높은 추론 처리량을 제공하면서도, 작업 비용은 최대 30%까지 낮출 수 있다. 이는 전문가 혼합 방식을 채택해 모든 매개변수를 동시에 사용하지 않고, 토큰당 550억 개만 활성화하는 구조 덕분이다.

모델은 108개 레이어와 8192 차원 구조를 기반으로 하며, 각 레이어에는 512개의 전문가가 존재한다. 이 중 토큰당 상위 22개 전문가만 선택적으로 활성화된다. 엔비디아는 자체 개발한 잠재 전문가 혼합 기술을 적용해 동일한 비용으로 더 많은 전문가를 활용할 수 있도록 했다.

기존 구조를 벗어난 혁신적 설계

이번 모델의 핵심 기술적 특징은 기존 언어 모델이 사용하던 순수 트랜스포머 구조에서 벗어났다는 점이다. 맘바-어텐션 하이브리드 구조를 채택하여, 맘바 계층은 긴 문맥 처리 시 계산 비용 증가를 억제하고, 어텐션 계층은 필요한 정보를 정확하게 기억하는 역할을 담당한다.

이를 통해 최대 100만 토큰 길이의 초장문 문맥을 처리할 수 있다. 실제 평가에서 100만 토큰 환경 벤치마크에서 94.7점을 기록했으며, 이는 다른 대형 모델들이 25만 6000 토큰 수준에 머무르는 것과 대조적이다.

경쟁 모델 대비 압도적 처리 성능 입증

엔비디아는 동일 수준의 정확도를 유지하면서 경쟁 오픈 모델보다 최대 6배 높은 추론 처리량을 달성했다고 밝혔다. 8000토큰 입력과 6만 4000토큰 출력 환경에서 수행한 벤치마크 결과, 여러 경쟁 모델들을 크게 앞서는 성능을 보였다.

• 특정 모델 대비 5.9배 높은 처리량
• 다른 모델 대비 4.8배 우수
• 또 다른 모델 대비 1.6배 향상

특히 긴 추론 과정이 반복되는 에이전트 작업일수록 성능 격차가 더 커지는 것으로 나타났다. 벤치마크 평가에서 작업 완료까지 필요한 토큰 수가 경쟁 모델보다 적어 전체 비용을 최대 30% 절감할 수 있다.

다양한 전문가 모델 활용한 학습 방식

모델은 총 20조 개 텍스트 토큰을 활용해 사전학습했으며, 이후 감독 미세조정, 강화학습, 다중 전문가 온정책 증류 등의 과정을 거쳐 성능을 높였다. 특히 다중 전문가 온정책 증류는 이번 모델의 핵심 기술 중 하나다.

코딩, 검색, 수학, 소프트웨어 엔지니어링, 안전성 등 분야별 전문 모델 10개 이상을 별도로 학습시킨 뒤, 학생 모델이 생성한 결과를 각 분야 전문가 모델이 평가하도록 했다. 이를 통해 일반적인 강화학습보다 훨씬 세밀한 학습 신호를 제공하고 다양한 영역에서 추론 능력을 강화했다.

실전 벤치마크에서 검증된 우수한 성능

벤치마크 평가에서도 경쟁력 있는 성능을 나타냈다. 인공지능 에이전트 역량을 측정하는 평가에서 90.0점을 기록했으며, 검색 기반 연구 능력 평가에서는 56.0점을 획득했다.

소프트웨어 엔지니어링 성능 평가에서는 71.9점, 실제 터미널 환경에서의 문제 해결 능력 측정에서는 56.4점을 기록하며 코딩과 에이전트 작업 전반에서 높은 수준의 성능을 입증했다. 특히 국제정보올림피아드 기반 평가에서는 570점을 획득해 상위권 인간 프로그래머 수준의 경쟁 프로그래밍 능력을 보였다.

인공지능 성능 평가 기관의 지능 지수에서 47.7점을 기록하며 11위에 올랐다. 이는 미국의 여러 오픈 웨이트 모델들을 크게 앞서는 성과다. 다만 중국 진영의 선두 모델보다는 낮은 점수를 기록했다.

에이전트 생태계 구축 도구도 함께 공개

엔비디아는 이번 모델과 함께 인공지능 에이전트 생태계 구축 도구도 공개했다. 모델은 다양한 오픈 에이전트 프레임워크와 통합되며, 이를 통해 개발자는 복잡한 멀티 에이전트 시스템을 구축하고 코드 실행, 도구 호출, 메모리 관리, 오류 복구 등을 자동화할 수 있다.

또한 플랫폼을 통해 모델 가중치뿐 아니라 학습 데이터셋, 학습 레시피까지 공개했다.

2개의 추가 모델도 동시 발표

엔비디아는 2개의 신규 모델도 발표했다. 첫 번째는 콘텐츠 안전 모델로, 40억 매개변수 규모의 가드레일 모델이다. 텍스트와 이미지, 멀티모달 입력에 대해 위험 콘텐츠를 탐지하며, 23개 안전 카테고리와 12개 언어를 지원한다. 기업 환경에서 정책 위반 여부를 실시간으로 검사할 수 있다.

두 번째는 자동 음성 인식 모델이다. 40개 이상의 언어를 지원하는 음성 인식 모델로, 100밀리초 이하 지연시간을 제공한다. 엔비디아는 이 모델이 실시간 음성 기반 인공지능 에이전트 구축에 활용될 것으로 기대하고 있다.

댓글 남기기