투데이e코노믹 = 유서진 기자 | KT의 자체 개발 인공지능(AI) 모델 ‘믿:음 K’가 글로벌 AI 성능 평가에서 국내 중소형 모델 가운데 최고 성적을 기록하며 기술력을 입증했다.
KT는 5일 ‘믿:음 K’가 글로벌 AI 모델 성능을 종합 평가하는 플랫폼 **AAII(Artificial Analysis Intelligence Index)**에서 국내 중소형 모델 중 1위를 차지했다고 밝혔다. AAII는 AI 평가 전문 기관 ‘아티피셜 애널리시스(Artificial Analysis)’가 운영하는 플랫폼으로, 전 세계 주요 AI 모델의 성능을 동일 기준으로 비교·분석하는 곳이다.
AAII에는 LG AI연구원의 엑사원(EXAONE), 네이버의 하이퍼클로바, 업스테이지의 솔라(SOLAR), 모티프 등 국내 주요 AI 모델도 함께 등재돼 있다. 이 가운데 KT의 믿:음 K는 중소형 모델군에서 가장 높은 종합 평가를 받았다.
특히 믿:음 K는 **에이전틱 AI 성능을 평가하는 대표 벤치마크인 ‘τ²-bench(타우 스퀘어 벤치)’에서 87%**를 기록하며 상위권에 올랐다. 타우 스퀘어 벤치는 AI가 실제 업무 환경에서 사람과 협업하며 복수의 도구를 활용해 과업을 계획·수행·완료할 수 있는지를 측정하는 지표로, 최근 B2B AI 경쟁력의 핵심 기준으로 주목받고 있다.
KT에 따르면 믿:음 K는 이 지표에서 글로벌 최상위 모델로 평가받는 **구글의 제미나이 3(Gemini 3)**와 유사한 수준의 성능을 보였다. 단순 질의응답을 넘어 복합 업무 수행 능력과 판단력을 갖춘 에이전트형 AI로서의 가능성을 인정받았다는 평가다.
전문지식과 고난도 추론 능력을 평가하는 MMLU Pro, GPQA, HLE 등 주요 벤치마크에서도 믿:음 K는 고른 성능을 기록했다. 특히 한국어 이해와 맥락 추론 분야에서는 국내 최고 수준의 결과를 보이며, 한국 기업 환경에 특화된 언어·업무 이해 역량을 강점으로 드러냈다.
KT는 이번 성과의 의미로 **‘40B(400억) 매개변수 이하 모델’**라는 점을 강조했다. 대규모 연산 자원이 필요한 초대형 모델이 아닌, 비교적 경량화된 중소형 모델로 글로벌 최고 수준의 에이전트 성능을 구현했다는 점에서 비용 효율성과 실용성을 동시에 확보했다는 설명이다.
KT 관계자는 “초기 개발 단계부터 범용 서비스가 아닌 B2B 시장을 정조준해 모델 설계와 학습 전략을 수립한 결과”라며 “기업 현장에서 바로 활용 가능한 AI를 만드는 데 집중했다”고 밝혔다.
KT는 믿:음 K를 기반으로 국내 B2B 시장에 특화된 에이전틱 AI 생태계를 본격 확산할 계획이다. 산업별 업무 프로세스를 자동화하고, 상황 인식과 의사결정을 스스로 수행하는 맞춤형 AI 에이전트를 제공해 기업 고객의 업무 경험 혁신(AX, AI Transformation)을 지원한다는 전략이다.
이를 통해 고객 상담, 네트워크 운영, 기업 IT 관리, 금융·유통·제조 등 다양한 산업 현장에서 반복·복합 업무를 AI가 주도적으로 처리하는 환경을 구현한다는 목표다.
KT 기술혁신부문장 오승필 부사장은 “이번 AAII 등재는 KT의 자체 AI 기술력이 글로벌 기준에 도달했음을 객관적으로 입증한 성과”라며 “에이전틱 AI를 통해 한국 기업들의 업무 혁신과 디지털 전환을 이끄는 최고의 AI 파트너로 자리매김하겠다”고 말했다.
업계에서는 이번 성과를 두고, 초거대 모델 중심의 경쟁 구도 속에서 ‘실용·효율 중심 B2B AI’라는 차별화 전략이 성과로 이어진 사례라는 평가가 나오고 있다. KT가 믿:음 K를 통해 국내 AI 시장은 물론 글로벌 B2B AI 영역에서도 존재감을 확대할 수 있을지 주목된다.























