한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

SLM 기반 Agentic AI: Planner–Caller–Generator 구조 설계와 성능 분석


요약

이 글은 한컴 인공지능기술팀이 제안한 SLM(경량 언어모델) 기반 Agentic AI 구조, P–C–G(Planner–Caller–Generator)의 설계와 성능을 소개합니다. 대형 언어모델(LLM)의 비용·응답 지연·자원 소모 문제를 해결하기 위해, 한컴은 모델의 역할을 세분화한 효율적인 구조를 제안했습니다. P–C–G는 한 번의 초기 계획 후 필요한 경우에만 재계획을 수행해 토큰 사용량과 지연 시간을 줄이며, 한국어 환경에서 GPT-4o-mini 수준의 성능을 유지했습니다. 본 글은 이 구조의 핵심 원리와 실험 결과, 그리고 향후 적용 방향을 다룹니다.

1. 연구 배경


최근 LLM(대형 언어모델)의 발전은 놀라울 정도로 빠릅니다. 하지만 실제 서비스에 적용하려고 하면, 비용·지연·보안 리스크라는 현실적 제약이 여전히 존재합니다.
한컴 인공지능기술팀은 이러한 문제를 해결하기 위해 경량 언어모델(SLM) 기반의 새로운 Agentic AI 구조를 제안했습니다.

핵심 질문은 세 가지입니다.

  1. LLM이 아닌 SLM으로도 실용 수준의 Agentic AI를 구현할 수 있을까?
  2. 역할을 분리한 구조(Planner–Caller–Generator)가 효율성을 확보할 수 있을까?
  3. 도구 누락이나 파라미터 결손과 같은 불완전한 환경에서도 안정적으로 작동할까?

2. 기존 Agentic AI의 한계


기존의 Agentic AI는 하나의 대형 모델이 모든 역할(계획, 호출, 응답 생성)을 수행하는 구조입니다.
이 방식은 단순하지만, 다음과 같은 문제가 있습니다.

  • 모든 기능이 한 모델에 집중되어 복잡한 작업에서 부하가 발생
  • 모델 크기 증가로 인한 비용·자원 소모 확대
  • 느린 응답 속도와 서비스 적용의 부담

결국, 대형 모델 중심의 구조는 효율성과 확장성의 병목이 됩니다.

이를 해결하기 위해 한컴 인공지능기술팀은 모델의 역할을 분리한 새로운 구조를 제안했습니다.

3. P–C–G 구조: 역할을 분리한 경량 에이전트 설계


P–C–G 구조는 에이전트의 세 가지 역할을 명확히 분리합니다.

모듈역할핵심 기능
Planner실행 계획 수립사용자 요청 분석 → 사용할 도구와 호출 순서 결정
Caller도구 호출 및 인자 검증Planner의 계획을 실행하고 결과를 수집
Generator결과 통합 및 응답 생성중간 결과를 종합해 자연어 응답 생성

이 구조는 기존 ReAct 스타일과 달리, 한 번의 초기 계획(initial plan) 을 세운 뒤 필요한 경우에만 제한적 재계획(replanning)을 수행합니다.

💡참고

기존 ReAct 스타일(Reinforce + Act) 구조는 “계획(Plan) 행동(Action)을 매 단계마다 반복하며 도구를 호출하는 방식”입니다.
즉, 매 단계마다 새로운 계획을 세우고 실행하기 때문에 복잡한 문제에서는 추론 반복(looping)이 증가하고, 토큰 낭비와 지연(latency)이 발생하는 단점이 있습니다.

예를 들어, ReAct는 다음과 같은 형태로 작동합니다.
Plan → Call → Observe → Plan → Call → Observe → … → Final Answer
이처럼 매번 다시 계획을 세우기 때문에 처리 효율이 낮습니다.

P–C–G 구조는 이러한 반복을 제거하고, 불필요한 호출을 최소화해 토큰 사용량과 지연 시간을 동시에 절감할 수 있습니다.
프로세스는 다음과 같습니다.

  • 사용자의 질문이 들어오면 먼저 Planner가 전체 계획을 수립합니다.
  • 이후 다음 단계가 Caller라면, 계획된 호출 횟수에 따라 도구를 실행하고 그 결과를 반환합니다.
  • Planner는 이 결과를 다시 검토해 현재 정보로 충분한지, 추가 도구 호출이 필요한지 판단합니다.
  • 최종적으로 필요한 정보가 모두 확보되면 Generator가 결과를 정리하고 사용자에게 응답을 제공합니다.

이 일련의 과정은 불필요한 반복 호출을 줄이고, 모델이 스스로 계획–실행–응답의 논리적 흐름을 유지할 수 있도록 설계되어 있습니다.

4. 평가 방법


데이터셋 구성

한국어 환경에서의 도구 활용 능력을 공정하게 평가하기 위해, 실제 서비스와 유사한 데이터셋을 구축했습니다.

  • 총 400개 평가 항목 (Single-chain, Multi-chain, Missing Parameters, Missing Functions 각 100개)
  • 도구 정의: 공공데이터 API 447종 기반
  • 평가 조건: 한국어 질의 및 한국어 파라미터 환경
  • 판정 프로토콜: LLM-as-a-Judge 방식으로 5회 반복 평균
유형설명
Single-chain하나의 도구만 사용하는 단순 호출
Multi-chain여러 도구를 순차적으로 사용하는 연쇄 호출
Missing Parameters필수 입력값이 누락된 경우
Missing Functions필요한 도구 자체가 제공되지 않은 경우

평가 지표 체계

지표의미
Call Accuracy올바른 도구 선택 및 인자 생성의 정확성
Generate Accuracy최종 응답의 사실성, 구조적 완결성, 톤
Task Success Rate (TSR)질의 의도 충족, 논리적 도구 사용, 응답 완전성의 종합 평가
Tokens Average / Latency효율성 지표 (질문 1건 처리 시 평균 토큰·지연시간)

5. 주요 실험 결과


5.1 모듈별 성능

ModelSingle-chainMulti-chainMissing Func (%)Missing Params (%)
Overall (%)Call Acc. (%)Overall (%)Call Acc. (%)
GPT-4o-mini87.486.067.033.065.076.8
Exaone-4.0-32B-AWQ80.288.656.632.675.253.6
Qwen3-14B88.493.058.228.490.076.8
Qwen3-8B87.890.647.020.487.256.8
Ours(P–C–G)91.295.662.433.891.266.6
  • Single-chain에서는 최고 수준의 정확도를 달성
  • Multi-chain에서도 안정적인 성능 유지
  • Missing Functions 시나리오에서 뛰어난 제약 인식 능력 확인

5.2 효율성 평가

모델Task Success Rate(%)평균 토큰 수응답 시간(초)
GPT-4o-mini79.33747.67.9
EXAONE-4.0-32B-AWQ78.65337.89.6
Qwen3-8B72.44950.36.1
P–C–G (Qwen-8b)79.74360.39.1

경량 모델(SLM)임에도 불구하고, GPT-4o-mini 수준의 Task Success Rate를 달성했으며, 평균 토큰 사용량을 12~22% 절감했습니다.

6. 구조 비교: 기존 방식 vs 제안 방식


기존 ReAct 스타일제안한 P–C–G 구조
매 단계마다 계획 수립 반복초기 계획 + 필요 시 제한적 재계획
높은 토큰 소비, 지연 증가토큰 절감 및 효율성 향상
단일 모델 과부하역할 분리로 안정성 확보

7. 결론 및 향후 방향


이번 연구를 통해 다음과 같은 결론을 얻었습니다.

  • 역할 분리만으로도 SLM이 LLM 수준의 도구 활용 능력을 보일 수 있음
  • 한국어 중심 환경에서도 실용적인 Agentic AI 구현 가능성 입증
  • 비용 효율성과 응답 속도 측면에서 실용적 수준 달성

향후 연구에서는 다음의 개선 방향을 고려하고 있습니다.

  • Planner 모듈 경량화 및 캐싱을 통한 지연 단축
  • 누락된 파라미터 보완 능력 향상
  • 보안 및 프롬프트 인젝션 대응 강화

8. 연구 의의


이번 연구는 대형 모델 중심의 Agentic AI 흐름 속에서, “작지만 구조적으로 강한 AI”의 가능성을 실증한 사례입니다.

SLM 기반의 Planner–Caller–Generator 구조는 한국어 서비스 환경에서 정확성, 효율성, 비용 절감을 모두 만족시키는 새로운 대안으로 자리 잡을 수 있음을 보여주었습니다.

참고 자료


Scroll to Top