한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

블로그

문서 청크 지식 생성을 통한 생성형 검색 시스템의 정확도 향상 방법

이 글은 생성형 검색 시스템의 ‘어휘 불일치(Lexical Mismatch)’ 문제를 해결하기 위한 청크지식생성모델(Chunk Knowledge Generation Model) 의 구조와 성능을 소개합니다.
본 모델은 대형 언어 모델(LLM)을 사용하지 않고도 문서를 청크 단위로 나누어 키워드·제목·후보 질문을 동시에 생성함으로써, 검색 정확도와 효율성을 모두 향상시켰습니다.
T5 기반 멀티태스크 구조를 활용해 연산 비용을 줄이면서도, Qdrant 벡터 검색 환경에서 Top@1 정확도 84.26%, 평균 91.39%의 성능을 기록했습니다.
GPU 메모리 사용률은 10% 이하로 유지되어 RAG 환경에서도 실시간 응답이 가능한 경량형 생성형 검색 모델로 평가됩니다.
글에서는 모델의 설계 원리, 실험 구성, 성능 비교 결과, 그리고 향후 RAG 시스템 확장 방향을 함께 다룹니다.

SLM 기반 Agentic AI: Planner–Caller–Generator 구조 설계와 성능 분석

이 글은 한컴 인공지능기술팀이 제안한 SLM(경량 언어모델) 기반 Agentic AI 구조, P–C–G(Planner–Caller–Generator)의 설계와 성능을 소개합니다. 대형 언어모델(LLM)의 비용·응답 지연·자원 소모 문제를 해결하기 위해, 한컴은 모델의 역할을 세분화한 효율적인 구조를 제안했습니다. P–C–G는 한 번의 초기 계획 후 필요한 경우에만 재계획을 수행해 토큰 사용량과 지연 시간을 줄이며, 한국어 환경에서 GPT-4o-mini 수준의 성능을 유지했습니다. 본 글은 이 구조의 핵심 원리와 실험 결과, 그리고 향후 적용 방향을 다룹니다.

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2)

이 글은 HWPX 문서의 본문 데이터 추출 과정을 설명합니다. 문서 구조(본문–구역–문단)와 section.xml·header.xml 간 참조 방식을 소개하고, run 요소에서 텍스트·표·그림 등 콘텐츠를 어떻게 파싱하는지 다룹니다. Python 코드 예제를 통해 데이터 모델 설계, 본문 XML 파일 구조와 추출 데이터 모델, 데이터 추출 과정을 보여주며, 실제 샘플 문서로 서식 정보가 본문에 적용되는 방식을 확인합니다.

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)

이 글은 Python을 이용해 HWP 파일의 본문을 파싱하는 과정을 설명합니다. Section 스트림을 zlib으로 해제해 문단 단위 레코드를 읽고, 텍스트·제어 문자·글자 모양(CharShape)·문단 모양(ParaShape)을 파싱하는 절차를 코드와 함께 다룹니다. 또한 샘플 파일을 분석해 글꼴·색상·정렬 같은 서식이 실제 렌더링과 일치함을 확인했습니다. 이번 글은 본문 파싱까지를 정리하며, 다음 글에서는 표와 그림 등 복잡한 컨트롤 객체 파싱 방법을 이어서 다룰 예정입니다.

모노레포 소개 및 도입기

이 글은 모노레포와 멀티레포의 구조적 차이와 선택 기준을 다룹니다. pnpm workspace, Turborepo, Nx 등 주요 모노레포 도구의 특징을 비교하며, 실제 프로젝트 도입 사례를 통해 장단점을 분석합니다. 또한 초기 설정 자동화를 위한 CLI 개발 경험을 소개하며, 프로젝트 환경에 적합한 코드 관리 방식을 선택하는 데 유용한 인사이트를 제공합니다.

Scroll to Top