한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

AX 시대를 위한 한글 문서: 오픈소스 생태계 현황 분석과 활성화 전략


요약

한글 문서는 공개형 포맷으로, AI 학습 데이터로 활용 시 PDF보다 추출 효율이 더 좋을 수 있으며, 한컴과 외부 개발자들의 노력을 통해 오픈소스 생태계를 활성화하여 AX 시대에 한글 문서가 지닌 잠재력을 극대화하는 것이 중요합니다.

시작하며


인공지능(AI) 기술이 산업 전반에 확산되면서, 방대한 양의 문서 데이터를 고품질의 학습 데이터로 변환하는 기술이 핵심 경쟁력으로 부상했습니다. 특히 대한민국 공공기관과 민간 영역에 수십 년간 축적된 한글 문서는 AI가 학습해야 할 중요한 데이터 자산입니다.

그러나 최근 조사에 따르면, 여전히 공공분야 종사자의 90% 이상이 AI가 직접 인식하기 어려운 바이너리(binary) 형태의 HWP나 PDF로 문서로 작성하고 있어, ‘AI 정부’로의 전환에 걸림돌이 되고 있다는 지적이 나옵니다.

한글 문서는 공개된 정보를 활용해 분석이 가능하지만, 대부분의 사용자는 직접 분석하기보다 API나 오픈소스를 활용하기를 원합니다. 이러한 배경 속에서, ‘한글 문서는 폐쇄적이라 데이터 활용이 어렵다’는 기존의 오해를 바로잡고 생태계를 활성화할 필요성이 커지고 있습니다.

본 글에서는 개방형 포맷인 HWPX의 AI 학습 데이터로서의 활용성을 검증하고, 오픈소스 생태계 현황을 파악하여 앞으로의 활성화 전략을 제시하고자 합니다.

한글 문서 오픈소스 생태계 필요성


AX 시대의 한글 문서 현황과 폐쇄적이라는 오해

AI 기술 시대의 핵심 경쟁력은 방대한 문서 데이터를 고품질의 학습 데이터로 얼마나 빠르고 정확하게 변환하느냐에 달려있습니다. 이러한 관점에서 볼 때, 지난 수십 년간 대한민국 공공기관과 민간 영역에 축적된 한글 문서는 AI가 학습해야 할 매우 중요한 데이터 자산입니다.

하지만 이전부터 한글 문서가 ‘폐쇄적 포맷’이라는 비판 기사가 나오고 있고, 최근에는 데이터 추출의 어려움을 지적하는 목소리도 있습니다. 이는 한글 문서가 ‘AI가 못 읽는 포맷’이라는 인식이 여전히 존재함을 보여줍니다.

이러한 오해와 더불어, PDF나 DOCX 같은 글로벌 포맷에 비해 개발자들이 즉시 활용할 수 있는 오픈소스 생태계가 부족한 것이 현실입니다. 유의미한 프로젝트 수가 10개 내외로 매우 적고, 그 기능마저 단순 텍스트 추출에 국한되어 있습니다.

항목한글 문서 오픈소스PDF 오픈소스WORD (DOCX) 오픈소스
유의미한 프로젝트 개수매우 적음 (10개 내외)매우 많음 (수백 개 이상)매우 많음 (수백 개 이상)
생태계국내 한정, 초기 단계전 세계적, 매우 성숙함전 세계적, 매우 성숙함
개발 언어 다양성특정 언어만 지원거의 모든 언어 지원거의 모든 언어 지원
주요 기능파일 읽기, 텍스트 추출생성, 변환, 추출, 편집, 렌더링생성, 편집, 추출, 변환

현행 데이터 추출 방식의 비효율성 및 데이터 손실

바로 이 ‘오픈소스 생태계의 부족’ 때문에, 많은 개발자와 기관이 AI 학습용 데이터를 추출할 때 비효율적인 방식을 사용하고 있습니다. HWPX 문서를 직접 다루는 대신, 생태계가 잘 갖춰진 PDF로 문서를 변환한 뒤 다시 데이터를 추출하는 ‘이중 변환’ 방식을 사용합니다.

한글 문서의 이중 변환 과정

하지만 이러한 이중 변환 과정은 여러 문제를 야기합니다.

데이터 손실 및 왜곡
  • 한글 문서를 PDF를 걸쳐 AI 학습용 데이터로 변환하는 과정에서 태그 같은 한글 문서의 고유 데이터가 손상됩니다. 또한, 데이터로서 PDF는 구조적인 정보를 포함할 수 없습니다. 그래서 PDF를 AI 학습용 데이터로 변환 시 표, 개체, 이미지 등이 누락되거나, 표의 구조가 완전히 깨져 텍스트가 뒤섞이는 등 원본 데이터가 심각하게 훼손될 수 있습니다.
원본 문서
HWPX를 PDF 변환 후 추출
HWPX 직접 추출 결과
시간 및 비용 비효율
  • HWPX에서 직접 데이터를 추출하는 것(Case 1)에 비해, PDF로 변환한 후 추출하는 것(Case 2)은 테스트 결과 약 15.8배 더 많은 시간이 소요되었습니다 (직접 추출 9.5초 vs PDF 변환 후 추출 150.3초).

이러한 문제는 데이터 손실과 비효율을 유발한다는 점뿐만 아니라 한글 문서가 가진 본질적인 장점을 활용하지 못하고, 단지 생태계가 갖춰진 PDF에 의존하는 임시방편적인 접근입니다.

이는 AI 학습 데이터 관점에서 볼 때 매우 아이러니한 상황입니다. 사실 AI 학습 데이터 관점에서 한글 문서 특히, HWPX 포맷은 PDF 대비 우수성을 가지고 있습니다.

HWPX 포맷의 장점 (PDF 대비)

AI 학습 데이터 관점에서 볼 때, 개방형 포맷인 HWPX는 PDF보다 효율적이고 우수한 구조를 가지고 있습니다.

비교 항목HWPX (개방형 한글 포맷)PDF (Portable Document Format)
파일 구조XML 기반의 압축 파일 구조바이너리 기반의 렌더링 중심 포맷
데이터 특징<hp:p>(문단), <hp:tbl>(표) 등 의미 구조 태그(Semantic Tag)가 명확히 포함되어 구조적 데이터 가공 용이
ㆍ마크다운 등 다른 구조화된 포맷으로 변환이 쉬움
ㆍ텍스트, 도형, 이미지를 페이지 위 좌표(x, y)에 배치하는 방식
렌더링 중심 포맷으로 데이터 가공이 어려움
추출 난이도XML 파싱(Parsing) 만으로 데이터의 구조와 내용을 쉽게 파악할 수 있음ㆍ’표’, ‘문단’ 같은 구조적 의미 정보가 없음
ㆍ같은 단어도 개별 글자 단위로 쪼개져 저장될 수 있어 추출 난이도가 높음
AI 활용구조적 정보가 명확하여 AI 학습 데이터로 바로 활용하기에 적합함구조를 파악하려면 좌표 기반 레이아웃 분석, OCR 등
별도의 고비용 AI 기술이 필수적으로 요구됨

한글 문서의 오픈소스 생태계 조성의 필요성

HWPX 포맷 자체가 AI 학습 데이터 추출에 본질적인 장점을 가지고 있어서 AI 문서로서의 잠재력도 높습니다. 방대한 한글 문서 자산을 데이터 손실이나 왜곡 없이 AI 학습에 활용하기 위해서는, 비효율적인 PDF 변환을 거치는 대신 HWPX 포맷에서 직접 데이터를 추출하는 것이 필수적입니다.

이를 위해 개발자들이 HWPX 문서를 AI 친화적인 포맷(JSON, Markdown 등)으로 쉽게 변환할 수 있도록, 오픈소스를 제공하는 것이 필요합니다.

한글 문서 개방성 및 오픈소스 생태계 현황


한글 문서가 폐쇄적이라는 인식과 달리, 한컴은 과거부터 지속적으로 파일 포맷 형식을 공개하고, HWPX라는 개방형 포맷을 도입하는 등 꾸준히 개방성을 확대해왔습니다. 한컴의 공식적인 노력과 외부 개발자들의 자발적인 참여로 생태계를 형성하고 있습니다.

한컴의 공식적인 개방 노력

① 파일 형식 공개

한컴은 HWP/HWPX의 파일 형식을 ‘한컴 지원센터‘에 공개하였고, 지속적으로 업데이트하고 있습니다.

한컴 지원센터

② 개발자 지원

한컴은 기술 블로그와 개발자 포럼을 운영하며 HWP/HWPX 관련 기술 노하우를 공유하고 개발자 문의에 직접 대응하고 있습니다. 또한 공식 라이브러리를 사용하지 않고도, Python 예시 코드만으로 한글문서에서 데이터를 손쉽게 추출하는 방법을 안내하고 있습니다.

[한컴테크] 한/글 문서 파일 형식 시리즈

③ HWPX 변환 도구

바이너리 HWP 포맷 접근에 어려움을 겪는 사용자들을 위해, HWP를 HWPX로 쉽게 변환할 수 있는 ‘HWPX 변환기’를 한컴 닷컴 공식 사이트에서 무료로 배포하고 있습니다.

④ 공식 오픈소스 라이브러리 (hwpx-owpml-model)

‘한컴 디벨로퍼’ 사이트를 통해 HWPX 파일 구조를 다룰 수 있는 공식 오픈소스 hwpx-owpml-model을 C++ 기반으로 공개했습니다. 이 라이브러리는 문서 내 텍스트, 표, 그림 등 개별 엘리먼트를 추출 및 저장할 수 있는 모델을 제공하며, 텍스트 추출 예제 코드를 포함해 개발자 접근성을 높였습니다.

hwpx-owpml-model

외부 개발사와 외부 개발자의 자발적 오픈소스 프로젝트


한컴의 개방 정책에 힘입어, 외부 개발사와 개발자들이 다양한 언어로 HWP/HWPX 문서를 다루는 라이브러리를 개발 및 공개하고 있습니다.

주요 오픈소스 라이브러리

프로젝트설명장점단점
HWPReaderㆍLlamaIndex에 포함된 라이브러리
ㆍLlamaIndex: 대규모 언어 모델(LLM) 애플리케이션을 구축하기 위한 오픈 소스 프레임워크
한글 문서에서 텍스트를 손쉽게 추출텍스트 위주로 추출되어 표나 개체 같은 구조적 정보는 가져오지 못하는 한계
H2OrestartㆍLibreOffice의 확장 프로그램으로 한글 문서를 ODT(OpenDocument Text) 형식으로 변환하는 기능
ㆍLibreOffice는 오피스 프로그램으로 사무 오피스 및 그래픽 디자인을 갖춘 오픈소스 프리소프트웨어
표와 같은 구조적 정보를 유지하면서 ODT 형식으로 변환ODT 변환 후 다시 다른 포맷(PDF)으로 처리하는 과정에서 데이터 일부 누락 가능성 존재

기타 오픈소스 라이브러리

프로젝트트개발 언어특징
pyhwpPythonㆍHWP 파일 내부 구조 확인 가능
ㆍODT/HTML/TXT 변환 가능
hwplibJavaㆍ파일 내부 구조 확인 가능
ㆍ텍스트 추출 가능
hwp.jsJavaScriptㆍ텍스트 추출 가능
ㆍHWP 파일 뷰잉 가능
hwpjsJavaScriptㆍHWP 파일 뷰잉 가능

한글 문서의 오픈소스 생태계 활성화를 위한 방안


외부 개발자들의 참여와 우리의 지속적인 개방성 확대 노력이 있지만, 아직 한글 문서의 오픈소스 생태계는 부족한 상황입니다. 한글 문서 생태계의 잠재력을 극대화하고 AI 시대의 핵심 데이터 자산으로 활용하기 위해 다음과 같은 전략적 접근이 필요합니다.

한컴 중심의 주도적인 생태계 구축 전략

한글 문서 구조와 내부 기술을 가장 잘 아는 건 역시 우리입니다. 그러니 우리가 직접 생태계 활성화의 중심이 되어야 합니다. 외부 개발자들이 스스로 참여하기 만을 기다릴 것이 아니라, 개발자 커뮤니티를 이끌기 위해 우리가 먼저 핵심 오픈소스를 공개하고 기술 지원도 적극적으로 강화하는 선제적인 조치가 필요합니다.

한글 문서도 ‘오픈 데이터 로더(Open Data Loader)’같은 도구를 제공할 필요가 있습니다.

오픈데이터로더 PDF

AI 개발자들이 한글 문서를 JSON이나 Markdown처럼 AI가 쓰기 편한 포맷으로 쉽게 바꿀 수 있게 해주는 이 도구를 오픈소스로 공개해서 생태계를 만들어야 합니다. 단순히 글자만 뽑아내는 것을 넘어, 표, 문단, 메타데이터 같은 문서의 중요 구조 정보를 하나도 빠뜨리지 않고 완벽하게 추출할 수 있어야 합니다. 더 나아가 문서 속 ‘이름’이나 ‘날짜’ 같은 특정 정보를 단순 텍스트가 아니라 의미 있는 데이터로 똑똑하게 골라 뽑아내야 합니다.

지속적인 기술 공유 및 지원 채널 강화

이런 도구를 공개하는 것만큼 중요한 것은 개발자들이 이를 활용하다가 포기하지 않도록 실질적인 기술 지원을 강화하는 것입니다. 단순히 도구만 던져두는 방식이 아니라, 개발자들이 한글 문서의 기술적 문제를 쉽게 해결할 수 있도록 소통 채널을 지금보다 훨씬 더 적극적으로 운영하고 강화해야 합니다. 이를 통해 더 많은 개발사와 개발자들이 생태계에 참여하도록 이끄는 좋은 계기가 될 것입니다.

① 활발한 기술 블로그 운영 및 실용적 예제 공유

현재 한컴은 ‘한컴테크‘와 같은 기술 블로그를 운영하며 HWP/HWPX 관련 기술 노하우를 공유하고 있습니다. 이 채널을 더욱 활성화하여, 개발자들에게 가장 필요한 실용적인 다양한 언어로 된 예제 코드를 지속적으로 공유해야 합니다. 실제로 한컴 테크 블로그에 포함된 Python 예시만으로도 공식 라이브러리 없이 HWPX에서 데이터를 손쉽게 추출하는 것이 가능했습니다. 이러한 실질적인 가이드를 꾸준히 제공하여 개발자들의 진입 장벽을 낮춰야 합니다.

② 신속하고 직접적인 개발자 포럼 대응

한컴디벨로퍼 포럼‘과 같은 공식 커뮤니티 채널은 개발자 소통은 매우 중요합니다. 이 채널에 접수되는 기술적 문제나 문의 사항에 대해 외부 개발자의 자발적 참여뿐만 아니라 한컴의 담당자가 ‘직접’, 그리고 ‘신속하게’ 대응을 해야 합니다. 개발자가 기술적 문제에 부딪혔을 때 해결책을 얻을 수 있다는 신뢰를 주는 것이 생태계 유지와 참여를 이끄는 중요한 점이 됩니다. 이를 위해 내부적으로도 포럼 대응을 주요 업무로 생각하고, 담당 개발자들의 참여를 독려할 수 있는 방안을 마련하는 것이 필요합니다.

한컴디벨로퍼 포럼

한컴이 HWPX 생태계에서 중심적인 역할을 맡아, 외부의 자발적 참여를 기다리기보다는 먼저 행동해야 합니다. 그 시작으로, 단순 텍스트뿐만 아니라 표나 문단 같은 구조적 데이터까지 잘 다룰 수 있는 ‘오픈 데이터 로더’를 핵심 오픈소스로 공개하는 것을 고려해 볼 수 있습니다. 이와 더불어, 기술 블로그에 유용한 예제 코드를 공유하고 개발자 포럼의 문의 사항에 담당자가 직접 신속하게 응답한다면, 개발자들의 기술적 장벽을 낮추고 신뢰를 쌓아 생태계를 활성화하는 데 큰 도움이 될 것입니다.

요약


  • 데이터 추출 용이성: HWP/HWPX는 파일 사양이 공개되어 있고 무료 변환기와 다양한 오픈소스 라이브러리를 통해 누구나 데이터 추출이 가능합니다.
  • PDF 대비 효율성: HWPX는 XML 기반의 구조적 문서이므로, PDF는 핵심 콘텐츠가 바이너리이고, 비정형 포맷인 PDF보다 AI 학습 데이터 추출에 훨씬 용이하고 빠릅니다.
  • 생태계 현황: 한컴의 공식적인 개방 정책과 외부 개발자들의 자발적인 오픈소스 개발을 통해 한글 문서 생태계는 점차 확장되고 있으나, 다른 포맷에 비해 부족한 것이 현실입니다.
  • 생태계 구축 전략: ‘오픈 데이터 로더(Open Data Loader)’같은 도구를 제공해야 합니다. 특정 정보를 단순 텍스트가 아니라 의미 있는 데이터로 똑똑하게 골라 뽑아내야 합니다. 단순히 도구만 던져두는 방식이 아니라, 개발자들이 한글 문서의 기술적 문제를 쉽게 해결할 수 있도록 소통 채널을 적극적으로 운영하면 도움이 될 것입니다.

Conclusion


한글 문서는 폐쇄적인 포맷이라는 오해와 달리, AI 학습에 활용할 수 있는 공개형 포맷입니다. 특히 한국어로 된 방대한 문서 자산을 AI 시대의 핵심 동력으로 전환하는 데 있어 PDF보다 효율적이고 효과적인 대안이 될 수 있습니다.

하지만 한컴의 지속적인 개방성 확대 노력에도 불구하고, 다른 포맷에 비해 공개된 오픈소스나 변환 라이브러리가 아직 부족한 것이 현실입니다. 한글 문서 생태계의 잠재력을 극대화하기 위해서는 외부의 자발적인 참여를 기다리기보다, 문서 구조를 가장 잘 아는 ‘우리’가 더 적극적으로 나서야 합니다.

Scroll to Top