한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

한/글문서파일형식

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)

이 글은 Python을 이용해 HWP 파일의 본문을 파싱하는 과정을 설명합니다. Section 스트림을 zlib으로 해제해 문단 단위 레코드를 읽고, 텍스트·제어 문자·글자 모양(CharShape)·문단 모양(ParaShape)을 파싱하는 절차를 코드와 함께 다룹니다. 또한 샘플 파일을 분석해 글꼴·색상·정렬 같은 서식이 실제 렌더링과 일치함을 확인했습니다. 이번 글은 본문 파싱까지를 정리하며, 다음 글에서는 표와 그림 등 복잡한 컨트롤 객체 파싱 방법을 이어서 다룰 예정입니다.

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2)

이 글은 HWPX 문서의 본문 데이터 추출 과정을 설명합니다. 문서 구조(본문–구역–문단)와 section.xml·header.xml 간 참조 방식을 소개하고, run 요소에서 텍스트·표·그림 등 콘텐츠를 어떻게 파싱하는지 다룹니다. Python 코드 예제를 통해 데이터 모델 설계, 본문 XML 파일 구조와 추출 데이터 모델, 데이터 추출 과정을 보여주며, 실제 샘플 문서로 서식 정보가 본문에 적용되는 방식을 확인합니다.

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (1)

이 글은 HWP 포맷의 실제 예제 분석을 통해 문서 구조와 데이터 파싱 방식을 설명합니다. HWP 파일의 주요 구조 요소인 DocInfo와 BinData를 중심으로, 레코드 기반 저장 방식과 데이터 추출 절차를 Python 코드와 함께 상세히 다룹니다. 각 레코드의 헤더 해석, 문서 속성 파싱, ID 매핑 및 바이너리 데이터 처리 방식 등을 예제를 통해 구체적으로 설명하며, HWP 문서 내부 데이터를 효과적으로 읽는 방법을 소개합니다.

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (1)

이 글은 HWPX 문서 포맷의 내부 구조를 “한/글 문서 파일 형식 : HWPX 포맷 구조 살펴보기”와 KS X 6101 표준 문서를 바탕으로 이해하고, 이를 통해 문서의 일부 데이터를 추출하여 Python 객체(Document)로 구조화하는 과정을 실제 문서와 예제 코드를 통해 살펴봅니다. ZIP 기반 XML 파일에서 메타정보, 커서 위치, 폰트 정보, 바이너리 데이터 목록 등을 추출하는 방법을 상세히 설명하며, HWPX 문서 내부 구조 분석의 기초를 제공합니다.

한/글 문서 파일 형식 : HWPX 포맷 구조 살펴보기

이 글은 개방형 문서 포맷인 HWPX의 구조와 데이터를 저장하고 관리하는 방식을 다룹니다. HWPX와 기존 HWP 포맷의 차이를 설명하며, HWPX 포맷의 주요 구성 요소와 각 파일의 역할을 분석합니다. HWPX 문서 데이터를 활용하기 위한 기초 지식을 제공하는 글입니다.

Scroll to Top