한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

워드 문서 파일 형식

워드 문서 파일 형식: DOCX 포맷의 구조와 이해 (1)

이 글은 국제 표준 OOXML 기반의 DOCX 포맷 구조를 중심으로, 워드 문서가 다양한 편집 프로그램에서 동일하게 열리고 수정될 수 있는 원리를 설명합니다. DOCX 파일을 ZIP 기반의 XML 묶음으로 바라보고, document.xml·styles.xml·numbering.xml·media 등 핵심 구성 요소와 역할을 체계적으로 정리합니다. 특히 WordprocessingML의 설계 철학인 스트림 기반 문서 구조, p–r–t 텍스트 계층, Twip·EMU 단위 체계, Story·Section·Style·Drawing·Table·Numbering 구조를 예시 XML과 함께 상세히 다룹니다. 이를 통해 DOCX 문서의 내부 데이터를 해석하고, 문서 자동화·대량 처리·커스텀 문서 생성 등 실무 활용에 필요한 포맷 이해 방법을 소개합니다.

워드 문서 파일 형식: DOC 포맷의 구조와 이해 (1)

이 글은 Microsoft Word의 DOC(.doc) 을 대상으로, 문서가 내부적으로 어떻게 저장되고 파싱되는지를 단계적으로 설명합니다. OLE2 기반 파일 구조를 바탕으로 WordDocument, Table, Data Stream의 역할을 살펴보고, 문서 해석의 핵심인 FIB(File Information Block) 를 중심으로 데이터 위치와 크기를 추적하는 방식을 다룹니다. 또한 CP 개념과 PLC·STTB·RG 등 주요 데이터 집합 구조를 통해 텍스트와 속성이 어떻게 매핑되는지 설명하며, MS-DOC 공식 명세을 활용해 필요한 데이터명을 찾고 구조를 해석하는 방법을 소개합니다. 마지막으로 Clx 예제를 통해 실제 바이너리 데이터 읽기와 파싱 과정(C++ 코드) 을 구체적으로 보여주며, DOC 포맷 내부 구조를 이해하고 문서 데이터를 직접 해석하는 기초를 제시합니다.

Scroll to Top