HWP · HWPX · HWPML · PDF · XLSX · DOCX — 관공서에서 쏟아지는 모든 문서를 kordoc 엔진이 Markdown으로 쏟아낸다. 그 위에 Gemini 3 Flash를 얹은 Tauri 데스크톱 앱이 kordoc-ai.
매직 바이트 라우터가 파일 시그니처를 보고 엔진을 고른다. 그 뒤는 전부 같은 IR(Intermediate Representation) — 블록·표·메타데이터가 하나의 스키마로 정규화되고, 마지막에 Markdown으로 직렬화된다.
한컴오피스·MS Office 의존 없이, 순수 JavaScript/TypeScript로 만들어진 파서. 현장 문서는 깨져 있고, 중첩돼 있고, 병합돼 있고, 잠겨 있다. kordoc는 그걸 전제로 쓴다.
UTF-16LE, zlib, 21종 제어 캐릭터. LIST_HEADER 파싱 셀 오프셋 2바이트 밀림까지 잡아낸다(v1.6.1). TAB 제어문자의 14바이트 확장 데이터 스킵으로 `࣐Ā` 쓰레기 문자 제거.
관공서 "열람 제한"이 걸린 HWP를 AES-128 ECB + LCG로 복호화. MIT 라이선스의 rhwp 알고리즘을 순수 JS로 포팅. Hancom Office 불필요.
공공기관 배포용 DRM HWPX는 manifest.xml에서 암호화 감지 → HWPFrame.HwpObject의 GetPageText로 페이지별 추출. Windows + 한컴 오피스에서 별도 설정 없이.
colSpan·rowSpan이 꼬이지 않는다. 그리드 알고리즘으로 한 번 훑고, 한 번 더 맞춘다. PDF 선 기반 감지 실패 시 텍스트 정렬 클러스터링 fallback.
OpenDataLoader 핵심 알고리즘 포팅. PDF 그래픽 명령에서 수평·수직 선을 추출, 교차점으로 그리드 구성, bbox overlap으로 텍스트→셀 매핑. 이미지 PDF는 OCR 프로바이더 주입식.
망가진 HWPX는 Local File Header를 직접 스캔, 망가진 HWP5는 FAT/디렉토리 파싱으로 rhwp LenientCfbReader 포팅. 현장 문서는 완벽하지 않으니까.
라벨-값 셀 패턴, 체크박스(□→☑), 괄호 빈칸(( ) → (3)), 어노테이션까지. fillHwpx()는 HWPX XML을 직접 조작해 글꼴·크기·정렬 100% 보존한 채 빈칸만 교체.
AI가 쓴 답변을 다시 보고서 양식으로. heading·bold·italic·table 서식까지. 복붙 노가다에서 해방.
HWP(구버전) ↔ HWPX(신버전) 크로스 포맷 비교. IR 블록 레벨에서 신구대조표를 생성, 테이블은 셀 단위 diff까지.
ZIP bomb · XXE / Billion Laughs · 10진수 IP SSRF · symlink · 경로 순회 · MCP 에러 정제. 500MB 파일 크기 제한. 배포용 환경 고려.
npm 라이브러리, CLI, MCP 서버 — 같은 엔진을 어떤 방식으로 호출하든 같은 Markdown. Claude · Cursor · Windsurf · Zed는 MCP로, 개발자는 `import { parse }`로.
React 19 + Tauri 2.10 + Node.js Sidecar. 프론트는 15개 액션 UI, 미들은 JSON-RPC 라우터 + Whitelist, 백은 kordoc 로컬 파싱 + Gemini 3 Flash. 관공서 PC에 MSI 하나로.
일반 · 보고 · 검토 · 조치 추출 × 간결/표준/상세. 공문서 특화 프롬프트로 요약 품질 튜닝. 오프라인 모드는 로컬 TextRank.
스캔 PDF도 Gemini Vision이 한 장씩 읽어 마크다운으로. 원본 레이아웃·표 구조 최대 보존. 한국어·영어·숫자 혼합 안정적.
논리 구조 · 숫자 · 날짜 · 오탈자의 전체 정합성 검사. 계약서·보고서·기안문의 "팀장 검토"를 AI가.
Claude · Cursor · VS Code · Zed에 kordoc MCP 자동 등록. 설정 파일 위치 자동 감지, 기존 설정 백업, 롤백 지원.
RPC 화이트리스트 Rust + Node.js 양단 검증. UNC 차단, 시스템 디렉토리 차단, 확장자 화이트리스트. API 키는 프론트에 AIza****로 마스킹.
XLSX는 네이티브 스타일 병합(폰트·색·테두리·조건부서식 완벽). DOCX는 스타일+넘버링 리매핑. PDF는 pdf-lib로 원본 그대로. HWPX는 COM 또는 마크다운 폴백.
학교교육과정 · 사전기획 보고서 · 법률 별표 · 구청 소식지 · 공공데이터 파이프라인 + korean-law-mcp의 별표/서식 파서 + Anything 본문 검색 엔진. 수천 개의 진짜 관공서 문서가 부러지지 않고 지나갔다.