개발 습관에 대하여
개발의 본질은 소통과 대화에 있으며, 개발자에게 가장 필요한 자세는 배려라고 생각한다. 이 글에서는 개발 습관이 잘못된 방향으로 형성되었을 때 발생하는 문제와, 이를 개선하기 위한 방법에 대해 이야기한다.
All of my long-form thoughts on software design, programming, development, and more, collected in chronological order.
개발의 본질은 소통과 대화에 있으며, 개발자에게 가장 필요한 자세는 배려라고 생각한다. 이 글에서는 개발 습관이 잘못된 방향으로 형성되었을 때 발생하는 문제와, 이를 개선하기 위한 방법에 대해 이야기한다.
This paper introduces WCTT, a web crawling system that utilizes tag paths and text frequency to standardize text collection logic, thereby simplifying maintenance and supporting keyword analysis.
This paper presents WCTT, a unified web crawling system that combines tag path analysis and text frequency to achieve high-accuracy, maintenance-free text extraction across diverse web channels, validated by superior $F_1$-scores.
This paper proposes a robust text extraction method that combines text frequency analysis with DOM tree parent tag paths to ensure high accuracy across diverse web page configurations.
텍스트 마이닝 SaaS 플랫폼 운영 및 시스템 개선을 담당하며, 다수 Worker 서버의 과도한 DB polling으로 인한 CPU 200% 초과 병목과 확장성 문제를 발견. 이를 Master 서버 중심의 gRPC 기반 중앙 집중식 작업 분배 구조로 전환하여 CPU 사용률을 4배 이상 낮추고 Worker 서버를 수십 대까지 안정적으로 확장함으로써 운영 효율성과 서비스 신뢰도를 크게 향상시켰다.
This study proposes a tag-independent text extraction method that isolates main content by analyzing text frequency to filter out repetitive elements, eliminating the need for manual HTML configuration.