This paper introduces WCTT, a web crawling system that utilizes tag paths and text frequency to standardize text collection logic, thereby simplifying maintenance and supporting keyword analysis.
This paper presents WCTT, a unified web crawling system that combines tag path analysis and text frequency to achieve high-accuracy, maintenance-free text extraction across diverse web channels, validated by superior $F_1$-scores.
This paper proposes a robust text extraction method that combines text frequency analysis with DOM tree parent tag paths to ensure high accuracy across diverse web page configurations.
텍스트 마이닝 SaaS 플랫폼 운영 및 시스템 개선을 담당하며, 다수 Worker 서버의 과도한 DB polling으로 인한 CPU 200% 초과 병목과 확장성 문제를 발견. 이를 Master 서버 중심의 gRPC 기반 중앙 집중식 작업 분배 구조로 전환하여 CPU 사용률을 4배 이상 낮추고 Worker 서버를 수십 대까지 안정적으로 확장함으로써 운영 효율성과 서비스 신뢰도를 크게 향상시켰다.