Standard HTTP 라이브러리가 웹 스크래핑에 더 이상 통하지 않는 이유 (그리고 해결 방법)
(dev.to)
현대 웹 애플리케이션 방화벽(WAF)은 TLS 핸드셰이크(JA3/JA4) 및 HTTP/2 프레이밍 계층의 지문 분석을 통해 봇을 탐지하므로, 표준 HTTP 라이브러리는 웹 스크래핑에 더 이상 효과적이지 않습니다. 이 글은 `curl_cffi` 라이브러리를 활용하여 Chrome 브라우저의 TLS 및 HTTP/2 지문을 완벽하게 모방하는 파이썬 기반의 폴리글랏 사이드카 아키텍처를 제시하며, 정교한 봇 탐지를 우회하고 데이터 추출의 견고성을 확보하는 해결책을 제공합니다.
이 글의 핵심 포인트
- 12026년 기준, 표준 HTTP 라이브러리(Python `requests`, Ruby `Net::HTTP`)는 현대 WAF에 의해 쉽게 봇으로 탐지되어 웹 스크래핑에 부적합합니다.
- 2봇 탐지는 이제 TLS 핸드셰이크(JA3/JA4 지문)와 HTTP/2 프레이밍 계층(헤더 순서, 윈도우 크기)과 같은 심층 프로토콜 지문을 기반으로 이루어집니다.