웹사이트 긁어오기

티스토리 뷰

Programming/기타

웹사이트 긁어오기 - Selenium

zepinos 2023. 5. 24. 14:27

이전글([현재진행형] 웹사이트 긁어오기)에서 Selenium 을 이용해 Headless Browser 로 쉽게 웹페이지를 제어할 수 있는 것을 구현해봤습니다. 그리고 cron 을 이용해 주기적으로 크롤링을 해보았습니다.

결론적으로, Selenium 은 이런 용도로는 적합하지 않은게 아닌가 생각됩니다. 한 번의 테스트를 위해 사용할 때에는 문제가 없으나, 서버에서 cron 으로 주기적으로 실행했더니 네트워크 접속이 안되는 문제가 발생하였습니다. 원인은 정확하게 파악하지 못했지만, reboot 후 정상적으로 돌아왔고 cron 으로 재시작을 주기적으로 해줘도 문제가 해결되겠지만 많은 수의 도메인을 크롤링 하게 되면 분명 안정성 문제가 대두될 것 같아서 포기하게 되었습니다.

그래서, selenium 으로 값을 가져오던 사이트도 어떻게든 ajax 호출하는 구조를 확인하여 jsoup 로 호출하여 값을 분석하여 가져올 수 있도록 수정하였습니다. 매우 아쉬운 상황이었습니다.

저작자표시 비영리 변경금지 (새창열림)

'Programming > 기타' 카테고리의 다른 글

git remote 저장소 옮기기 (0)	2024.01.30
[현재진행형] 웹사이트 긁어오기 (0)	2023.05.03
플랫폼과 프레임워크 (0)	2023.03.08
좋은 이슈 트래커를 써야 하는 이유 (2) (0)	2019.01.25
좋은 이슈 트래커를 써야 하는 이유 (1) (2)	2019.01.24

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

Ellune's Spadework

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

zepinos BLOG

티스토리 뷰

웹사이트 긁어오기 - Selenium

'Programming > 기타' 카테고리의 다른 글

티스토리툴바