웹사이트 긁어오기 - Selenium
이전글([현재진행형] 웹사이트 긁어오기)에서 Selenium 을 이용해 Headless Browser 로 쉽게 웹페이지를 제어할 수 있는 것을 구현해봤습니다. 그리고 cron 을 이용해 주기적으로 크롤링을 해보았습니다. 결론적으로, Selenium 은 이런 용도로는 적합하지 않은게 아닌가 생각됩니다. 한 번의 테스트를 위해 사용할 때에는 문제가 없으나, 서버에서 cron 으로 주기적으로 실행했더니 네트워크 접속이 안되는 문제가 발생하였습니다. 원인은 정확하게 파악하지 못했지만, reboot 후 정상적으로 돌아왔고 cron 으로 재시작을 주기적으로 해줘도 문제가 해결되겠지만 많은 수의 도메인을 크롤링 하게 되면 분명 안정성 문제가 대두될 것 같아서 포기하게 되었습니다. 그래서, selenium 으로 값을 ..
Programming/기타
2023. 5. 24. 14:27
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 워드프레스
- NoSQL
- 외장 WAS
- 엘지
- Spring Boot
- proxmox
- messages.properties
- 내장 WAS
- Nas
- 클라우드플레어
- Spring
- OracleJDK
- java config
- manjaro
- SI
- 페이징
- 시니어 프로그래머
- Redmine
- Phabricator
- git
- docker
- RestTemplate
- jooq
- paging
- 도입기
- KDE
- Spring MVC
- 프로젝트 규모
- boot
- couchbase
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함