崗位職責(zé):?
1、協(xié)助實(shí)現(xiàn)分布式網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā);?
2、協(xié)助實(shí)現(xiàn)數(shù)據(jù)采集策略和防屏蔽規(guī)則;?
3、協(xié)助維護(hù)和優(yōu)化已有數(shù)據(jù)采集服務(wù);?
4、協(xié)助實(shí)現(xiàn)數(shù)據(jù)采集服務(wù)核心算法的策略優(yōu)化研究,充分利用資源,提升網(wǎng)頁(yè)抓取的效率和質(zhì)量。?
5、完成上級(jí)交辦的其他工作任務(wù)(簡(jiǎn)單數(shù)據(jù)采集任務(wù)、數(shù)據(jù)統(tǒng)計(jì)需求)。?
?
任職要求:?
1、大專以上學(xué)歷,計(jì)算機(jī)軟件相關(guān)專業(yè),具有扎實(shí)的操作系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)相關(guān)基礎(chǔ)知識(shí);?
2、了解python多進(jìn)程、多線程、協(xié)程、網(wǎng)絡(luò)編程,具有有實(shí)際應(yīng)用經(jīng)驗(yàn);?
3、熟悉Linux操作系統(tǒng),熟練使用常用命令,掌握MySQL、MongDB、Redis常用操作;?
4、了解網(wǎng)頁(yè)抓取原理及技術(shù)、深度抓取、動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)抓取、瀏覽器模擬抓取技術(shù),從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;?
5、熟悉Scrapy、Selenium等爬蟲框架/工具中的一種或多種;?
6、了解常用驗(yàn)證碼識(shí)別技術(shù),熟悉行為驗(yàn)證碼識(shí)別、模擬登陸,熟悉各種反爬機(jī)制和解決措施;?
7、有團(tuán)隊(duì)觀念,善于學(xué)習(xí)提升。