工作職責:
1.?負責設(shè)計和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng),進行多平臺信息的抓取和分析工作;
2.?負責網(wǎng)頁信息和APP數(shù)據(jù)抽取、清洗、消重等工作,提升平臺的抓取效率;
3.?負責驗證碼、反爬、api、js注入破解,提升平臺的數(shù)據(jù)采集量;
4.?參與爬蟲核心算法和策略優(yōu)化,熟悉采集系統(tǒng)的調(diào)度策略;
5.?負責數(shù)據(jù)可視化實時監(jiān)控爬蟲的進度和預(yù)警反饋。
任職要求:
1.???萍耙陨蠈W(xué)歷;
2.?3年及以上相關(guān)工作經(jīng)驗,有扎實的算法和數(shù)據(jù)結(jié)構(gòu)能力;
3.?熟悉?Linux開發(fā)環(huán)境,熟悉后端Java,scala?編程語言;
4.?熟悉kafka、zookeeper、java多線程以及定時任務(wù)等技術(shù);
5.?熟悉mysql數(shù)據(jù)庫,對于有sql優(yōu)化經(jīng)驗者優(yōu)先;
6.?掌握rocksDB存儲引擎;
7.?熟悉爬蟲原理,熟悉常見的反爬技術(shù),有爬蟲相關(guān)項目開發(fā)經(jīng)驗者優(yōu)先;
8.?對于項目有分布式項目經(jīng)驗開發(fā)者優(yōu)先;
9.?掌握HTTP協(xié)議,熟練使用selenium、正則表達式、XPATH、CSS選擇器等爬蟲開發(fā)常用技能;
10.?熟練使用http代理工具和抓包工具,如Fiddler等;
11.?熟悉jetty;
12.?熟悉git、maven、sbt等工具。