1.負責分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的架構(gòu)設(shè)計與開發(fā)(如抓取調(diào)度,多樣化抓取,頁面解析和結(jié)構(gòu)化抽取,海量數(shù)據(jù)存儲和讀取等);負責數(shù)據(jù)的抓取、解析、清洗、入庫;
?2.設(shè)計和優(yōu)化爬蟲策略與算法,提升數(shù)據(jù)抓取效果;
?3.設(shè)計爬蟲策略和防屏蔽規(guī)則,提升網(wǎng)頁抓取的效率和質(zhì)量;
?4.負責爬蟲邏輯的開發(fā),快速響應(yīng)業(yè)務(wù)變動,并持續(xù)優(yōu)化系統(tǒng),提高系統(tǒng)的穩(wěn)定性;
?5.能夠根據(jù)客戶需求,進行需求分析,完成接口設(shè)計、詳細設(shè)計以及相應(yīng)的開發(fā)及測試任務(wù)。
??
?崗位要求:
?1.?計算機、軟件工程等相關(guān)專業(yè),2年以上爬蟲開發(fā)經(jīng)驗,熟悉linux和Java開發(fā),熟悉shell/perl/python等腳本語言,熟練掌握正則表達式。
?2.?精通一種開源爬蟲框架,如scrapy、webmagic、nutch、heritrix等,有開發(fā)爬蟲框架經(jīng)驗優(yōu)先;熟悉反爬蟲、驗證碼識別技術(shù)者優(yōu)先;熟悉網(wǎng)絡(luò)編程(TCP、HTTP、Soket)有多線程、網(wǎng)絡(luò)數(shù)據(jù)處理經(jīng)驗優(yōu)先。
?3.?學習能力強,具備良好的分析和解決問題能力,對技術(shù)抱有熱情,愿意研究新技術(shù)。
?4.?思維敏捷,邏輯清晰,有較強的分析和解決問題的能力。
?5.?有數(shù)據(jù)清洗經(jīng)驗優(yōu)先。
ps:新項目初創(chuàng)階段。