1、負(fù)責(zé)核心爬蟲(chóng)系統(tǒng)架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)
2、負(fù)責(zé)網(wǎng)絡(luò)爬蟲(chóng)的核心技術(shù)研究和開(kāi)發(fā),參與各種核心搜索策略、算法、數(shù)據(jù)聚類(lèi)、重組的設(shè)計(jì)與開(kāi)發(fā)
3、設(shè)計(jì)策略和算法,提升網(wǎng)頁(yè)抓取的效率和質(zhì)量
????????????????
4、分析爬蟲(chóng)系統(tǒng)的技術(shù)缺陷,對(duì)策略架構(gòu)做出合理地調(diào)整和改進(jìn)
職位要求:
1、本科以上學(xué)歷,計(jì)算機(jī)等專(zhuān)業(yè);
2、有扎實(shí)的計(jì)算機(jī)基礎(chǔ)、熟悉常用數(shù)據(jù)結(jié)構(gòu),具有實(shí)際爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn);
3、至少熟練掌握J(rèn)ava/Python/C#其中一種語(yǔ)言,良好的編碼風(fēng)格及編碼能力;
4、熟悉Http協(xié)議,能根據(jù)目標(biāo)網(wǎng)站及時(shí)做出應(yīng)對(duì)方案
5、熟練使用Fiddler,Wireshark等抓包軟件
6、熟練使用正則表達(dá)式,Xpath,Json序列化等技術(shù)提取和清洗數(shù)據(jù)
7、熟悉高并發(fā)、高性能的分布式系統(tǒng)的設(shè)計(jì)及應(yīng)用,熟悉常用數(shù)據(jù)存儲(chǔ),各種數(shù)據(jù)處理技術(shù)優(yōu)先;
8、有豐富的爬蟲(chóng)和反爬蟲(chóng)經(jīng)驗(yàn)者優(yōu)先。
????????????????????????????????
9、有淘寶天貓等電商網(wǎng)站采集經(jīng)驗(yàn)者優(yōu)先