任職要求:?
1.?熟悉掌握J(rèn)AVA編程,有腳本語言使用經(jīng)驗,并能熟練使用正則表達(dá)式,熟練DOM分析網(wǎng)頁結(jié)構(gòu):?
2.?熟悉各種網(wǎng)站、網(wǎng)頁、鏈接的形態(tài),了解它們的特點和規(guī)律;??
3?熟悉heritrix框架,了解提升spider、heritrix的抓取的方法。
4.?對網(wǎng)絡(luò)爬蟲、網(wǎng)頁信息抽取、網(wǎng)頁結(jié)構(gòu)分析有類似開發(fā)工作經(jīng)驗;?
5.?精通網(wǎng)絡(luò)編程、對算法設(shè)計和數(shù)據(jù)結(jié)構(gòu)有較深深刻的理解;
6.?具有較強的溝通能力、團隊合作精神及抗壓能力
工作職責(zé):
1.?參與網(wǎng)絡(luò)信息獲取方向的研究與開發(fā);?
2.?開發(fā)研究海量網(wǎng)頁抓取、信息精準(zhǔn)提取等搜索核心技術(shù);?
3.?根據(jù)公司制定的規(guī)則要求,編寫網(wǎng)絡(luò)爬蟲軟件,從網(wǎng)上抓取對應(yīng)內(nèi)容資料