崗位職責(zé):
1、負(fù)責(zé)對互聯(lián)網(wǎng)上相關(guān)領(lǐng)域的文本數(shù)據(jù)進(jìn)行抓取、分析與整理;
2、模式識(shí)別相關(guān)數(shù)據(jù)的處理,智能數(shù)據(jù)分析模塊編寫。
3、研究相關(guān)站點(diǎn)的網(wǎng)站特征,發(fā)現(xiàn)它們的特點(diǎn)和規(guī)律,設(shè)計(jì)各種爬蟲策略和算法;
4、開發(fā)爬蟲程序,提取文本、鏈接、圖片、文件等各類信息,并持續(xù)提升爬蟲的抓取效果;
5、持續(xù)分析爬蟲的技術(shù)缺陷,并做出合理地調(diào)整或改進(jìn);
6、智能抽取工具的開發(fā)。
任職資格:
1、熟悉Linux平臺(tái),對CCJavaPython中至少一種熟練掌握。
2、精通Java網(wǎng)絡(luò)編程,熟悉HTTP傳輸協(xié)議,能模擬瀏覽器操作爬蟲;
3、精通網(wǎng)頁抓取原理及技術(shù),精通正則表達(dá)式,從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
4、熟悉LuceneNutchHeritrixlarbinHtmlClientHtmlParser等開源工具;
5、熟悉HBase,MongoDB等NoSQL數(shù)據(jù)庫,并至少精通一種關(guān)系型數(shù)據(jù)庫的開發(fā),如Mysql、Oracle、MSSQL等;
6、熟悉搜索引擎和網(wǎng)絡(luò)爬蟲相關(guān)技術(shù),如有分詞、spider、分類、聚類、索引、檢索等相關(guān)開發(fā)經(jīng)驗(yàn)者優(yōu)先。