崗位職責:1、負責爬蟲系統(tǒng)的核心技術(shù)研究、架構(gòu)設(shè)計、系統(tǒng)規(guī)劃;2、負責爬蟲核心算法的策略優(yōu)化,提升網(wǎng)頁抓取的效率和質(zhì)量;3、負責分布式網(wǎng)絡(luò)爬蟲研發(fā),通過對抓取、解析、調(diào)度、存儲等模塊的拆分與優(yōu)化,形成具有特色的定向爬蟲引擎,持續(xù)改進與迭代完善,推進開放服務(wù)建設(shè);4、不斷滿足精細化運營需求,在保證抓取系統(tǒng)不斷前進的基礎(chǔ)上,完成日常抓取與解析任務(wù),對數(shù)據(jù)的穩(wěn)定性負責。5、研究各種網(wǎng)頁、微信、app接口,實現(xiàn)多通道抓取;6、負責網(wǎng)頁信息抽取、數(shù)據(jù)清洗,構(gòu)建數(shù)據(jù)分析與挖掘體系,研發(fā)數(shù)據(jù)挖掘類產(chǎn)品與應(yīng)用,負責海量數(shù)據(jù)的分析挖掘。任職要求:1、熟悉Python/C++/Java三種編程語言中的至少一種,熟悉爬蟲方向開發(fā)和應(yīng)用;2、熟悉網(wǎng)絡(luò)編程、熟悉多線程機制、有過Socket?HTTP網(wǎng)絡(luò)編程項目經(jīng)驗,具有爬蟲系統(tǒng)框架設(shè)計能力,以及爬蟲項目規(guī)劃能力;3、熟悉HTML,熟練正則、XPath等Web信息提取技術(shù);4、熟悉常見的加解密算法及其原理,具有大型web登錄分析和搜索相關(guān)技術(shù)研發(fā)經(jīng)驗者優(yōu)先;5、熟悉多線程編程,有高并發(fā)分布式服務(wù)器開發(fā)經(jīng)驗優(yōu)先;6、熟悉Mysql,redis,mongdb三者至少之一,有過數(shù)據(jù)庫調(diào)優(yōu)和海量數(shù)據(jù)存儲經(jīng)驗優(yōu)先;7、具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機器學習背景者優(yōu)先。8、具備良好的溝通能力、對數(shù)據(jù)的渴望、敏銳的判斷、堅韌不拔、團隊精神。