崗位職責:1.?負責設計和開發(fā)分布式的網(wǎng)絡爬蟲應用,進行互聯(lián)網(wǎng)相關信息的抓取和分析;2.?負責網(wǎng)頁信息抽取技術的研究和開發(fā);3.?負責解決爬取過程中的各種反爬問題;任職要求:1、?熟悉網(wǎng)頁抓取原理及技術,熟悉基于Cookie的網(wǎng)站登錄原理,熟悉基于正則表達式、Xpath、CSS等網(wǎng)頁信息;2、?精通Python/java?編程語言,精通Javascript,對HTTP協(xié)議及HTML有深入的了解;3、?精通正則表達式,用于從各種網(wǎng)絡結構化和非結構化數(shù)據(jù)中抽取有用的信息;4、?熟練掌握數(shù)據(jù)庫開發(fā),對數(shù)據(jù)處理和數(shù)據(jù)質量有較深認識;精通至少一種主流數(shù)據(jù)NoSQL、mysql數(shù)據(jù)庫;5、?熟悉http?client、js,?ajax,?webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup,?webmagic等技術優(yōu)先;6、?有海量數(shù)據(jù)爬取經(jīng)驗者優(yōu)先;有爬取過微博,微信,淘寶等平臺數(shù)據(jù)優(yōu)先;具有自然語言處理、機器學習背景優(yōu)先。