崗位職責(zé):
1、基于公司內(nèi)部采集框架,進(jìn)行模板配置、爬蟲程序開發(fā);?
2、維護(hù)內(nèi)部的爬蟲代碼,確保項(xiàng)目數(shù)據(jù)的準(zhǔn)確性與完整性;?
3、支撐業(yè)務(wù)項(xiàng)目和產(chǎn)品的數(shù)據(jù)抓取需求,參與開發(fā)和擴(kuò)展新的數(shù)據(jù)源;
4、改進(jìn)現(xiàn)有爬蟲系統(tǒng),設(shè)計(jì)和優(yōu)化爬蟲策略,提升爬蟲抓取效率與穩(wěn)定性;
5、負(fù)責(zé)封賬號(hào)、封IP、驗(yàn)證碼等反爬蟲技術(shù)難點(diǎn)的攻克。?
任職要求:
????1、熟悉js逆向,***會(huì)app逆向(包括dex2jar,破殼,so層算法);
??2、會(huì)使用appium或者airtest等自動(dòng)化測(cè)試,以及mitmproxy原理;
??3、熟悉使用scrapy、feapder以及crawler等開源爬蟲框架;
??4、熟練使用mysql、mongodb以及redis;
??5、熟悉linux,了解基本的linux語(yǔ)句;
??6、有字體反爬、css反爬以及驗(yàn)證碼(字體或者滑塊)識(shí)別經(jīng)驗(yàn);
??7、了解hive或者h(yuǎn)adoop等大數(shù)據(jù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的額外加分;
??8、了解數(shù)據(jù)處理工具如panda、numpy的基礎(chǔ)應(yīng)用。