1、負(fù)責(zé)數(shù)據(jù)清洗、轉(zhuǎn)化等具體工作:
負(fù)責(zé)基于hadoop/spark生態(tài)系統(tǒng)、億級別數(shù)據(jù)的全文檢索,搜索引擎的產(chǎn)品研發(fā);
基于海量用戶行為數(shù)據(jù)和其他數(shù)據(jù),分析和研究數(shù)據(jù)與實際業(yè)務(wù)的關(guān)聯(lián)關(guān)系,并與實際業(yè)務(wù)應(yīng)用相結(jié)合開發(fā);
負(fù)責(zé)大數(shù)據(jù)分析需求設(shè)計和開發(fā),承擔(dān)數(shù)據(jù)抽取、清洗、轉(zhuǎn)化等數(shù)據(jù)處理程序開發(fā);
2、負(fù)責(zé)建構(gòu)公司數(shù)據(jù)平臺并落實維護(hù)與管理工作:
負(fù)責(zé)落實大數(shù)據(jù)平臺各類數(shù)據(jù)業(yè)務(wù)抽象及模型化工作;
負(fù)責(zé)組織或落實大數(shù)據(jù)管理平臺的開發(fā)及維護(hù);
負(fù)責(zé)大數(shù)據(jù)平臺數(shù)據(jù)及相關(guān)的應(yīng)用開發(fā),調(diào)優(yōu)及維護(hù);
3、其他支持工作
制定公司數(shù)據(jù)管理規(guī)范,參與制定技術(shù)標(biāo)準(zhǔn),編寫相應(yīng)的技術(shù)文檔;
為項目相關(guān)開發(fā)人員提供大數(shù)據(jù)技術(shù)指導(dǎo)及解決大數(shù)據(jù)平臺應(yīng)用中遇到的技術(shù)難題;
負(fù)責(zé)對各部門的技術(shù)團(tuán)隊進(jìn)行技術(shù)指導(dǎo)和培訓(xùn),研究并推廣數(shù)據(jù)應(yīng)用新技術(shù);
任職資格:
本科及以上,計算機(jī)科學(xué)、軟件工程等專業(yè);
2年以上大數(shù)據(jù)管理、大數(shù)據(jù)應(yīng)用開發(fā)經(jīng)驗;
具備Java、Python、Scala其中兩種語言的開發(fā)經(jīng)驗;
了解泛Hadoop大數(shù)據(jù)生態(tài)圈,熟悉HDFS/Hive/Flink/Hbase/Spark/Kafka其中兩種以上技術(shù),并有實際的項目開發(fā)經(jīng)驗,有相關(guān)源碼研究者優(yōu)先;
具備ETL開發(fā)與運(yùn)維能力,有Flume、kettle經(jīng)驗優(yōu)先;
熟悉大數(shù)據(jù)平臺的搭建過程,熟悉數(shù)據(jù)處理流程,有TB級以上數(shù)據(jù)處理經(jīng)驗優(yōu)先,有實時數(shù)據(jù)處理經(jīng)驗者優(yōu)先;
熟悉離線和實時數(shù)據(jù)處理流程,熟練使用Spark,F(xiàn)link處理TB級數(shù)據(jù)優(yōu)先;
熟悉Linux系統(tǒng)環(huán)境,有shell等腳本編寫經(jīng)驗,熟悉Mysql、PostgreSql、Oracle等常用關(guān)系數(shù)據(jù)庫,熟練編寫SQL語句;
熟悉Yarn,Kubernetes,Azkaban等資源調(diào)度框架者優(yōu)先;
熟悉Datax的二次開發(fā),并有實際開發(fā)經(jīng)驗優(yōu)先