崗位職責:
1. 負責設計和開發分佈式的網絡爬蟲,參與各種核心搜索策略、算法、數據聚類、重組的設計與開發;
2. 負責網頁信息抽取技術算法的研究和開發,提升網頁抓取的效率和質量;
3. 計算機軟件及相關專業有1年以上的爬蟲程序設計開發經驗;
4.擁有分佈式爬蟲、垂直網站抓取經驗優先。
5. 擁有淘寶APP及淘系網站抓取經驗者優先。
6、擁有較強的反反爬能力。
崗位要求:
1. 2年以上JAVA開發的經驗;有多線程開發經驗;
2. 熟悉整個爬蟲的設計及實現流程,有從事網絡爬蟲,網頁信息抽取開發經驗;
3. 熟悉nutch,httpclient,jsoup等工具;
4. 熟悉http,xml,json,soap協議;
5. 熟悉網頁抓取/解析,網頁消重, 統計分析等研發經驗;
6. 擁有淘寶APP,淘系網站,微信公眾號抓取經驗者優先。
7. 對開源項目有較好的跟蹤和關注,如果對一些開源的做海量數據處理的項目有經驗者會優先考慮。
1、參與設計爬蟲策略和防屏蔽規則,提升網頁抓取的效率和質量;
2、參與搜索引擎及個性化推薦項目的開發。
3、參與開發分佈式網絡爬蟲系統,進行多平台信息的抓取和分析。
崗位要求
1、熟悉linux平台開發,有過python開發經驗;2、具有搜索相關技術研發經驗者優先;
2、具有數據挖掘、自然語言處理、信息檢索、機器學習背景者優先;
3.大專及以上學歷
1、負責爬蟲系統的開發;
2、負責爬蟲平台的開發;
3、負責新人的指導;
4、負責數據採集的策略制定;
任職資格:
(1)統招一本以上學歷,計算機相關專業;
(2)熟悉Linux系統,掌握Python開發語言。
(3)熟悉mysql、redis,mongodb等數據庫。
(4)有scrapy、pyspider等爬蟲框架使用經驗。
(5)熟悉基於正則表達式、XPath、jsonPath、CSS等網頁信息抽取技術。
(6)加分項:有滑動驗證碼識別技術經驗;有nodejs開發經驗。
具體要求:
1. 熟悉 Python,有分佈式爬蟲架構、數據挖掘經驗;
2· 熟悉網頁抓取原理及技術,熟悉基於Cookie的網站登錄原理,熟悉基於正則表達式、Xpath、CSS等網頁信息抽取技術;
3. 熟悉網絡編程(TCP/HTTP 協議),具有 Linux 下編程經驗和操作經驗;;
4· 熟悉多線程,熟悉使用至少一種關係型數據庫(MYSQL)等,熟悉NOSQL、hbase技術者優先;
5. 瞭解分佈式系統的設計與實現,能夠解決反爬蟲、網絡異常等各種常見爬蟲問題;
6. 優秀的分析、解決問題能力,對處理未知的、挑戰性問題充滿激情;
主要職責:
1. 負責爬蟲系統的設計、研發與維護;
2. 設計爬蟲策略與算法,提升平台的抓取效率;
3. 持續優化系統,提高系統的穩定性及性能;
4· 網站、網頁、鏈接的特徵挖掘;對指定的多個網站進行網頁抓取、數據的提取、清洗、入庫;開發垂直站點定向抓取程序,持續優化系統已有模塊性能;
5· 能實時監控爬蟲的進度和警報反饋;