爬蟲工程師崗位職責

欄目: 工程師職責 / 發佈於: / 人氣:1.22W

爬蟲工程師是做什麼的?本文提供爬蟲工程師的崗位職責例子,包括詳細的工作內容及任職要求。

崗位職責：

1. 負責設計和開發分佈式的網絡爬蟲，參與各種核心搜索策略、算法、數據聚類、重組的設計與開發；

2. 負責網頁信息抽取技術算法的研究和開發，提升網頁抓取的效率和質量；

3. 計算機軟件及相關專業有1年以上的爬蟲程序設計開發經驗；

4．擁有分佈式爬蟲、垂直網站抓取經驗優先。

5. 擁有淘寶APP及淘系網站抓取經驗者優先。

6、擁有較強的反反爬能力。

崗位要求：

1. 2年以上JAVA開發的經驗；有多線程開發經驗；

2. 熟悉整個爬蟲的設計及實現流程，有從事網絡爬蟲,網頁信息抽取開發經驗；

3. 熟悉nutch,httpclient,jsoup等工具；

4. 熟悉http,xml,json,soap協議；

5. 熟悉網頁抓取/解析,網頁消重, 統計分析等研發經驗；

6. 擁有淘寶APP，淘系網站，微信公眾號抓取經驗者優先。

7. 對開源項目有較好的跟蹤和關注，如果對一些開源的做海量數據處理的項目有經驗者會優先考慮。

1、參與設計爬蟲策略和防屏蔽規則，提升網頁抓取的效率和質量;

2、參與搜索引擎及個性化推薦項目的開發。

3、參與開發分佈式網絡爬蟲系統，進行多平台信息的抓取和分析。

崗位要求

1、熟悉linux平台開發，有過python開發經驗;2、具有搜索相關技術研發經驗者優先;

2、具有數據挖掘、自然語言處理、信息檢索、機器學習背景者優先;

3.大專及以上學歷

1、負責爬蟲系統的開發；

2、負責爬蟲平台的開發；

3、負責新人的指導；

4、負責數據採集的策略制定；

任職資格：

（1）統招一本以上學歷，計算機相關專業；

（2）熟悉Linux系統，掌握Python開發語言。
（3）熟悉mysql、redis，mongodb等數據庫。
（4）有scrapy、pyspider等爬蟲框架使用經驗。
（5）熟悉基於正則表達式、XPath、jsonPath、CSS等網頁信息抽取技術。
（6）加分項：有滑動驗證碼識別技術經驗；有nodejs開發經驗。

具體要求：

1. 熟悉 Python，有分佈式爬蟲架構、數據挖掘經驗；

2· 熟悉網頁抓取原理及技術，熟悉基於Cookie的網站登錄原理，熟悉基於正則表達式、Xpath、CSS等網頁信息抽取技術；

3. 熟悉網絡編程(TCP/HTTP 協議)，具有 Linux 下編程經驗和操作經驗;；

4· 熟悉多線程，熟悉使用至少一種關係型數據庫（MYSQL)等，熟悉NOSQL、hbase技術者優先；

5. 瞭解分佈式系統的設計與實現，能夠解決反爬蟲、網絡異常等各種常見爬蟲問題；

6. 優秀的分析、解決問題能力，對處理未知的、挑戰性問題充滿激情；

主要職責：

1. 負責爬蟲系統的設計、研發與維護；

2. 設計爬蟲策略與算法，提升平台的抓取效率；

3. 持續優化系統，提高系統的穩定性及性能；

4· 網站、網頁、鏈接的特徵挖掘；對指定的多個網站進行網頁抓取、數據的提取、清洗、入庫；開發垂直站點定向抓取程序，持續優化系統已有模塊性能；

5· 能實時監控爬蟲的進度和警報反饋；

Tags：崗位職責爬蟲工程師

維保工程師崗位職責

高級維護工程師崗位職責

質量監督工程師崗位職責

中高級java工程師崗位職責

猜你喜歡

過程檢驗工程師崗位職責工程監理工程師崗位職責工程技術工程師崗位職責軟件編程工程師崗位職責爬蟲開發工程師求職信撰寫技巧工程服務工程師崗位職責 SMT製程工程師崗位職責過程控制工程師崗位職責工程師崗位職責爬蟲工程師個人簡歷怎麼寫

相關文章

液路工程師崗位職責視頻工程師崗位職責鍛造工程師崗位職責塗裝工程師崗位職責物流工程師崗位職責注塑工程師崗位職責產線工程師崗位職責網管工程師崗位職責測試工程師崗位職責電控工程師崗位職責