網站首頁 實用文 書信 面試 實習 實習報告 職場 職責 勵志 名言 熱點

爬蟲工程師崗位職責

欄目: 工程師職責 / 發佈於: / 人氣:1.22W
爬蟲工程師是做什麼的?本文提供爬蟲工程師的崗位職責例子,包括詳細的工作內容及任職要求。

崗位職責

爬蟲工程師崗位職責

1. 負責設計和開發分佈式的網絡爬蟲,參與各種核心搜索策略、算法、數據聚類、重組的設計與開發;

2. 負責網頁信息抽取技術算法的研究和開發,提升網頁抓取的效率和質量;

3. 計算機軟件及相關專業有1年以上的爬蟲程序設計開發經驗;

4.擁有分佈式爬蟲、垂直網站抓取經驗優先。

5. 擁有淘寶APP及淘系網站抓取經驗者優先。

6、擁有較強的反反爬能力。


崗位要求:

1. 2年以上JAVA開發的經驗;有多線程開發經驗;

2. 熟悉整個爬蟲的設計及實現流程,有從事網絡爬蟲,網頁信息抽取開發經驗;

3. 熟悉nutch,httpclient,jsoup等工具;

4. 熟悉http,xml,json,soap協議;

5. 熟悉網頁抓取/解析,網頁消重, 統計分析等研發經驗;

6. 擁有淘寶APP,淘系網站,微信公眾號抓取經驗者優先。

7. 對開源項目有較好的跟蹤和關注,如果對一些開源的做海量數據處理的項目有經驗者會優先考慮。


1、參與設計爬蟲策略和防屏蔽規則,提升網頁抓取的效率和質量;

2、參與搜索引擎及個性化推薦項目的開發。

3、參與開發分佈式網絡爬蟲系統,進行多平台信息的抓取和分析。

崗位要求

1、熟悉linux平台開發,有過python開發經驗;2、具有搜索相關技術研發經驗者優先;

2、具有數據挖掘、自然語言處理、信息檢索、機器學習背景者優先;

3.大專及以上學

1、負責爬蟲系統的開發;

2、負責爬蟲平台的開發;

3、負責新人的指導

4、負責數據採集的策略制定;

任職資格:

(1)統招一本以上學歷,計算機相關專業;

(2)熟悉Linux系統,掌握Python開發語言。
(3)熟悉mysql、redis,mongodb等數據庫。
(4)有scrapy、pyspider等爬蟲框架使用經驗。
(5)熟悉基於正則表達式、XPath、jsonPath、CSS等網頁信息抽取技術。
(6)加分項:有滑動驗證碼識別技術經驗;有nodejs開發經驗。

具體要求:

1. 熟悉 Python,有分佈式爬蟲架構、數據挖掘經驗;

2· 熟悉網頁抓取原理及技術,熟悉基於Cookie的網站登錄原理,熟悉基於正則表達式、Xpath、CSS等網頁信息抽取技術;

3. 熟悉網絡編程(TCP/HTTP 協議),具有 Linux 下編程經驗和操作經驗;;

4· 熟悉多線程,熟悉使用至少一種關係型數據庫(MYSQL)等,熟悉NOSQL、hbase技術者優先;

5. 瞭解分佈式系統的設計與實現,能夠解決反爬蟲、網絡異常等各種常見爬蟲問題;

6. 優秀的分析、解決問題能力,對處理未知的、挑戰性問題充滿激情;

主要職責:

1. 負責爬蟲系統的設計、研發與維護;

2. 設計爬蟲策略與算法,提升平台的抓取效率;

3. 持續優化系統,提高系統的穩定性及性能;

4· 網站、網頁、鏈接的特徵挖掘;對指定的多個網站進行網頁抓取、數據的提取、清洗、入庫;開發垂直站點定向抓取程序,持續優化系統已有模塊性能;

5· 能實時監控爬蟲的進度和警報反饋;