首頁 > 大數據 > 正文

數據工程師和數據科學家有什么不同

2019-04-26 16:52:21  來源:雷鋒網

摘要:我們最近在Reddit上做了問答活動。有個最常見的問題是數據科學家和數據工程師之間的區別。因此,我們想在這個主題上下寫一篇文章來深入探討下這個話題。
關鍵詞: 數據工程師
  我們最近在Reddit上做了問答活動。有個最常見的問題是數據科學家和數據工程師之間的區別。因此,我們想在這個主題上下寫一篇文章來深入探討下這個話題。
 
  \
 
  有許多數據專家的崗位聽起來沒多大區別,使用的工具也很類似,我們很難知道各類職位應該承擔什么樣的職責。此外,較小的公司可能會受限于他們聘請的數據工程師或數據科學家的人數,這便意味著很多時候特定的任務和目標可能會開始混合。
 
  上述使得明確區分這兩個角色變得更加困難。因此,我們想通過討論數據工程師和數據科學家所擁有的不同目標,思維模式,工具和背景來了解兩個職位的不同之處。
 
  在我們討論差異之前,我們想做一個快速的引言。事實是,許多數據科學家和數據工程師將執行其他技術角色的任務。數據科學家可能需要開發ETL,數據工程師可能需要開發API和前端。因此,我們在下面指出的區別只是為了弄清楚技術差異在哪里。
 
  目標
 
  數據工程師的目標更側重于任務和開發。數據工程師構建自動化系統和模型數據結構,以允許有效地處理數據。這意味著數據工程師的目標是創建和開發表格和數據管道,以支持分析儀表板和其他數據客戶(如數據科學家、分析師和其他工程師)。它與大多數工程師相似。為了能夠執行最終的任務,需要進行大量的設計、假設、限制和開發。每個設計和解決方案都有自己的一組限制,即使它們都可以執行最終任務。
 
  相比之下,數據科學家往往更關注問題。從這個意義上說,他們正在尋找降低成本/增加利潤、改善客戶體驗或業務效率的方法。這意味著他們需要問問題,然后回答問題(問問題,假設,然后得出結論)。所以他們需要問的問題比如,什么影響了病人的再入院,如果增加A vs. B,顧客會花更多錢嗎,有沒有更快的遞送包裹的路線?跳過剩下的過程。這里的目標是找到問題的答案。這可能是一個最終的結論或更多的問題。在整個過程中,數據科學家分析、收集支持,并可以得出問題的結論。
 
  工具
 
  這就是事情會變得混亂的地方。數據科學家和數據工程師通常都依賴于python和SQL。然而,這兩個技術角色使用這些技能的方式各不相同。同樣,這與心態的差異有關。Python是一種非常健壯的語言,它具有幫助管理操作任務和分析任務的庫。
 
  數據科學家將使用panda和Scikit Learn這樣的庫,而數據工程師將使用python來管理管道。這就是像airflow和Luigi這樣的圖書館派上用場的地方。
 
  類似地,數據科學家查詢將是特別關注的(例如,關注問題)。而數據工程師的查詢將集中于清理和轉換數據。
 
  現在,數據專家還可以使用其他工具。這包括Tableau, Jupyter筆記本和其他一些。說到底,區別在于他們如何使用它們。
 
  背景
 
  現在,當談到數據工程師和數據科學家之間的差異時,另一個常見的問題是需要什么樣的背景。
 
  數據工程和數據科學都需要對數據和編程有一定的了解。即使是有限的范圍。然而,有一些區別超出了編程。特別是數據科學家。由于數據科學家更像研究人員,擁有以研究為基礎的背景是一種優勢。
 
  這可能是在經濟學、心理學、流行病學等領域。將研究背景、SQL、Python和良好的商業意識結合起來,您就擁有了一位數據科學家。這些并不是一成不變的。事實上,我們遇到了一位獲得多個學位的的數據科學家。大多數雇主更傾向于雇傭至少擁有碩士學位的數據科學家,他的專業是技術或數學。
 
  數據工程職位通常不需要碩士學位。數據工程更多的是作為一名開發人員。這需要更多的實踐經驗,而不是理論知識。所以獲得碩士學位并不能提供相同的價值。
 
  一個例子
 
  假設一家醫療保健公司的董事決定,他們想要弄清楚如何減少30天前再次入院的病人數量。從數據的角度來看,需要做幾件事。
 
  數據科學家需要弄清楚是什么驅使病人重新入院。這是他們將試圖回答的問題。根據他們得出的結論,他們將與業務部門合作,制定度量指標 。這些指標是如何創建將由數據科學家得到答案。
 
  數據科學家和數據工程師有很多不同之處。他們有不同的目標和背景,但這就是兩者共同利用的價值所在。數據工程師更多地關注工程健壯系統,這一事實使得數據科學家能夠輕松地查詢數據并有效地分析數據。他們的合作伙伴關系使公司從數據中獲得價值。

第二十八屆CIO班招生
法國布雷斯特商學院MBA班招生
法國布雷斯特商學院碩士班招生
法國布雷斯特商學院DBA班招生
責編:pingxiaoli
日本熟妇色在线视频