地理空間數(shù)據(jù)工程
GIS 中的數(shù)據(jù)工程為分析準備空間數(shù)據(jù)。例如,此過程填充缺失值、添加字段、地理豐富和清理值。通常,整個數(shù)據(jù)科學工作流程從數(shù)據(jù)工程和必要的ETL 工作流程開始。數(shù)據(jù)工程方面可能是數(shù)據(jù)科學中最耗時的方面。但也是分析中最關鍵的部分之一,因其與輸入的數(shù)據(jù)一樣好。
在本文中,我們將探討地理空間數(shù)據(jù)工程的基本組成部分,并討論如何優(yōu)化空間數(shù)據(jù)以進行分析。
數(shù)據(jù)工程中的關鍵術(shù)語
地理空間數(shù)據(jù)無處不在,是許多數(shù)據(jù)驅(qū)動的關鍵業(yè)務任務的核心。從繪制屬性邊界到分析作物產(chǎn)量,地理空間分析可以幫助組織理解他們的數(shù)據(jù)。就如任何類型的數(shù)據(jù)一樣,可以進行常規(guī)流程,據(jù)科學家/分析師能夠為業(yè)務團隊提供洞察力。以下是數(shù)據(jù)工程過程中通常附帶的一些關鍵術(shù)語:
- DATA WAREHOUSE:來自各種來源的數(shù)據(jù)庫 *** , 就像一個數(shù)據(jù)庫,每個人都可以擁有多個數(shù)據(jù)倉庫。
- DATA LAKE:非結(jié)構(gòu)化數(shù)據(jù)的存儲庫,將其視為數(shù)據(jù)的傾倒場。
- DATABASE:表、列和行形式的結(jié)構(gòu)化數(shù)據(jù)。
- 數(shù)據(jù)管道:一系列任務,每個任務都在一個數(shù)據(jù)集上運行, 將數(shù)據(jù)從一個系統(tǒng)傳遞到另一個系統(tǒng),通常用于收集、 存儲和處理數(shù)據(jù)以用于分析目的。
- EXTRACT, TRANSFORM, LOAD (ETL):從一個系統(tǒng)中提取數(shù)據(jù), 將其轉(zhuǎn)換為另一個系統(tǒng)可以使用的格式, 并將其加載到最終系統(tǒng)中用于業(yè)務分析的過程。
ETL——提取、轉(zhuǎn)換、加載
ETL(提取、轉(zhuǎn)換加載)是一系列流程,可讓數(shù)據(jù)為分析和業(yè)務洞察做好準備,將數(shù)據(jù)從一個數(shù)據(jù)庫移動到一個或多個數(shù)據(jù)庫作為管道項目。可將 ETL 視為接力賽。數(shù)據(jù)在某一時刻進入系統(tǒng),并進行轉(zhuǎn)換,后從一個跑步者傳遞到下一個跑步者,直到到達最終目的地。
添加微信好友, 獲取更多信息
復制微信號
數(shù)據(jù)工程工具
數(shù)據(jù)工程是從各種來源收集數(shù)據(jù)并創(chuàng)建將數(shù)據(jù)從原始 來源移動到數(shù)據(jù)倉庫的數(shù)據(jù)管道的過程。盡管空間分析是許多數(shù)據(jù)驅(qū)動過程的核心,但地理空間分析可能具有挑戰(zhàn)性且乏味。盡管增加了復雜性,但 GIS 中的數(shù)據(jù)工程在過去幾年中一直受到關注。以下是一些對地理空間數(shù)據(jù)具有原生支持的關鍵數(shù)據(jù)工程軟件應用程序。
Snowflake
Snowflake 是基于云的數(shù)據(jù)倉庫和數(shù)據(jù)湖,從各種來源收集數(shù)據(jù)。它是一種軟件即服務 (SAS),可實現(xiàn)可擴展的數(shù)據(jù)存儲和處理。同樣,提供了更快速、更易于使用的靈活分析解決方案。它自己的 SQL 查詢引擎是專門為云設計的。Snowflake 支持的一些地理空間數(shù)據(jù)類型包括 Geo *** ON 和 PostGIS。
Apache AirFlow
這個基于 Python 的開源 ETL 工具專為構(gòu)建和準備數(shù)據(jù)管道而設計。每個進程都是一個用有向無環(huán)圖 (DAG) 表示的任務,該有向無環(huán)圖 (DAG) 將進程從一個連接到另一個。此外,Apache AirFlow具有一組獨特的工具,可編寫、調(diào)度、迭代和監(jiān)控數(shù)據(jù)管道。
Feature Manipulation Engine (FME)
SAFE Software 的 FME 的核心是空間 ETL 專家。通過利用 FME Cloud,是一種控制數(shù)據(jù)流的靈活解決方案。但也允許在其云基礎設施之外工作,例如使用 AWS。通過讀取器、寫入器和轉(zhuǎn)換器構(gòu)建工作臺,可通過地理空間格式的更大互操作性來完善 ETL 過程。
Alteryx
這是數(shù)據(jù)工程工具的另一個示例,可在其中如 Apache Airflow 一樣將作業(yè)作為 DAG 執(zhí)行。Alteryx專門從事 ETL 處理。這意味著也可以從其他來源提取和豐富數(shù)據(jù),將轉(zhuǎn)換后的數(shù)據(jù)移動到 Snowflake 或任何基于云的平臺。
Elasticsearch
Elasticsearch 是免費的開源工具,用于搜索和分析所有類型的數(shù)據(jù),包括文本信息和其他數(shù)據(jù)類型。這種數(shù)據(jù)工程工具也被廣泛用于 GIS 集成,因其將Elastic Maps 應用程序與 Kibana 相結(jié)合,允許分析和可視化地理空間數(shù)據(jù)。
Databricks
Databricks Geospatial Lakehouse 是用于大規(guī)模空間數(shù)據(jù)科學和 協(xié)作的數(shù)據(jù)工程平臺。Databricks是數(shù)據(jù)工程的主要參與者之一。甚至可以通過 CARTO Spatial Extension for Databricks 連接,以挖掘甚至靜音的潛力來解鎖云中的空間分析。
GIS中的數(shù)據(jù)工程
空間數(shù)據(jù)工程側(cè)重于管理、處理、清理和分析地理空間數(shù)據(jù)。它與空間數(shù)據(jù)科學密切相關。但數(shù)據(jù)工程師更關注數(shù)據(jù)工程過程的實施,而數(shù)據(jù)科學家更專注于數(shù)據(jù)的發(fā)現(xiàn)和探索。
GIS中的數(shù)據(jù)工程是從多個源中提取和編譯數(shù)據(jù),將空間數(shù)據(jù)轉(zhuǎn)換為對業(yè)務有用的格式,后將其加載到數(shù)據(jù)倉庫中的過程。這種注重實踐、注重細節(jié)的職業(yè)要求數(shù)據(jù)工程師是耐心的問題解決者,喜歡細致的工作。但是,當將地理空間添加到等式中時,這會增加云中空間分析的復雜性。
來源:開源地理空間基金會中文分會
來源鏈接:https://www.osgeo.cn/post/1ea53
本站聲明:網(wǎng)站內(nèi)容來源于 *** ,如有侵權(quán),請聯(lián)系我們,我們將及時處理。