在論及數據質量的好壞時,人們常常便用誤差或不確定性的概念,數據質量問題在很大程度上可以看作數據誤差問題,而描述誤差最常用的概念是準確度和精密度。
(1)誤差:誤差反映了數據與真實值或者大家公認的真值之間的差異,它是一種常用的衡量數據準確性的表達方式。
(2)數據的準確度:數據的準確度被定義為結果、計算值或估計值與真實值或者大家公認的真值的接近程度。
如果兩地間的距離為100km,從地圖上量測的距離為98km,那么地圖距離的誤差為2km;若用GPS量測并計算兩點間的距離得99.9km,則GPS的測距誤差為0.lkm,因而GPS比地圖黿測距離更準確。
添加微信好友, 獲取更多信息
復制微信號
(3)數據的精密度:數據的精密度指數據表示的精密程度,亦即數據表示的有效位數。它表現了測量值本身的離散程度。由于精密度的實質在于它對數據準確度的影響。同時在很多情況下,它可以通過準確度而得到體現,故常把兩者結合在一起稱為精確度,簡稱精度。
如對同樣兩點,用GPS測量可得9.903km,而用工程制圖尺在1:100000地形圖上量算僅可得到小數點后兩位,即9.85km。9.85km比9.903km精度低,但精度低的數據并不一定準確度也低。如在計算機中用32bit實型數來存儲0~255范圍內的整數,并不能因為這類數后面帶著許多小數位而說這類數比僅用 8bit的無符號整型數存儲的數更精確。它們的準確度實際是一樣的。若要測地殼移動,用精度僅在2~5m的GPS接收機進行測量當然是不可能的,需要用精度在0.00lm量級供大地測最用的GPS接收機。
(4)不確定性:不確定性是關于空間過程和特征不能被準確確定的程度,是自然界各種空間現象自身固有的屬性。在內容上,它是以真值為中心的一個范圍,這個范圍越大,數據的不確定性也就越大。
不確定性還沒有一個統一的定義,其含義比較廣泛,數據的誤差、數據和概念的模糊性及不完整性都可視作不確定性問題的內容。不確定性可以看作一種廣義的誤差,包含了可度量和不可度量的誤差,也包含了數值和概念上的誤差。
當真值不可測或無法知道時,我們就無法確定誤差,因而用不確定性取代誤差。統計上,用多次測量的平均來計算真值,而用標準差來反映可能的誤差大小。因此可以用標準差來表示測量值不確定性。然而欲知標準差,就需要對同一現象做多次測量。所以要知道某測量值的不確定程度,需要多次測量,而稱一次測量的結果為不確定的。例如,由于潮汐的作用,海岸線是某一瞬間海水與陸地的交界。它是一個大家熟知的不能準確測量的現象,我們稱測量得的海岸線長度為不確定的。其實造成數據不確定性的原因不僅限于真值的不可測或測不準,也可能是由于測a對象的概念模糊所致。如高密度住宅或常綠闊葉林,當地圖或數據庫中出現這類多邊形時,我們無法知道住宅密度究竟多高,該處常綠闊葉林中到底有哪幾種樹種,而只知道一個范圍,因而這類數據是不確定的。一般而言,從大比例尺地圖上獲得的數據,其不確定性較小比例尺圖上的小,從高空間分辨率遙感圖像上得到數據的不確定性較低分辨率數據的小。
(5)相容性:指兩個來源的數據在同一個應用中使用的難易程度。例如兩個相鄰地區的土地利用圖,當要將它們拼接到一起時,兩圖邊緣處不僅邊界線可良好地銜接,而且類型也一致,稱兩圖相容性好。反之,若圖上的土地利用邊界無法接邊,可見兩個城市的統計指標不一致也可造成所得數據無法比較致使數據不相容。這種不相容可以通過統一分類和統計標準來減輕。另一類不相容性可從使用不同比例尺的地圖數據看到,一般土壤圖比例尺小于1:10000,而植被圖則在1:15000至1:50000之間,當使用這兩種數據進行生態分類時,可能出現兩種情況: 一是當某一土壤圖的圖斑大得使它代表的土壤類型在生態分類時可以被忽略;二是當土地界線與某植被圖斑相交時,它實際應該與植被圖斑的部分界線一致。這種狀況使得本該屬于同一生態類型的植被圖斑被劃分為兩類,造成這種狀況的原因可能是土壤圖制圖時邊界不準確,或由于制圖綜合所致。顯然,比例尺的不同能夠造成數據的不相容。當用遙感影像更新林業圖時,雖然原來的林業圖可能是從航空像片判讀得來的,如果遙感影像的幾何準確度在林業圖的幾何準確度范圍之內,而遙感圖像上所得到的森林類型、郁閉度級別和樹木大小級別與林業圖一致而且準確度在可接受的范圍內,則稱從遙感圖像上得到的林業圖更新數據與原林業圖相容。如果兩種用不同 *** 制作的林業圖中的一個圖的分類體系 可以轉化成另一個圖的分類體系,那么從使用后一個圖的角度看,前一個圖與后一個圖是相容的。反之不然。
(6)—致性:指對同一現象或同類現象的表達的一致程度。如同一條河流,在地形圖上和在土壤圖上形狀不同,又如同一行政邊界在人口圖和土地利用圖上不能重合,這些均表示數據的一致性差。又如,在同一地形圖上,同類地形起伏和地貌狀況,等高線的疏密和光滑程度有所不同。這或是由同一制圖者對等高線的制圖綜合標準不一或是 兩個不同制圖者的制圖綜合標準有出人造成的。再如水系圖與森林圖疊加后發現,森林與湖面重咨,這在邏輯上是不一致的,造成這一狀況的原因要么是某圖的數據坐標有偏差,要么是制圖綜合程度不一致。邏輯的一致性,指描述特征間的邏輯關系表達的可靠性。這種邏輯關系可能是特征的連續性、層次性或其他邏輯結構。例如,水系或道路是不應該穿越一個房屋的;島嶼和海岸線應該是閉合的多邊形,等高線不應該交叉等。有些數據的獲取,由于人力所限,是分區完成的,這在時間上就不一致。
(7)完整性:指具有同一準確度和精度的數據在類型上和 特定空間范圍內是否完整的程度。一般來說,空間范圍越大,數據的完整性可能就越差。數據不完整最簡單的例子是缺少數據。如計算機從GPS接收機傳輸位置數據時,由于軟件受干擾的緣故,只記錄下經度而丟失了緯度,以至造成數據不完整。另外由于GPS接收機無法收到四顆或更多的衛星信號而 無法計算高程數據也會造成數據不完整。又如某個應用項目需要1:50000的基礎底圖,但現有的地圖數據只覆蓋項目區的一部分,底圖數據便不完整。這時可用更大比例尺的地圖填補缺少1:50000比例尺地圖的地區。再如,生態類型制圖需要地形髙程、坡度、坡向植被覆蓋類型、氣溫、降雨和土地等數據。缺少上述任一方面的數據對于生態分類都是不完整的。
(8)可得性:指獲取或使用數據的容易程度。保密的數據按其保密等級限制使用者的多少,有些單位或個人無權使用;公開的數據則按價決定可得性。太貴的數據可能導致潛在用戶另行搜集,造成浪費。
(9)現勢性:指數據反映客觀現象目前狀況的程度。不同現象的變化頻率是不同的,如地形、地質狀況的變化一般來說比人類建設要緩慢,地形可能會由于山崩、雪崩、滑坡、泥石流、人工挖掘及填海等原因而在局部區域改變。但由于地圖制作周期較長,局部的快速變化往往不能及時地反映在地形圖上,對那些變化較快的地區,地形圖就失去了現勢性。城市地區土地覆蓋變化較快,這類地區土地覆蓋圖的現勢性就比發展較慢的農村地區會差些。地形圖上記錄著所用航空像片的獲取年代。若又用其他數據進行過修改(一般是較新的航空像片),也應記錄于上。開發數據庫時,應該記錄數據的采集時間及其處理 *** 和過程,這便可做為數據的檔案。談到現勢性差的數據,我們或許會想到可將它們做為歷史資料與新采集的數據進行比較,以確定一定時間間隔內發生的變化。這時應注意歷史數據的時間一致性問題。由于歷史數據采集 *** 落后,有時一個地區的數據需要花費幾年時間來收集,而哪些數據究竟采自哪年又不清楚。如新數據是在某一個較短時間內完成的,這兩種數據經比較所得到的變化數據在時間上也存在著不一致現象。
可見數據質量的好壞與上述種種數據的特征有關。這些特征代表著數據的不同方面,它們之間有聯系,如數據現勢性差,那么用于反映現在的客觀現象就可能不準確。數據可得性差,就會影響數據的完整性。數據精度差,則數據不確定性就高。
來源:開源地理空間基金會中文分會
來源鏈接:https://www.osgeo.cn/post/1fd75
本站聲明:網站內容來源于 *** ,如有侵權,請聯系我們,我們將及時處理。