機載LiDAR點云數據降維與分類的隨機森林 ***
熊艷1 , 高仁強2 , 徐戰亞1
1. 中國地質大學(武漢)信息工程學院, 湖北 武漢 430074;
2. 北京大學遙感與地理信息系統研究所, 北京 100871
之一作者簡介:熊艷(1992-), 女, 碩士生, 研究方向為點云數據處理、數據可視化。E-mail:1453258599@qq.com
通信作者:徐戰亞, E-mail: 1453258599@qq.com
添加微信好友, 獲取更多信息
復制微信號
摘要:探索自動化的激光點云分類 *** 對于三維建模、城市土地分類、DEM制圖等應用具有重要作用。考慮到現有的點云分類算法在提取依賴鄰域結構的特征參數時面臨鄰域尺度的選擇難、數據維度高、計算復雜,并且缺乏對分類特征參數的重要性評估和選擇等問題,本文提出了基于隨機森林的機載LiDAR點云數據降維與分類 *** 。在分析點云數據的高程、回波、強度等屬性特征的基礎上,提取歸一化高度、高度統計量、表面特征、空間分布特征、回波特征及強度特征6大類特征參數,并構建多尺度特征參數,運用隨機森林的特征選擇算法對分類特征集進行優化,然后進行點云分類。試驗結果表明,基于隨機森林的特征選擇 *** 可以有效地降低特征維度,并且使得總體分類精度達到94.3%(Kappa系數為0.922),相比于使用全部特征分類和SVM分類 *** 而言,該 *** 的總體分類精度均有一定程度的提高;特征的重要性度量結果表明,歸一化高度特征在點云分類中所起的作用更大。
關鍵詞:機載激光雷達 特征選擇 點云分類 隨機森林
Random Forest Method for Dimension Reduction and Point Cloud Classification Based on Airborne LiDAR
XIONG Yan1 , GAO Renqiang2 , XU Zhanya1
Abstract: Exploring automatic point cloud classification method is of great importance to 3D modeling, city land classification, DEM mapping and etc.To overcome the problem that extracting geometric feature for point cloud classification involved neighbor structure meets the challenge that the optimal neighbor scale parameter, high data dimension and complex computation, lacking efficient feature importance *** ysis and feature selection strategy, this paper proposed a point cloud classification and dimension reduction method based on random forest.After *** yzing the characteristic of elevation, intensity and echo of laser points, this paper extracted a total of 6 feature types like normalized height feature, height statistic feature, surface metric feature, spatial distribution feature, echo feature, intensity feature, then built a multi-scale feature parameter from them.Finally, a supervised classification was conducted using a random forest algorithm to optimal the feature set and choose the best feature set to classify the point cloud.Results indicate that, the overall accuracy of the proposed method is 94.3% (Kappa coefficient is 0.922).The proposed method got an improvement in the overall accuracy when compared with no feature selection strategy and SVM classification strategy; The feature importance *** ysis indicates that the normalized height is the most important feature for the classification.
Key words: LiDAR feature selection point cloud classification random forest
機載LiDAR技術作為一種全新的測繪技術,具有快速獲取大范圍、高密度、高精度的地面信息的優勢,已在城市規劃、地形制圖、自然災害監測方面得到廣泛應用[1-2]。點云分類是激光點云數據后處理的一個重要環節,也是目前攝影測量與遙感領域的重要研究方向之一[3]。在實際的點云分類應用中,受點云的噪聲、離散性、密度的不均勻性以及地物形態的多樣性等因素的影響,自動化、高精度的點云分類依然面臨著巨大挑戰。
目前的點云分類 *** 主要有以下幾種解決思路。①將LiDAR點云內插生成高程或者強度影像,然后從圖像中提取一些基本的統計特征參數并采用基于像素或者對象的分類 *** 進行地物分類[4-7]。這種方式雖然能取得較好的效果,但是內插會帶來計算誤差,而且將三維點云轉為二維柵格數據來處理有信息損失。②直接根據點云的三維空間信息選擇合適的空間鄰域結構,鄰域的選擇形式包括K近鄰、球體鄰域、圓柱體鄰域或立方體鄰域,然后提取反映地物類型差異的幾何特征參數,并借助相關的機器學習算法進行分類[8-10]。這種 *** 的難點在于鄰域的確定受空間鄰域尺度的影響。對于更佳空間鄰域尺度的確定,大多學者是通過反復的嘗試或者憑借經驗獲得,可指導性不強,也有學者嘗試采用多尺度的方式解決,但是不加篩選的添加鄰域尺度將導致特征維數的急劇增大,給數據處理帶來巨大負擔。③將點云分類轉為多次的目標探測與分離,通過設定一系列的目標識別規則逐步減少分類數量,從而實現點云分類[10-11]。這種 *** 的不足之處在于誤差存在傳遞與累積,導致分類結果具有很大的不確定性,而且過程比較繁雜,尤其是地物類型比較多的情況。④基于高度紋理的分類 *** ,該 *** 先將點云的高程信息內插生成高度影像,然后提取高度紋理特征(如變異系數、二階矩、熵等)并應用遙感影像分類算法進行分類[10-11]。該 *** 要求預先設定的地物類別的高度特征存在明顯差異,而且對分類地物的先驗知識具有較高要求,單獨依靠紋理信息進行分類精度不高,需要強度以及幾何特征信息的輔助。⑤對全波形機載點云的全波形信息進行分解,然后提取波形特征參數(如回波率、后向散射系數、振幅、波寬等)以及高程特征進行分類[1, 13-15]。該 *** 對數據源的要求較高,目前通過波形信息來量化地物的空間形態差異還存在很多難點,尤其是植被或者建筑物都具有多回波特征,波形的差異不明顯,一般需要結合其他特征參數才能取得比較好的效果[16]。
盡管學者們提出了多種多樣的特征參數用于點云分類的研究,但是缺乏對特征參數的選擇過程。如果直接將所有的特征參數用于構建分類器,一方面樣本數據的特征維度較高導致計算開銷大、運算時間長,另一方面無關特征的加入會使得分類器精度下降,而且對不同特征作用于地物分類效果的重要性程度分析不夠,導致特征參數與目標地物之間的耦合關系缺乏深刻認識。
本文在前人研究的基礎上,提出一種基于隨機森林的點云數據降維與分類 *** 。該 *** 不需要點云內插,直接以點云數據為核心:首先,通過分析城區目標地物的高度特征、幾何特征、回波特征以及強度特征的差異并提取分類特征參數;其次,對于其中依賴于鄰域結構的特征參數,本文引入多尺度分析的概念,構建多尺度特征以克服空間鄰域尺度選擇難的問題;然后,基于隨機森林算法進行特征選擇和點云分類;最后,從特征選擇效果、分類精度以及特征變量的重要性3個方面進行模型效果評價。
1 數據描述
研究區域位于芬蘭中部城市Jyv?skyl?(62°14.5′N,25°44.5′E),數據來源于TerraSolid官方網站提供的訓練數據(http://www.terrasolid.com/training/training_data.php)。LiDAR數據的獲取時間為2011年,借助無人機搭載的激光掃描儀系統在城市上方飛行獲得,其中包含7條航帶的數據,點云密度平均為17 points/m2。本文選取質量較好且覆蓋城市主要設施的點云作為試驗數據,其坐標系已由WGS-84橢球投影變換至UTM坐標系,覆蓋范圍大約為2100×400 m2,包括14 784 484個激光點數據(圖 1),原始點云的基本屬性包括三維坐標、激光強度、掃描角、回波總數及回波次數等信息。結合點云數據的特點以及區域內地物類型的幾何形態差異,本文將研究區內的地物類型分為地面、建筑物與其他3種。
圖 1 試驗區獲取的LiDAR點云數據Fig. 1 LiDAR data obtained from the study area
2 研究 ***
本文的試驗流程如下:首先對LiDAR點云進行去噪聲處理;然后選取訓練樣本提取多尺度特征參數,構建分類特征集;再采用RFFS算法進行特征選擇,并將特征選擇得到的結果用于隨機森林模型的構建;最后應用于測試集對分類和精度進行評價。
2.1 點云數據去噪
由于激光脈沖的折射或者多路徑效應,原始點云存在許多噪聲點數據,這部分噪聲信息可以通過目視加以剔除;另外點云中也存在少量的高程粗差點,通過設置合適的搜索半徑閾值R(如0.5 m),然后逐個計算當前搜索點的高程與該點所在半徑R內的鄰域點的高程平均值的差值,并按照差值不超過3σ原則將粗差點識別出來,最后加以刪除。
2.2 特征提取
2.2.1 歸一化高度特征
基于布料模擬算法[17]對去噪點云構建柵格化的DTM模型,由于試驗區域的地形存在較大的起伏,兼顧計算機的運算能力,本文設置布料模擬算法輸出的DTM柵格大小為0.8 m,迭代次數為500,布料的硬度系數為2,且進行坡度后處理。點云中的某一點到該點投影所在的DTM柵格內的高程值之差就是該點的歸一化高度(normalized height, NH),如圖 2所示。該特征在區分地面點和非地面點方面具有很好的效果,如建筑物離地面的高度通常較高且比較有規律,而其他地物的高度特征則比較復雜。
圖 2 歸一化高度示意圖Fig. 2 Schematic diagram of normalized height
2.2.2 高程統計特征
該特征主要表達的是不同地物的高程屬性分布特點。假設整個三維點云構成的點集為
當前計算點為
則以該點為中心半徑為R的鄰域點集可表示為
從當前點和鄰域點共同構成的點集中通過統計分析提取高程統計量,本文使用的高程統計量包括極差、標準差、峰度和偏度。
(1) 高程極差Hr。高程極差的數學形式為
(1)
(2) 高程標準差HSTD。高程標準差的數學形式為
(2)
(3) 高程峰度Hskw。高程峰度的數學形式為
(3)
(4) 高程偏度Hkur。高程偏度的數學形式為
(4)
式(1)—(4)中,zi是第i個鄰域點的高程;z表示當前點和鄰域點共同構成的點集的平均高程。
2.2.3 表面相關特征
表面相關特征主要體現不同地物在平面上的起伏差異,包括平面粗糙度(N)、平面極差(Sr)、平面標準差(SSTD)、平面法向量與豎直方向的夾角(Sn)。如圖 3所示,對當前點和鄰域點共同構成的點集用一個平面進行擬合,使得所有點到該平面的距離的平方和最小,計算當前點到該平面的距離即為粗糙度,所有點到該平面的距離的更大差值即為平面極差,所有點到該平面的距離的標準差為平面標準差。通常植被的粗糙度更大,地面次之,建筑物最小;另外地面和建筑物屋頂的平面標準差較小,而植被的平面標準差較大;建筑物屋頂的法向量與豎直方向的夾角比較小且固定,而地面點的變化較大,植被點的變化則非常大。
圖 3 表面相關特征示意圖Fig. 3 Schematic diagram of surface metric feature
2.2.4 空間分布特征
空間分布特征主要描述當前點在鄰域點內服從一維、二維、三維空間分布的程度。首先對當前點和鄰域點共同組成的點集的三維坐標進行主成分變換,得到對應于當前點的3個主成分系數μ1、μ2、μ3(μ1≤μ2≤μ3),進一步對這3個主成分系數進行歸一化
(5)
式中,λ1、λ2、λ3就對應于當前點在鄰域點集內服從一維、二維、三維空間分布的程度。如果λ1→1,則說明當前搜索點與鄰域點在空間上呈線狀分布特征,如圖 4(a)所示;如果λ1與λ2的值可比擬且λ1+λ2→1,則說明當前搜索點與鄰域點在空間上呈面狀分布特征,如圖 4(b)所示;如果λ1與λ2、λ3的值均可比擬,則說明當前搜索點與鄰域點在空間上呈體狀分布特征,如圖 4(c)所示。
圖 4 3種不同的空間分布特征示意圖
Fig. 4 Schematic diagram of three different spatial distribution feature
2.2.5 回波特征
LiDAR的回波信息包括兩個方面:回波次數和第幾次回波。回波次數特征有單次回波(Ns)及多次回波(Nm);第幾次回波特征有首次回波(Nf)、中間回波(Ni)及末次回波(Nl)。地面在無遮擋條件下通常只有一次反射回波,如果受樹木的遮擋作用,則由于樹木間隙的存在導致部分激光點的末次回波從地面反射回來,因此表現出多次回波的末次回波點一般對應地面點的特征;建筑物一般由鋼筋混凝土等堅固材料組成,激光點打在上面不容易發生穿透,因此通常只具有單次回波,但是在建筑物邊緣會發生多次反射;植被點由于間隙的存在導致激光點會發生多次反射,第1次回波出現在冠層表面,中間回波出現在樹枝以及樹葉上,而最后一次回波則一般透過間隙打在地面上(圖 5)。依據這個特點,本文提取了地面點回波指數(EGI)、建筑物回波指數(EBI)、植被點回波指數(EVI)。假設當前點和鄰域點構成的點集的點數為Nall,則對應回波指數的數學形式為[18]
(6)
(7)
(8)
圖 5 不同地物類型的回波反射特征
Fig. 5 Schematic diagram of echo reflection feature of different ground object
2.2.6 強度特征
由于不同的地物類型對特定的激光波長的反射、吸收能力存在差異,因此激光強度信息在地物分類中也具有廣泛應用。本文計算當前點和鄰域點共同組成的點集內的激光強度的平均值AI作為當前點的平均強度值,并將其作為地物分類的一個特征參數。
2.3 多尺度特征構建
本文提取的特征參數除了歸一化高度特征不需要考慮鄰域結構外,其他均需要。而本文使用的鄰域結構是球體鄰域,因此受空間鄰域尺度的影響。在某個搜索半徑R下得到的當前點與鄰域點的關系只描述了鄰域尺度為R時的空間特征規律,通過不斷調整搜索半徑R的大小,并分別計算不同鄰域尺度下的各個特征參數值,從而得到一系列的多尺度特征參數。結合研究區域內的地物對象大小、異質性特征、空間聚集狀況以及激光點的間距大小等因素,初步設定的空間鄰域尺度有9個,分別為0.4 m、0.5 m、0.6 m、0.7 m、0.8 m、0.9 m、1.0 m、1.2 m、1.5 m。
2.4 隨機森林算法
2.4.1 隨機森林算法原理
隨機森林(random forest, RF)是一種集成學習算法,它可以用于求解多類分類問題。該算法采用Bagging抽樣技術,能有效地減少過擬合的風險,而且可以在訓練的過程中對變量的重要性進行評估,具有很好的抗噪聲、泛化能力[19],其基本組成是分類回歸樹。該算法進行分類的具體步驟為
(1) 首先基于Bagging抽樣技術從訓練樣本中有放回的隨機抽取N個樣本數據、有放回的隨機抽取M個特征變量構建新的自助樣本集,并由此產生T棵分類回歸樹,而每次未被抽到的樣本則組成了T個袋外樣本(out-of-bag, OOB)。
(2) 每棵分類回歸樹的根節點存儲對應的自助樣本數據,從根節點開始按照最小不純度原則選擇某個特征變量,分裂生成子節點。本文使用的不純度指標為基尼系數G,計算 *** 為
(9)
式中,m是類別數;pi是第i個類別的樣本比例。接著對該特征變量選取合適的分裂點使得分裂前后節點的基尼系數下降量達到更大。假設當前選擇的特征變量為f,分裂點為k,則該特征變量分裂前后的基尼系數下降量為
(10)
式中,G(f < k)表示節點p的f值小于k的樣本的基尼系數;q表示節點p的f值小于k的樣本所占比例;而G(f>k)表示對節點p的f值大于k的樣本的基尼系數。
(3) 每棵樹更大限度的遞歸的選擇節點和分裂節點,不做任何裁剪,直至達到更大的分解深度。試驗過程中為了加快建樹的時間并減少過擬合風險,對每個節點是否分裂添加額外的樣本數限制條件,即當某個節點的樣本數大于限制閾值nthreshold時,才可以繼續分裂。
(4) 將生成的T棵分類回歸樹組成森林,在測試階段,每棵分類回歸樹都對測試樣例進行一次投票,最后將得票數最多的類別屬性賦給測試樣例,從而實現隨機森林分類。
參考文獻[19]的研究成果并結合訓練樣本數量較大的特點,本文設置N值為樣本總數的90%,M值為特征總個數的平方根,T值為100,分裂節點的樣本數nthreshold為10。
2.4.2 基于隨機森林的變量重要性度量
假設經過Bagging隨機抽樣后得到了自助樣本集S1、S2、…、Sn,對每個自助樣本集構建分類回歸樹Ti(i=1, 2, …, n),然后對袋外數據Bi(i=1, 2, …, n)進行預測,計算對應的分類準確率pi(i=1, 2, …, n)。對于某個特征變量f,在每個袋外數據中對該特征變量的值添加隨機噪聲得到新的袋外數據B′i,并用Ti再次對B′i預測,計算添加擾動后的分類正確率p′i。特征變量的重要性可通過計算n次模擬后的平均精度下降量來表示[20-21]
(11)
如果精度下降量越大,則該特征變量的重要性程度也就越高,為確保結果的穩定性,本文計算平均精度下降量時,控制模擬次數為10次。
2.4.3 基于隨機森林的特征選擇
特征選擇的目的是從特征集中識別出關鍵特征,刪除無關特征或者冗余特征信息,從而達到降低特征空間的維數以提高模型的訓練速度和學習效果[21-22]。基于隨機森林的特征選擇(feature selection based on random forest, RFFS)算法,首先利用隨機森林算法的特征變量重要性度量對特征集進行排序,然后采用序列后向搜索算法迭代的從當前特征集中刪除最不重要(重要性得分更低)的特征,并依次計算每輪迭代過程中的分類準確率,最后選擇分類準確率更高的特征子集作為特征選擇結果。為了確保訓練的模型可靠且穩定,本文采用了K折交叉驗證的訓練技巧,即每次迭代時將自助樣本集隨機劃分成K份,然后選擇其中的K-1份作為訓練數據構建隨機森林分類器,剩下的1份則作為驗證數據用于評估分類效果。在K次交叉驗證的過程中,選擇驗證數據上分類準確率更高的一次所得的變量重要性排序作為刪除特征的依據,而該輪迭代的分類準確率則是K次交叉驗證的平均分類準確率[21]。由于初始的特征變量數較多,兼顧計算機的處理效率與試驗結果的可靠性,本文設置K值為5。
2.5 優化計算的 ***
由于機載LiDAR點云數據量一般非常大,因而確定點云中某個激光點的鄰域點過程是一個非常耗時的空間查詢過程,尤其是在多尺度幾何特征參數的計算方面。為了提高空間查詢的效率,本文采用八叉樹結構[23]進行點云數據的存儲與空間查詢優化。八叉樹將三維空間遞歸的劃分為許多規則的體素結構,并對每個體素建立八叉樹索引,在鄰域搜索時通過定位當前點所在的體素并預估可能與當前點有交集的體素從而減少空間查詢范圍來提高查詢效率。本文為了減少隨機森林分類器的訓練或者預測時間,在訓練或分類之前先對訓練與測試樣本進行抽稀(空間均勻采樣)處理,再利用抽稀后的訓練樣本構建隨機森林模型并對抽稀后的測試樣本進行分類,對抽稀后的測試樣本分類完成后,去噪點云的類別按照空間最近鄰原則由空間距離最近的測試樣本點的類別決定,由此實現去噪點云的分類。將測試樣本點的類別按照空間最近鄰原則賦給去噪點云時,涉及最近鄰查詢,本文采用KD(K-dimension)樹[24-25]來提高最近鄰點的搜索效率。
2.6 分類精度評價
混淆矩陣是一種常用的分類精度評價方式,其每列數值代表實際類別的點云在各個類別下的數量,每行則代表了模型預測的點云在各個類別下的數量。本文也采用混淆矩陣對點云分類精度進行評定,具體的分類精度評價指標包括:總體精度(OA)以及Kappa系數,對應指標的計算 *** 為
(12)
(13)
式中,N是點云總數;nii代表對角線上的總點數;ni.則表示第i行的總點數;n.i則代表第i列的總點數。
3 結果與分析3.1 基于隨機森林的特征選擇
圖 6表達的是特征子集大小與總體分類精度指標之間的變化關系,試驗過程中設置分類回歸樹的數量T為100,每次隨機抽取90%的樣本作為自助樣本,隨機抽取的特征數M為總特征數的平方根,交叉驗證的K值為5,初始的特征集大小為127,最小的特征集大小為5。試驗表明,隨著特征子集中重要性程度較低的特征的剔除,分類器的預測能力整體上逐漸增加,這是由于去除了不相關和冗余的特征使得分類器性能得到提高的緣故。當特征子集大小達到一定數量(本例是26)時,分類器的預測能力達到更大97.0%,繼續剔除特征變量則會使得一部分關鍵特征被當作無用特征剔除使得分類器性能下降導致預測精度降低。
圖 6 特征集大小與分類精度變化關系
Fig. 6 The relationship between overall accuracy and feature set size
3.2 點云分類結果
經過RFFS特征選擇過程得到更優特征子集后,為了加快分類速度,對去噪點云進行抽稀處理(即空間均勻采樣,抽樣率大約為1%),再將這部分抽稀點云作為核心點數據并從中選擇訓練樣本點和測試樣本點。本文最后選取的訓練樣本點個數為54 395、測試樣本點個數為70 976。基于Python語言對訓練樣本點構建隨機森林分類器,并基于該分類器對測試樣本進行分類。隨后,按照空間最鄰近插值原理對去噪點云進行分類,結果如圖 7(a)所示。為了說明本文 *** 的有效性,本文對未經過特征選擇而直接使用全部特征構建隨機森林分類器也進行試驗,除特征變量不同外其他參數設置不變,其結果如圖 7(b)所示。另外本文與現有主流的機器學習算法之一:支持向量機(SVM)模型進行比較,試驗過程中使用統一的訓練樣本和測試樣本,由于線性SVM模型支持大容量樣本的模型訓練,因此本文采用線性SVM模型。模型參數是通過反復嘗試使得總體精度達到更優來確定的,關鍵的參數包括penalty值為12,懲罰系數C=1.0,迭代次數為200,其他參數取默認值。同樣對特征選擇前、后分別進行試驗,對應的結果如圖 7(c)、(d)所示。總體上看,本文的分類 *** 對于地面、其他類的分類效果非常好,但是對于建筑物的分類效果較差,尤其是在坡地和建筑物邊緣地帶(如圖 7(a)中的1#和2#);相對于未經過特征選擇的分類策略而言,地面點的錯分現象更少,而且椒鹽現象更輕一些(如圖 7(a)、(b)中的3#、4#和5#),而相比于SVM模型而言,這種優勢更為明顯(如圖 7(a)、(b)、(d)中的1#、6#和7#)。
圖 7 不同分類策略下的分類結果
Fig. 7 The classification result of different classification strategies
3.3 精度評價與效率對比
為定量評價本文提出的 *** 的分類效果,通過交互式的方式對點云數據進行分類,并將其作為參考數據(圖 8),與上述4種分類策略下的分類結果進行比較,得到的誤差統計結果如表 1所示。由表 1可見,基于隨機森林算法的分類結果特點是:經過特征選擇后,目標類別點的漏分率均得到降低,除了建筑物點的錯分率有所輕微增加外,其他兩類的錯分率也都得到降低。另外,建筑物點的漏分率相比于其他類別要高很多,主要原因在于分類器誤把一部分建筑物點當做地面點而發生混淆。而基于SVM算法的分類結果特點是:經過特征選擇后,地面點的錯分率和建筑物點的錯分率得到降低,但其他類點的錯分率略微增加;另外,其他類點的漏分率得到降低的同時建筑物點的漏分率卻在增加,而地面點保持不變。值得注意的是,基于SVM得到的建筑物點的漏分率和錯分率要大大高于基于隨機森林算法的結果。
圖 8 參考點云分類結果Fig. 8 The reference classification data
表 1 分類結果誤差統計Tab. 1 Error statistic of classification result
(%) | |||||||||||
目標 | RF+FS分類 | RF分類 | SVM+FS分類 | SVM分類 | |||||||
漏分率 | 錯分率 | 漏分率 | 錯分率 | 漏分率 | 錯分率 | 漏分率 | 錯分率 | ||||
注:RF+FS分類表示經過特征選擇后的隨機森林算法分類;RF分類表示未經過特征選擇直接使用隨機森林算法進行分類;SVM+FS分類表示經過特征選擇后的SVM算法分類;SVM分類表示未經過特征選擇直接使用SVM算法分類。 | |||||||||||
地面 | 0.8 | 1.8 | 1.1 | 5.0 | 1.8 | 0.9 | 1.8 | 1.5 | |||
建筑物 | 22.9 | 9.6 | 28.7 | 9.2 | 28.9 | 16.7 | 27.8 | 18.1 | |||
其他 | 2.3 | 6.0 | 2.5 | 6.3 | 4.3 | 9.5 | 5.1 | 8.7 |
進一步對這4種分類策略下的結果進行精度與效率評比,試驗過程使用的是輕便型筆記本電腦(型號:華碩A501;CPU:Intel Core i5-5200U,主頻2.19 GHz;內存12 GB),結果如表 2所示。從表 2的結果來看,經過特征選擇后的隨機森林算法的總體精度相比于未經過特征選擇的分類精度提高1.4%,Kappa系數提高0.022;相比于經過特征選擇的SVM分類 *** 而言總體精度提高2.1%,Kappa系數提高0.35;相比于未經過特征選擇的SVM分類算法而言,總體精度提高2.3%,Kappa系數提高0.037。這就說明經過特征選擇后分類精度確實能得到提升,但是提升幅度較小,并且基于集成的學習算法的學習能力比SVM更強,但是由于本文使用的更優特征子集是通過RFFS算法得到的,該特征子集的優勢是使得隨機森林算法的分類精度達到更大,但是該特征子集并不一定適用于SVM模型,因此運用到SVM模型后沒有明顯的精度提升。另外,從運行效率方面來看,經過特征選擇后,不管是隨機森林算法還是SVM算法,其模型訓練時間以及模型測試時間均得到大幅度降低,能滿足某些實時性要求高的應用需要。
表 2 分類精度與效率比較Tab. 2 The comparison of classification accuracy and efficiency
參數 | RF+FS 分類 | RF 分類 | SVM+FS 分類 | SVM 分類 |
注:RF+FS分類表示經過特征選擇后的隨機森林算法分類;RF分類表示未經過特征選擇直接使用隨機森林算法進行分類;SVM+FS分類表示經過特征選擇后的SVM算法分類;SVM分類表示未經過特征選擇直接使用SVM算法分類。 | ||||
OA/(%) | 94.3 | 92.9 | 92.2 | 92.0 |
Kappa | 0.922 | 0.900 | 0.887 | 0.885 |
模型訓練時間/s | 10.70 | 27.46 | 8.45 | 52.37 |
模型測試時間/s | 1.07 | 1.82 | 0.04 | 0.16 |
3.4 特征重要性比較
圖 9是通過袋外樣本計算得到的特征重要性結果(各個特征的得分值經過標準化處理,最重要的特征得分設為100)。由圖 9可知,歸一化的高度NH的重要性程度更高,這是因為歸一化高度則能有效地將地面點和非地面點進行分離,并且建筑物點的歸一化高度特征相對其他類點來說更明顯。另外,回波指數在分類過程中也起到了關鍵作用,這是因為地面不存在間隙,因此單次回波(或首次回波)占據主要的比例,其比例也就更高,其次是建筑物,更低的則是植被,因為植被具有縫隙容易發生多次透射,而建筑物只在邊緣處發生透射,導致回波特征有較大差異。另外激光強度AI、法向量與豎直方向的夾角Sn以及空間分布特征λ2對點云分類也發揮了重要作用。相比較而言,高程統計量在本次試驗中的分類作用則不明顯,主要是復雜的地形條件下點云的高程特征差異性并未得到突顯。
圖 9 特征重要性得分結果Fig. 9 Feature importance score results
進一步考察空間鄰域尺度的利用情況,通過對各個鄰域尺度下的特征數量進行統計,其結果如表 3所示。容易看出,隨著鄰域尺度的增大,有效得到利用的特征數量也在增加,這表明在較大的尺度下這3種地物類型的特征差異得到突出;另外,在較大的鄰域尺度下,高程統計量、空間分布特征和建筑物回波指數才開始出現作用;激光強度特征、法向量夾角和地面點回波指數則在所有的空間鄰域尺度下均發揮作用。
表 3 不同鄰域尺度下的特征數量Tab. 3 The feature count under different neighbor scale
鄰域尺度/m | 特征列表 | 特征個數 |
0.7 | AI、Sn、EGI | 3 |
0.8 | AI、Sn、EGI | 3 |
0.9 | AI、Sn、EGI | 3 |
1.0 | AI、Sn、EGI | 3 |
1.2 | AI、Sn、SSTD、EBI、EGI | 5 |
1.5 | AI、Hkrt、HSTD、λ2、Sn、SSTD、EBI、EGI | 8 |
4 討論與結論
本文以機載LiDAR數據為研究對象,通過分析點云數據的特點提取了高度統計量、歸一化高度、表面相關特征、空間分布特征、回波特征和激光強度特征6大類特征參數,并在此基礎上構建多尺度特征參數,采用隨機森林分類算法進行數據降維,得到更優特征子集后再對點云進行分類。試驗過程中得到了以下幾點結論:
(1) 多尺度特征參數的構建不僅有效克服了鄰域結構設計時更佳空間尺度的選擇難問題,并且為點云分類增加了更多的特征參數,但是并非所有多尺度特征參數都對分類變量起到重要作用,其中有許多特征參數之間存在相關性和冗余,因此在進行點云分類前需要對特征變量進行降維。這一方面可以減少模型的訓練時間,另一方面可以提高分類器的預測能力。RFFS特征選擇算法不僅能快速剔除相關和冗余特征,且該算法以分類精度更大化為目標,能有效地尋找到分類預測能力更優的特征子集。本文基于該 *** 將原始特征集大小由127下降為26,不僅使得模型訓練和預測的時間大大縮短,并且使得最終的分類精度提高1.4%。
(2) 本文的分類 *** 在地形條件復雜區域和地物邊緣處會產生較大的錯分誤差。總體上來看,本文的分類 *** 對地面點和其他類點的識別能力很強,對建筑物點的識別能力稍弱。隨機森林模型建立過程中由于采用Bagging抽樣技術,使得模型對異常值和噪聲有較好的容忍度,并且不容易出現過擬合。與傳統的SVM分類算法進行比較發現,基于隨機森林算法的分類總體精度和Kappa系數均要優于SVM,體現了集成學習算法的優勢。
(3) 本文的特征重要性分析結果表明,歸一化高度在城市地區的點云分類中起到了核心作用,另外回波指數、激光強度、表面特征和空間分布特征對點云分類也起到了重要作用,高程統計量特征發揮的作用則較小。結合空間尺度的利用率來看,隨著鄰域尺度的增大,特征的利用率也在逐漸提高,并且激光強度特征和地面點回波指數在各個尺度均發揮作用。
城市地物類型除了空間形態和回波特征等差異外,還有光譜信息、紋理信息等方面的差異,如果能將光譜特征和紋理特征引入到分類中,點云的分類精度有可能得到進一步提高,并為精細的地物類型分類提供支持。隨著無人機LiDAR技術的發展,集成光學或高光譜傳感器的無人機系統將逐步普及,未來將探索融合無人機影像與LiDAR的點云分類 *** 。
【引文格式】熊艷, 高仁強, 徐戰亞. 機載LiDAR點云數據降維與分類的隨機森林 *** [J]. 測繪學報,2018,47(4):508-518. DOI: 10.11947/j.AGCS.2018.20170417