腐蝕是材料失效的主要途徑之一,每年因腐蝕引起的材料損傷、設(shè)備失效、安全事故導(dǎo)致了重大的經(jīng)濟(jì)損失甚至人身傷亡。因服役環(huán)境不同,材料的腐蝕機(jī)理、腐蝕行為規(guī)律差異很大,對(duì)腐蝕行為進(jìn)行預(yù)測(cè)也異常困難。為深刻揭示環(huán)境因素對(duì)材料腐蝕作用的機(jī)理與材料腐蝕的演化規(guī)律、搜索隱藏于數(shù)據(jù)中的腐蝕信息,人們依靠信息技術(shù)和計(jì)算機(jī)技術(shù)逐步改進(jìn)了材料腐蝕數(shù)據(jù)分析方法,發(fā)展了一系列腐蝕數(shù)據(jù)分析模型。 ————————»»»»
早期進(jìn)行腐蝕數(shù)據(jù)研究時(shí),腐蝕數(shù)據(jù)主要來(lái)源于掛片腐蝕試驗(yàn),試驗(yàn)的時(shí)間跨度較長(zhǎng),腐蝕數(shù)據(jù)通常具有高維度、小樣本、多層次、高噪聲等特征,人們主要基于曲線擬合、多元線性回歸分析等傳統(tǒng)的數(shù)學(xué)分析方法,構(gòu)建材料腐蝕特征參數(shù)與環(huán)境特征參數(shù)之間的數(shù)學(xué)映射關(guān)系,研究環(huán)境特征參數(shù)對(duì)材料腐蝕過(guò)程的影響,并通過(guò)腐蝕特征參數(shù)與環(huán)境特征參數(shù)之間的定量關(guān)系來(lái)預(yù)測(cè)特定環(huán)境中的腐蝕演化。 傳統(tǒng)的分析方法難以詮釋多重環(huán)境特征因素對(duì)腐蝕的耦合影響,導(dǎo)致基于量化關(guān)系預(yù)測(cè)的腐蝕數(shù)據(jù)在相對(duì)較寬的地域與時(shí)域范圍內(nèi)出現(xiàn)較大的偏差。隨著腐蝕監(jiān)檢測(cè)技術(shù)的快速發(fā)展,腐蝕數(shù)據(jù)與部分環(huán)境因素?cái)?shù)據(jù)實(shí)現(xiàn)了在線連續(xù)采集,并且隨著現(xiàn)代數(shù)據(jù)分析理論的發(fā)展,很多新方法被應(yīng)用于腐蝕數(shù)據(jù)的挖掘和分析,如神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林、聚類分析、圖像處理等,在處理復(fù)雜環(huán)境中的腐蝕分析與預(yù)測(cè)時(shí),這些模型取得了長(zhǎng)足的進(jìn)步。 隨著多維度腐蝕大數(shù)據(jù)的積累,基于多種算法的集成算法被引入腐蝕數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)模型中,集成算法可以更好地滿足腐蝕數(shù)據(jù)形式多樣化的需求,并提升預(yù)測(cè)結(jié)果的準(zhǔn)確度。
1
數(shù)據(jù)挖掘方法 ? 數(shù)據(jù)挖掘興起于1989年,狹義來(lái)說(shuō)是“數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)”(KDD)中的一個(gè)分析步驟。廣義來(lái)說(shuō),由于KDD各個(gè)環(huán)節(jié)緊密相連,各環(huán)節(jié)對(duì)數(shù)據(jù)挖掘結(jié)果影響很大,數(shù)據(jù)挖掘往往包含KDD全過(guò)程。 如圖1所示,KDD是使用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)學(xué)或人工智能技術(shù)等方法從給定數(shù)據(jù)集中提取有意義數(shù)據(jù)的過(guò)程,可以理解為對(duì)大量數(shù)據(jù)進(jìn)行分析,以獲取潛在有用信息的過(guò)程,其技術(shù)主要包括:數(shù)據(jù)的分組、預(yù)測(cè)、數(shù)據(jù)的異常記錄、數(shù)據(jù)間的關(guān)聯(lián)法則、序列模式的發(fā)現(xiàn)等。 圖1 KDD流程圖 材料腐蝕研究是一項(xiàng)嚴(yán)重依賴數(shù)據(jù)的研究,人類自研究腐蝕行為開(kāi)始,就非常重視腐蝕數(shù)據(jù)的獲取和積累,并試圖從中發(fā)現(xiàn)或驗(yàn)證相關(guān)規(guī)律??茖W(xué)家將腐蝕研究與快速發(fā)展的信息科技相結(jié)合,形成的材料腐蝕信息學(xué)促進(jìn)了材料腐蝕學(xué)的快速發(fā)展,為腐蝕分析提供了更多的可能與方法。 2015年,李曉剛等首次提出了“腐蝕大數(shù)據(jù)”的概念,更加完善了腐蝕信息學(xué)的內(nèi)涵。如何在腐蝕研究中合理利用數(shù)據(jù),選擇合適的數(shù)學(xué)挖掘方法和信息化手段成為了材料腐蝕研究的熱點(diǎn)之一。 01 多元線性回歸方程模型 多元線性回歸方程模型被廣泛應(yīng)用于腐蝕預(yù)測(cè)的研究中,也是最早用于預(yù)測(cè)環(huán)境對(duì)材料腐蝕影響的數(shù)據(jù)挖掘方法。 該方法可以自動(dòng)從眾多變量中選擇重要變量并建立回歸方程,排除對(duì)輸出變量影響不顯著的變量,形成最優(yōu)“方程”。研究者通常將監(jiān)測(cè)的氣象因子(相對(duì)濕度、溫度、降水、日照等)和污染物因子(SO2、Cl-、NOx、NH3等)作為一系列的變量與相應(yīng)的腐蝕率進(jìn)行回歸分析。 早在1960年,日本一研究小組就在日本境內(nèi)的七個(gè)地方開(kāi)啟了為期5年的大氣曝曬試驗(yàn),利用多元線性分析方法處理了曝曬數(shù)據(jù)與大氣環(huán)境數(shù)據(jù),得到了碳鋼的腐蝕速率方程;之后該小組還匯編了日本43個(gè)地區(qū)的暴露試驗(yàn)數(shù)據(jù),分析得到了碳鋼在內(nèi)陸工業(yè)大氣以及海洋大氣環(huán)境中的腐蝕速率。 PRIETO等根據(jù)數(shù)據(jù)庫(kù)收集的650多條粘合測(cè)試結(jié)果,構(gòu)建了一個(gè)多元線性回歸方程以評(píng)估腐蝕和未腐蝕鋼筋的結(jié)合強(qiáng)度,確保鋼筋混凝土構(gòu)件的結(jié)構(gòu)安全性。 由于僅研究環(huán)境數(shù)據(jù)具有很大的局限性,研究人員通過(guò)人工改變外界條件來(lái)進(jìn)行腐蝕研究。王海杰等通過(guò)改變土壤中NaCl含量,對(duì)比分析了NaCl污染土中含氣率、電阻率等,建立了Q235鋼在污染土中的腐蝕質(zhì)量損失率線性回歸模型;廖柯喜等提出了L360管道在不同H2S分壓、CO2分壓、溫度以及流速下的腐蝕速率預(yù)測(cè)線性回歸模型。 線性回歸方程對(duì)數(shù)據(jù)量要求不高,且能清晰表示因變量與各變量間的關(guān)系,但對(duì)數(shù)據(jù)本身的線性要求太高,因此使用范圍有限。 02 曲線擬合方法 曲線擬合方法是預(yù)測(cè)材料腐蝕損失的常用模型。它是一種利用解析表達(dá)式逼近離散數(shù)據(jù)的方法,依據(jù)腐蝕規(guī)律建立函數(shù),并利用試驗(yàn)數(shù)據(jù)對(duì)函數(shù)中的參數(shù)進(jìn)行估計(jì)。由于并非每個(gè)變量之間都有嚴(yán)格的線性數(shù)學(xué)關(guān)系,對(duì)于復(fù)雜的非線性數(shù)據(jù),可以采用通用而又簡(jiǎn)便的曲線進(jìn)行擬合。 該方法利用連續(xù)散點(diǎn)圖近似刻畫(huà)數(shù)據(jù),根據(jù)曲線類型,確定相應(yīng)的解析表達(dá)式,建立函數(shù)模型,如利用冪函數(shù)模型,對(duì)數(shù)函數(shù)模型等。由于它具有精度高、適用范圍廣,通用性強(qiáng)的特點(diǎn),一般情況下,選用最小二乘算法擬合,依照殘差平方和最小的原則。 早在1975年,武鋼鋼鐵研究所聯(lián)合武漢大學(xué)數(shù)學(xué)系就利用最小二乘法原理嘗試求得腐蝕回歸方程,但數(shù)據(jù)量較少,影響了回歸式的精確度。 曹楚南利用高斯-牛頓曲線擬合法對(duì)腐蝕金屬的弱極化曲線進(jìn)行擬合,估算了腐蝕過(guò)程電化學(xué)動(dòng)力學(xué)參數(shù),但這種方法在處理多參數(shù)情況時(shí),容易出現(xiàn)不收斂的情況,為改善此情況,易忠勝等利用單純形法優(yōu)化擬合,提高了計(jì)算精度及收斂性。孫峰等提出基于粒子群-信賴域的極化曲線擬合算法,解決了擬合精度不高和結(jié)果陷入局部最優(yōu)的問(wèn)題。 除了以上典型模型外,韓慶華等基于三參數(shù)威布爾分布對(duì)鑄鋼及對(duì)接焊縫的腐蝕疲勞應(yīng)力-壽命曲線進(jìn)行修正,使該曲線具有更好的彎曲形狀且提高了擬合精度;GAZENBILLER等發(fā)現(xiàn)在105~110 ℃下,AA-1050鋁合金在無(wú)水乙醇溫度誘導(dǎo)化學(xué)腐蝕試驗(yàn)中,最大腐蝕深度符合Gumbel統(tǒng)計(jì)規(guī)律,提出了醇類腐蝕機(jī)理。 相較于線性回歸,曲線擬合在局限方面有了一定的進(jìn)步,它不要求曲線通過(guò)所有已知點(diǎn),得到近似曲線即可,但在擬合曲線前,需要先分析是曲線類型,這是一個(gè)困難的過(guò)程。 03 灰色關(guān)聯(lián)分析和灰色預(yù)測(cè) 鄧聚龍?zhí)岢隽嘶疑到y(tǒng)理論,包括了灰色建模、灰色預(yù)測(cè)、灰色關(guān)聯(lián)分析等,是一種適用于分析數(shù)量少且信息貧乏的系統(tǒng)?;疑到y(tǒng)是部分信息已知而部分信息未知的系統(tǒng),灰色系統(tǒng)理論就是提取部分已知信息中有價(jià)值的信息并進(jìn)行相關(guān)性推演和預(yù)測(cè)。 常用灰色關(guān)聯(lián)分析法來(lái)分析各腐蝕因素(如溫度、濕度、降雨量等)對(duì)腐蝕速率的影響程度,對(duì)腐蝕因素進(jìn)行強(qiáng)弱排序,尋找關(guān)鍵因素。 FU等利用灰色關(guān)聯(lián)分析對(duì)影響油管的相關(guān)因素進(jìn)行分析,發(fā)現(xiàn)造成油管腐蝕的主要因素是無(wú)硫腐蝕和油管中氣體的腐蝕;CAO等在中國(guó)7個(gè)典型試驗(yàn)場(chǎng)進(jìn)行為期1年的Q235鋼腐蝕試驗(yàn),采用灰色關(guān)聯(lián)分析,將影響Q235鋼的腐蝕因素進(jìn)行排序,確定相對(duì)濕度是對(duì)Q235鋼腐蝕影響最嚴(yán)重的因素;鄧志安等對(duì)管線腐蝕速率與環(huán)境因素進(jìn)行灰色關(guān)聯(lián)分析,選取關(guān)聯(lián)度較高的影響因素進(jìn)行后續(xù)預(yù)測(cè)分析,降低了預(yù)測(cè)難度;WANG等研究了2Cr13不銹鋼在模擬深海環(huán)境中的點(diǎn)蝕行為,通過(guò)灰色關(guān)聯(lián)度計(jì)算,確定了各因素對(duì)不銹鋼蝕坑深度的影響由大到小依次為:靜水壓力>溶解氧含量>溫度,即在深海環(huán)境中,靜水壓力對(duì)碳鋼蝕坑深度的影響最大。 然而該方法分配權(quán)重時(shí)主觀性太強(qiáng),會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生客觀影響,而且只能反映測(cè)試條件下的腐蝕因素對(duì)腐蝕速率的影響,無(wú)法做到普遍情況下的腐蝕情況推廣。 灰色預(yù)測(cè)中GM(1,1)模型是描述灰色系統(tǒng)的最簡(jiǎn)單模型,在計(jì)算時(shí)只需要3~7條時(shí)序性數(shù)據(jù)即可進(jìn)行挖掘,建模,預(yù)測(cè)腐蝕相關(guān)因素隨時(shí)間的變化。但是,該模型在遇到隨機(jī)性數(shù)據(jù)和進(jìn)行中長(zhǎng)期預(yù)測(cè)時(shí),擬合效果不佳,可能會(huì)降低模型預(yù)測(cè)結(jié)果的準(zhǔn)確度。 唐其環(huán)等應(yīng)用灰色GM(1,1)模型對(duì)江津地區(qū)大氣腐蝕結(jié)果進(jìn)行了預(yù)測(cè),但用于長(zhǎng)期大氣腐蝕預(yù)測(cè)時(shí)誤差仍然較大;陳建設(shè)等基于熱鍍鋅層在海水中的腐蝕規(guī)律建立了GM(1,1)模型,將整個(gè)腐蝕過(guò)程分為三段處理,使模型具有良好的擬合和預(yù)測(cè)精度;WANG等采用GM(1,1)模型預(yù)測(cè)了回火處理后的低合金鋼在酸性溶液中的腐蝕速率,ZHANG等根據(jù)GM(1,1)模型推導(dǎo)了瀝青路面性能的預(yù)測(cè)方程,以有效預(yù)測(cè)高速公路瀝青路面的性能和腐蝕問(wèn)題,結(jié)果表明該模型可行且能較好地用于腐蝕速率預(yù)測(cè)。 04 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)(ANN)是模擬生物神經(jīng)系統(tǒng)進(jìn)行信息處理,由大量人工神經(jīng)元相互連接而成的一個(gè)多輸入、單輸出的非線性元件。人工神經(jīng)元是人工神經(jīng)網(wǎng)絡(luò)操作的基本單位,每個(gè)神經(jīng)元都作為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中一個(gè)節(jié)點(diǎn),當(dāng)人工神經(jīng)元的加權(quán)和輸入超過(guò)閾值時(shí),就產(chǎn)生了神經(jīng)輸出,如圖2所示。 圖2 神經(jīng)元模型 人工神經(jīng)網(wǎng)絡(luò)模型種類數(shù)量繁多,如BP神經(jīng)網(wǎng)絡(luò)、HOPFIELD網(wǎng)絡(luò)、BERTYMEN模型、ART模型等,目前最常用的是由RUMELHART等提出的人工神經(jīng)網(wǎng)絡(luò)模型——反向傳播(BP)神經(jīng)網(wǎng)絡(luò),也是腐蝕研究中應(yīng)用最廣泛的網(wǎng)絡(luò)學(xué)習(xí)方法。 神經(jīng)網(wǎng)絡(luò)以試驗(yàn)數(shù)據(jù)為基礎(chǔ),無(wú)需事先給定公式,經(jīng)過(guò)有限次迭代后,可獲得內(nèi)在規(guī)律,因此神經(jīng)網(wǎng)絡(luò)技術(shù)適用于研究腐蝕系統(tǒng)的特征問(wèn)題。 郭稚弧等嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)預(yù)測(cè)碳鋼在土壤腐蝕中的腐蝕速率,證實(shí)了神經(jīng)網(wǎng)絡(luò)用于土壤腐蝕規(guī)律研究的可行性;DIZA等在研究碳鋼損傷時(shí),將濕度、SO2沉積量、降水、相對(duì)濕度(低于40%)、氯化物沉積量等作為神經(jīng)網(wǎng)絡(luò)的輸入變量,與傳統(tǒng)線性回歸相比,神經(jīng)網(wǎng)絡(luò)能預(yù)測(cè)不同氣候和污染條件下的碳鋼損傷,有更好的預(yù)測(cè)性和置信區(qū)間;劉靜等利用神經(jīng)網(wǎng)絡(luò)模型對(duì)316L不銹鋼的臨界點(diǎn)蝕溫度(CPT)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果與試驗(yàn)高度值吻合,能實(shí)現(xiàn)氣田作業(yè)區(qū)耦合環(huán)境中的CPT的預(yù)測(cè);LI等建立了三層BP神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)了碳鋼在混合MDEA溶液中的腐蝕速率,輸入層有5個(gè)輸入變量,與擁有8個(gè)輸入變量的支持向量機(jī)模型(SVM)相比,該模型更優(yōu)。 然而,運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)時(shí),需要大量數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),否則容易造成過(guò)擬合。 05 支持向量機(jī) 支持向量機(jī)(SVM)是由VAPNIK等提出的,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理和統(tǒng)計(jì)學(xué)習(xí)理論的一種有監(jiān)督的新型學(xué)習(xí)方式。最初用來(lái)解決二分類問(wèn)題,后來(lái)逐漸可以用于解決分類識(shí)別、小樣本回歸分析、密度函數(shù)估計(jì)等問(wèn)題。 其核心是用直線將具有代表性的兩部分?jǐn)?shù)據(jù)盡可能分離,這些直線稱為分隔超平面,在支持向量機(jī)理論中,需要找到這樣一個(gè)直線即超平面進(jìn)行分隔,但實(shí)際上會(huì)得到多組直線,此時(shí)通過(guò)直線的最大化可移動(dòng)距離來(lái)確定最優(yōu)解,在線性回歸問(wèn)題中,它將求解問(wèn)題轉(zhuǎn)化成了二次規(guī)劃問(wèn)題。如圖3所示,Da<Db,可得最優(yōu)解。 圖3 支持向量的示意圖 支持向量機(jī)在腐蝕預(yù)測(cè)中因具有優(yōu)異的高維非線性數(shù)據(jù)處理能力,成為腐蝕數(shù)據(jù)挖掘中的常用方法。由于該方法是借助二次規(guī)劃求解支持向量,因此在涉及大量數(shù)據(jù)、高階矩陣計(jì)算時(shí),將消耗大量?jī)?nèi)存和時(shí)間。 王大勛等引入支持向量機(jī)算法,研究了油田注水管道的腐蝕速率預(yù)測(cè)模型,提供了一種新的注水管道腐蝕預(yù)測(cè)方法;FU等將SVM算法用于大氣腐蝕研究,利用小樣本數(shù)據(jù)建立腐蝕速率預(yù)測(cè)模型,揭示了SVM算法在小樣本問(wèn)題中的優(yōu)越性;周澄等在研究管道彎曲處腐蝕損傷程度智能辨識(shí)時(shí),建立了支持向量機(jī)模型和BP神經(jīng)網(wǎng)絡(luò)模型來(lái),對(duì)比研究了兩種模型對(duì)彎管腐蝕損傷的辨識(shí),結(jié)果表明,支持向量機(jī)在小樣本條件下,相較于BP神經(jīng)網(wǎng)絡(luò)有更好的辨識(shí)效果。 06 貝葉斯網(wǎng)絡(luò) 貝葉斯網(wǎng)絡(luò)是基于貝葉斯理論發(fā)展而來(lái)的一種概率推理的圖形化概率網(wǎng)絡(luò),于1988年由Judea Pearl提出,當(dāng)時(shí)主要用來(lái)處理人工智能中的不確定信息。由于貝葉斯網(wǎng)絡(luò)能夠?qū)⒅R(shí)經(jīng)驗(yàn)融入網(wǎng)絡(luò)節(jié)點(diǎn),用節(jié)點(diǎn)變量表達(dá)各個(gè)信息要素,用連接節(jié)點(diǎn)間的有向邊,表達(dá)各要素間的關(guān)系,且能處理不完整數(shù)據(jù)集,因此應(yīng)用廣泛。在腐蝕領(lǐng)域,貝葉斯網(wǎng)絡(luò)則是側(cè)重于描述變量間的因果關(guān)系。 胡明等在分析某天然氣管道腐蝕因素時(shí),利用貝葉斯網(wǎng)絡(luò)分析原理,將確定的23個(gè)腐蝕失效因素作為貝葉斯網(wǎng)格的子節(jié)點(diǎn),管線腐蝕失效作為根節(jié)點(diǎn),通過(guò)各子節(jié)點(diǎn)間條件概率關(guān)系,得出子節(jié)點(diǎn)與根節(jié)點(diǎn)間的概率統(tǒng)計(jì)關(guān)系,從而來(lái)指導(dǎo)天然氣管道系統(tǒng)的維護(hù)和維修;左哲研究了長(zhǎng)輸管道泄漏及蒸氣云爆炸事故的演化規(guī)律,對(duì)埋地管線發(fā)生泄漏的四個(gè)階段進(jìn)行了分析,構(gòu)建了貝葉斯網(wǎng)絡(luò)模型,證明貝葉斯網(wǎng)絡(luò)在描述事故過(guò)程中間節(jié)點(diǎn)事件間依賴關(guān)系時(shí)有較大優(yōu)勢(shì);GUO等在研究腐蝕坑形態(tài)和尺寸與應(yīng)力集中系數(shù)之間的關(guān)系時(shí),提出了應(yīng)力集中貝葉斯預(yù)測(cè)模型,利用腐蝕坑的寬深比和長(zhǎng)寬比來(lái)評(píng)價(jià)應(yīng)力集中體系,預(yù)測(cè)結(jié)果有較高的準(zhǔn)確性。 07 梯度提升決策樹(shù) 決策樹(shù)是一種基于樹(shù)形結(jié)構(gòu)的應(yīng)用廣泛的分類與回歸方法,如圖4所示。 圖4 決策樹(shù)示意圖 決策樹(shù)通常分為:特征選擇、決策樹(shù)的生長(zhǎng)、以及剪枝。通過(guò)對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),以樹(shù)形樣式將數(shù)據(jù)決策與數(shù)據(jù)分類過(guò)程清晰呈現(xiàn),這種算法相對(duì)簡(jiǎn)單、直觀,具有較好的魯棒性。但是單棵樹(shù)依舊不穩(wěn)定,隨著決策樹(shù)的生長(zhǎng)和樣本量的不斷減小深入,樣本對(duì)總體的代表性不斷減小,一般性越來(lái)越差,細(xì)微的數(shù)據(jù)變化極有可能得到完全不同的結(jié)果,且即使剪枝也易發(fā)生過(guò)擬合現(xiàn)象。 梯度提升決策樹(shù)是基于梯度提升框架的改良決策樹(shù)算法,也是近年來(lái)最有效的方法之一,通過(guò)每次迭代,在減少殘差的方向上建立了一顆新的決策樹(shù)模型,并通過(guò)各級(jí)新的決策樹(shù)加權(quán)構(gòu)成新的決策樹(shù)模型。相較于單棵決策樹(shù),梯度提升決策樹(shù)擁有更好的健壯性及泛化性,有效提高了分類及預(yù)測(cè)結(jié)果的準(zhǔn)確性。 李秋實(shí)將梯度提升決策樹(shù)模型應(yīng)用在電化學(xué)噪聲處理的腐蝕類型判別,對(duì)混合兩種數(shù)據(jù)樣本的腐蝕類型進(jìn)行判別,準(zhǔn)確性高達(dá)98.4%,且擁有傳統(tǒng)腐蝕類型判別方法所無(wú)法實(shí)現(xiàn)的普適性。梁喜旺等則利用梯度提升樹(shù)建立了大氣腐蝕預(yù)測(cè)模型,與單棵回歸樹(shù)相比,預(yù)測(cè)效果誤差降低了近一半。 08 隨機(jī)森林 隨機(jī)森林是由BREIMAN在2001年提出的一種統(tǒng)計(jì)學(xué)習(xí)理論,通過(guò)集成學(xué)習(xí)思想將多個(gè)弱分類器的決策樹(shù)模型組成一個(gè)強(qiáng)分類器,其建模過(guò)程就是多個(gè)樹(shù)模型的學(xué)習(xí)過(guò)程,如圖5所示。 圖5 隨機(jī)森林模型示意圖 隨機(jī)森林模型改善了單棵決策樹(shù)在小樣本處理中出現(xiàn)的過(guò)擬合現(xiàn)象,具有易于實(shí)現(xiàn)、魯棒性、可解釋性好、穩(wěn)定、適合處理高維數(shù)據(jù)、不受噪聲影響等優(yōu)點(diǎn),是一種自然的非線性建模工具,因此隨機(jī)森林模型在生物、農(nóng)業(yè)、醫(yī)學(xué)、風(fēng)險(xiǎn)評(píng)價(jià)等領(lǐng)域都有廣泛的應(yīng)用。從2016年起,隨機(jī)森林就開(kāi)始被運(yùn)用在腐蝕領(lǐng)域。 MORIZET等將隨機(jī)森林與k-最近鄰算法進(jìn)行了比較,后將隨機(jī)森林與小波分析進(jìn)行結(jié)合,提出了一種分離局部腐蝕信號(hào)的新方法;HOU等采用電化學(xué)噪聲法研究碳鋼在保溫礦棉下腐蝕性能,并用隨機(jī)森林模型來(lái)識(shí)別腐蝕類型;YAN等將鋼的化學(xué)成分和環(huán)境因素映射到相應(yīng)環(huán)境條件下低合金鋼的腐蝕速率中,建立了隨機(jī)森林模型,實(shí)現(xiàn)了準(zhǔn)確的腐蝕速率預(yù)測(cè),且得出環(huán)境腐蝕性的決定因素為空氣中Cl-的沉積速率。此外,還論證了隨機(jī)森林模型、CART回歸樹(shù)、RF隨機(jī)森林三種方法對(duì)新環(huán)境中鋼樣的腐蝕預(yù)測(cè)能力,結(jié)果表明隨機(jī)森林模型的預(yù)測(cè)能力優(yōu)于其他模型。 09 聚類分析 聚類是一種無(wú)監(jiān)督學(xué)習(xí)模式,常用來(lái)尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)關(guān)聯(lián)性與差異性。它通過(guò)一定規(guī)則的數(shù)據(jù)集劃分為相似的若干個(gè)類,認(rèn)為兩個(gè)目標(biāo)間距離越近,相似度越大,這些相似組被稱為簇,要保證每個(gè)簇中數(shù)據(jù)具有相似性,不同簇之間具有差異性,可通過(guò)歸并每一簇間的特性來(lái)概括整個(gè)數(shù)據(jù)集或者用作其他模型的輸入。 在腐蝕領(lǐng)域,影響腐蝕的因素復(fù)雜多樣,常采用該方法對(duì)各因素進(jìn)行聚類分析從而評(píng)估各影響因素。朱超慧在研究影響高含硫管道腐蝕因子間關(guān)系時(shí),采用了因子分析、相關(guān)分析和聚類分析三種方法,聚類分析從整體出發(fā)對(duì)整個(gè)樣本進(jìn)行合理的分類,增加了數(shù)據(jù)分析的合理性;張騰等基于系統(tǒng)聚類方法,根據(jù)大氣腐蝕的差異性,將17個(gè)典型地區(qū)進(jìn)行了分類,確定了我國(guó)大氣腐蝕分區(qū)個(gè)數(shù)和各區(qū)的劃分標(biāo)準(zhǔn);周健科等對(duì)配電網(wǎng)引流線進(jìn)行聚類分析,提取了海島微氣象環(huán)境中的空間故障規(guī)律,劃分失效評(píng)估區(qū)域,有效提升引流線失效評(píng)估模型準(zhǔn)確性。 10 模糊理論 模糊集是L.A.Zadeh于1965年提出的概念,最初用來(lái)解決控制領(lǐng)域的疑難,后來(lái)隨著模糊邏輯和模糊理論等的發(fā)展,模糊集方法也被用于數(shù)據(jù)挖掘的分類和回歸任務(wù)中。 模糊理論針對(duì)原本無(wú)法歸入集合的模糊數(shù)據(jù),將經(jīng)典集合的外延模糊,使這些具有模糊屬性的對(duì)象歸入模糊集合,能夠被量化統(tǒng)計(jì)。模糊集合和模糊邏輯的定義合理反映了現(xiàn)實(shí)世界數(shù)據(jù)間的關(guān)系,可以改善模型的預(yù)測(cè)性能,對(duì)模糊規(guī)則的應(yīng)用可以提高模型的可解釋性。 安新正等基于模糊理論建立了高橋墩工作性能損傷模糊綜合評(píng)價(jià)方法,采用此法對(duì)某鋼筋混凝土高橋墩的工作性能進(jìn)行評(píng)價(jià),結(jié)果與現(xiàn)場(chǎng)調(diào)查的工況基本一致;雷云等利用模糊理論處理經(jīng)專家評(píng)估的影響海底管道失效的各風(fēng)險(xiǎn)因素后,利用軟件進(jìn)行計(jì)算,進(jìn)行模糊綜合評(píng)估,結(jié)果表明在役管道的風(fēng)險(xiǎn)等級(jí)較低,并確定海底管道失效的主要原因,這些也與事故統(tǒng)計(jì)結(jié)果基本一致。
2
腐蝕中集成算法的應(yīng)用 ? 傳統(tǒng)的方法是在一個(gè)可能的函數(shù)構(gòu)成的空間中尋找一個(gè)最接近實(shí)際模型的預(yù)測(cè)器,例如上述提到的多元線性回歸、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等等。近年來(lái),傳統(tǒng)的單一模型往往精度不高,且容易出現(xiàn)過(guò)擬合問(wèn)題。因此,國(guó)內(nèi)外學(xué)者將目光轉(zhuǎn)向通過(guò)集成多個(gè)算法模型來(lái)進(jìn)行預(yù)測(cè)和分類,改善單一模型帶來(lái)的弊端。集成學(xué)習(xí)通過(guò)組合多種弱分類器,將對(duì)應(yīng)不同特征能力的模型有效結(jié)合起來(lái),得到了一個(gè)強(qiáng)學(xué)習(xí)器,從而提升了模型的精確度。以下列舉了幾種常用的集成優(yōu)化模型。 單一神經(jīng)網(wǎng)絡(luò)模型具有卓越的數(shù)據(jù)處理能力和學(xué)習(xí)能力,被廣泛應(yīng)用在腐蝕領(lǐng)域,當(dāng)腐蝕數(shù)據(jù)量充足時(shí),其預(yù)測(cè)性能優(yōu)于很多其他預(yù)測(cè)模型。當(dāng)樣本量不足時(shí),結(jié)合其他算法模型的集成模型在很大程度上提高了預(yù)測(cè)的準(zhǔn)確性,解決了因數(shù)據(jù)量小而出現(xiàn)的過(guò)擬合等問(wèn)題。 劉威等將神經(jīng)網(wǎng)絡(luò)與灰色理論相結(jié)合,形成灰色-神經(jīng)網(wǎng)絡(luò)模型進(jìn)行腐蝕預(yù)測(cè);凌曉等選擇用遺傳算法來(lái)優(yōu)化BPNN模型;王金秋等提出了粗糙集-BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型;肖斌等提出了一種改進(jìn)的粒子群算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)算法(IPSO-BPNN),這些算法結(jié)果證明優(yōu)化后的結(jié)果比單一模型結(jié)果要更加精確。 SVM是一種能在小樣本條件下進(jìn)行預(yù)測(cè)的方法,為了進(jìn)行更準(zhǔn)確地預(yù)測(cè),駱正山等基于灰色向量機(jī)來(lái)建立管道腐蝕預(yù)測(cè)模型;李響等通過(guò)遺傳算法改進(jìn)SVM模型來(lái)進(jìn)行海洋環(huán)境腐蝕預(yù)測(cè),有效降低了預(yù)測(cè)誤差;SONG等在研究車輛船舶運(yùn)行條件下碳鋼動(dòng)態(tài)腐蝕時(shí),構(gòu)建遺傳算法優(yōu)化支持向量回歸模型(GA-SVR)、遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型(GA-BPNN)、未優(yōu)化SVR和未優(yōu)化BPNN4個(gè)模型,預(yù)測(cè)碳鋼在動(dòng)態(tài)環(huán)境中的腐蝕速率,最終結(jié)果表明GA-SVR的均方根誤差跟平均相對(duì)誤差最??;LU等提出了利用3D坐標(biāo)量化數(shù)字參數(shù)來(lái)描述生銹鋼筋的橫截面形態(tài),并且建立了粒子群優(yōu)化支持向量機(jī)模型(PSO-SVM)和網(wǎng)格搜索支持向量機(jī)模型(GS-SVM)兩種優(yōu)化模型來(lái)進(jìn)行鋼的截面腐蝕率預(yù)測(cè),兩種腐蝕預(yù)測(cè)模型的預(yù)測(cè)結(jié)果都比較準(zhǔn)確,最后相比之下,PSO-SVM的精度要優(yōu)于GS-SVM。 隨機(jī)森林本來(lái)就是集成算法的一種,相較于本身單一的決策樹(shù)模型,隨機(jī)森林模型優(yōu)點(diǎn)更多,更加適用于腐蝕速率預(yù)測(cè)模型的建立,也是近年來(lái)的研究熱點(diǎn)。ZHI等提出了一種新的深度結(jié)構(gòu)模型,全連接級(jí)聯(lián)動(dòng)態(tài)集成選擇森林算法(DCGF-WKNN),用來(lái)實(shí)現(xiàn)腐蝕建模數(shù)據(jù)預(yù)測(cè),與單一算法模型人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸(SVR)等相比,該方法能夠獲得最佳的預(yù)測(cè)效果。
3
結(jié)論與展望 ? 目前,人們對(duì)腐蝕領(lǐng)域的數(shù)據(jù)挖掘方法進(jìn)行了廣泛的研究,揭示了隱藏于數(shù)據(jù)背后的腐蝕信息、建立了腐蝕損傷預(yù)測(cè)模型,但將其成熟應(yīng)用于指導(dǎo)工程實(shí)踐還需要開(kāi)展更深入的研究以及更長(zhǎng)時(shí)間的檢驗(yàn)。 (1) 在腐蝕數(shù)據(jù)挖掘研究的早期,受腐蝕數(shù)據(jù)采集技術(shù)的限制,數(shù)據(jù)樣本有限,相關(guān)研究主要是對(duì)數(shù)據(jù)進(jìn)行回歸、擬合,揭示環(huán)境因素影響腐蝕的規(guī)律,構(gòu)建劑量響應(yīng)方程用于腐蝕預(yù)測(cè)。隨著腐蝕數(shù)據(jù)的持續(xù)性積累與人工智能技術(shù)的興起,部分機(jī)器學(xué)習(xí)的方法如支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等技術(shù)被移植應(yīng)用于腐蝕數(shù)據(jù)挖掘并取得了較好的效果,但絕大多數(shù)模型對(duì)應(yīng)用邊界具有嚴(yán)格的限定,泛化能力較差,限制了其應(yīng)用。 (2) 隨著近些年信息技術(shù)的快速發(fā)展,腐蝕在線監(jiān)測(cè)設(shè)備在許多領(lǐng)域得到應(yīng)用,腐蝕數(shù)據(jù)實(shí)現(xiàn)了連續(xù)性采集以及數(shù)據(jù)、圖像、視頻等多維表現(xiàn),腐蝕數(shù)據(jù)是數(shù)量極其龐大且具有時(shí)序性的,腐蝕數(shù)據(jù)挖掘更適于采用大數(shù)據(jù)分析和處理的方法,在后續(xù)的研究中,多種算法的集成應(yīng)用將更有利于擴(kuò)展模型的使用邊界、提高分析或模擬結(jié)果的準(zhǔn)確性。與此同時(shí),與連續(xù)性采集的腐蝕數(shù)據(jù)不相匹配的是部分影響腐蝕進(jìn)程的關(guān)鍵環(huán)境特征參數(shù)的在線監(jiān)測(cè)技術(shù)還有待于進(jìn)一步研究開(kāi)發(fā),以保障數(shù)據(jù)挖掘過(guò)程中腐蝕數(shù)據(jù)關(guān)鍵數(shù)據(jù)項(xiàng)的完整性。
免責(zé)聲明:本網(wǎng)站所轉(zhuǎn)載的文字、圖片與視頻資料版權(quán)歸原創(chuàng)作者所有,如果涉及侵權(quán),請(qǐng)第一時(shí)間聯(lián)系本網(wǎng)刪除。

官方微信
《腐蝕與防護(hù)網(wǎng)電子期刊》征訂啟事
- 投稿聯(lián)系:編輯部
- 電話:010-62316606
- 郵箱:fsfhzy666@163.com
- 腐蝕與防護(hù)網(wǎng)官方QQ群:140808414