卷積神經(jīng)網(wǎng)絡的優(yōu)勢范文
時間:2024-04-01 18:16:47
導語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡的優(yōu)勢,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
關鍵詞:圖像分類;深度學習;Caffe框架;卷積神經(jīng)網(wǎng)絡
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S著計算機與互聯(lián)網(wǎng)技術的快速發(fā)展,我們已經(jīng)進入了一個以圖像構建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境,因而圖像分類技術應運而生。通過各種機器學習算法使計算機自動將各類圖像進行有效管理和分類,但是由于圖像內容包含著大量復雜且難以描述的信息,圖像特征提取和相識度匹配技術也存在一定的難題,要使得計算機能夠像人類一樣進行分類還是有很大的困難。
深度學習是近十年來人工智能領域取得的重要突破,在圖像識別中的應用取得了巨大的進步,傳統(tǒng)的機器學習模型屬于神經(jīng)網(wǎng)絡模型,神經(jīng)網(wǎng)絡有大量的參數(shù),經(jīng)常會出現(xiàn)過擬合問題,因而對目標檢測準確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡框架,圖像特征是從大數(shù)據(jù)中自動學習得到,而且神經(jīng)網(wǎng)絡的結構深由很多層組成,通過重復利用中間層的計算單元來減少參數(shù),在特征匯聚階段引入圖像中目標的顯著信信息,增強了圖像的特征表達能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統(tǒng)的圖像分類算法預測的準確度有明顯的提升。
1 基于卷積神經(jīng)網(wǎng)絡的圖像分類方法
1.1 人工神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡(Artificial Neural Network, ANN)是描述生物神經(jīng)網(wǎng)絡運行機理和工作過程的抽象和簡化了的數(shù)學物理模型,使用路徑權值的有向圖來表示模型中的人工神經(jīng)元節(jié)點和神經(jīng)元之間的連接關系,之后通過硬件或軟件程序實現(xiàn)上述有向圖的運行[1]。目前最典型的人工神經(jīng)網(wǎng)絡算法包括:目前最典型的人工神經(jīng)網(wǎng)絡有BP網(wǎng)絡 [2]Hopfield網(wǎng)絡[3]Boltzmann機[4]SOFM網(wǎng)絡[5]以及ART網(wǎng)絡人工神經(jīng)網(wǎng)絡[6],算法流程圖如圖1所示[7]。
1.2 卷積神經(jīng)網(wǎng)絡框架的架構
Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8],意為快速特征嵌入的卷積結構,包含最先進的深度學習算法以及一系列的參考模型,圖2表示的是卷積神經(jīng)網(wǎng)絡結構圖。Caffe深度學習框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版本說明,如表1所示。
Caffe深度學習框架提供了多個經(jīng)典的卷積神經(jīng)網(wǎng)絡模型,卷積神經(jīng)網(wǎng)絡是一種多層的監(jiān)督學習神經(jīng)網(wǎng)絡,利用隱含層的卷積層和池采樣層是實現(xiàn)卷積神經(jīng)網(wǎng)絡特征提取功能,卷積神經(jīng)網(wǎng)絡模型通過采取梯度下降法最小化損失函數(shù)對網(wǎng)絡中的權重參數(shù)逐層反向調節(jié),通過頻繁的迭代訓練來提高網(wǎng)絡的精度。卷積神經(jīng)網(wǎng)絡使用權值共享,這一結構類似于生物神經(jīng)網(wǎng)絡,從而使網(wǎng)絡的復雜程度明顯降低,并且權值的數(shù)量也有大幅度的減少,本文使用這些模型直接進行訓練,和傳統(tǒng)的圖像分類算法對比,性能有很大的提升,框架系統(tǒng)訓練識別基本流程如圖3表示。
1.3 圖像分類特征提取
卷積神經(jīng)網(wǎng)絡的結構層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡來說,要復雜得多,每兩層的神經(jīng)元使用了局部連接的方式進行連接、神經(jīng)元共享連接權重以及時間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征,因此決定了卷積神經(jīng)網(wǎng)絡與傳統(tǒng)神經(jīng)網(wǎng)絡相比維度大幅度降低,從而降低計算時間的復雜度。卷積神經(jīng)網(wǎng)絡主要分為兩個過程,分為卷積和采樣,分別的對上層數(shù)據(jù)進行提取抽象和對數(shù)據(jù)進行降維的作用。
本文以Caffe深度學習框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡模型為例,如圖4所示,對卷積神經(jīng)網(wǎng)絡模型進行訓練。CIFAR-10是一個標準圖像圖像訓練集,由六萬張圖像組成,共有10類(分為飛機,小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是32×32像素的RGB彩色圖像。通過對數(shù)據(jù)進行提取和降維的方法來提取圖像數(shù)據(jù)的特征。
2 實驗分析
將貓的圖像訓練集放在train的文件夾下,并統(tǒng)一修改成256×256像素大小,并對貓的圖像訓練集進行標記,標簽為1,運行選擇cpu進行訓練,每進行10次迭代進行一次測試,測試間隔為10次,初始化學習率為0.001,每20次迭代顯示一次信息,最大迭代次數(shù)為200次,網(wǎng)絡訓練的動量為0.9,權重衰退為0.0005,5000次進行一次當前狀態(tài)的記錄,記錄顯示如下圖5所示,預測的準度在98%以上。而相比傳統(tǒng)的圖像分類算法BP神經(jīng)網(wǎng)絡網(wǎng)絡的收斂性慢,訓練時間長的,網(wǎng)絡的學習和記憶具有不穩(wěn)定性,因而卷e神經(jīng)網(wǎng)絡框架在訓練時間和預測準度上具有非常大的優(yōu)勢。
3 結束語
本文使用Caffe深度學習框架,以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡模型為例,構建小型貓的數(shù)據(jù)集,提取貓的圖象特征信息,最后和目標貓圖像進行預測,并和傳統(tǒng)的圖像分類算法進行對比,預測的準確率有很大的提升。
參考文獻:
[1] 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網(wǎng)絡定位與可定位性[M]. 北京: 清華大學出版社, 2014.
[2] 丁士折. 人工神經(jīng)網(wǎng)絡基礎[M]. 哈爾濱: 哈爾濱工程大學出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
篇2
【關鍵詞】人工智能 圖像識別 深度學習
1 概述
圖像識別技術是人工智能研究的一個重要分支,其是以圖像為基礎,利用計算機對圖像進行處理、分析和理解,以識別不同模式的對象的技術。目前圖像識別技術的應用十分廣泛,在安全領域,有人臉識別,指紋識別等;在軍事領域,有地形勘察,飛行物識別等;在交通領域,有交通標志識別、車牌號識別等。圖像識別技術的研究是更高級的圖像理解、機器人、無人駕駛等技術的重要基礎。
傳統(tǒng)圖像識別技術主要由圖像處理、特征提取、分類器設計等步驟構成。通過專家設計、提取出圖像特征,對圖像M行識別、分類。近年來深度學習的發(fā)展,大大提高了圖像識別的準確率。深度學習從大量數(shù)據(jù)中學習知識(特征),自動完成特征提取與分類任務。但是目前的深度學習技術過于依賴大數(shù)據(jù),只有在擁有大量標記訓練樣本的情況下才能夠取得較好的識別效果。本文認為研究如何在標記數(shù)據(jù)有限的情況下繼續(xù)利用深度學習完成物體識別任務具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統(tǒng)圖像識別技術
傳統(tǒng)的圖像識別技術包括:圖像獲取、預處理、特征提取、分類。在圖像輸入后,需要先對圖像進行預處理。一幅標準灰度圖像,如果每個像素的像素值用一個字節(jié)表示,灰度值級數(shù)就等于256級,每個像素可以是0~255之間的任何一個整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲空間。通常我們需要將圖片的亮度及對比度調整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對圖片的噪聲進行消除。對圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候,我們需要對圖像細化處理(如指紋細化,字符細化等),以便獲取主要信息,減少無關信息。細化操作,可以得到由單像素點組成的圖像輪廓,便于后續(xù)特征提取操作。
基本的圖像特征提取包括邊緣、角點等提取。一般使用不同的特征提取算子結合相應的閾值得到這些關鍵點。另一類在頻域中進行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預處理和特征提取之后,我們便能夠對圖像進行識別、分類。常用的分類器有K-近鄰(KNN),支持向量機(SVM),人工神經(jīng)網(wǎng)絡(ANN)等等。K-近鄰算法原理是,當一個樣本的k個最相鄰的樣本中大部分屬于某一類別時,該樣本也應當屬于同一類別。支持向量機是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡模仿生物大腦中的神經(jīng)網(wǎng)絡結構,通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。
3 基于深度學習的圖像識別技術
一般認為深度學習技術是由Hinton及其學生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡分支。深度神經(jīng)網(wǎng)絡模仿人腦的神經(jīng)機制來分析樣本,并盡可能地對樣本的特征進行更深度的學習。以圖片為例,利用深度學習技術對樣本的特征進行學習時,由低層特征到高層特征越來越抽象,越來越能表達語義概念。當樣本輸入后,首先對圖像進行卷積與下采樣操作,卷積和下采樣操作是為了進行特征提取和選擇。以原始像素作為輸入,深度學習技術可以自動學習得到較好的特征提取器(卷積參數(shù))。深度學習的訓練過程,首先將當前層的輸出作為下一層的輸入,進行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時優(yōu)化所有層,目標是分類誤差最小化。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡往往網(wǎng)絡中的節(jié)點數(shù)太過龐大,難以訓練。人們構造出卷積神經(jīng)網(wǎng)絡,以權值共享的方式減少了節(jié)點數(shù)量,從而能夠加深學習的深度,使系統(tǒng)能學習到更抽象、更深層的特征,從而提高識別正確率。目前較成功的深度學習網(wǎng)絡結構有AlexNet、GoogLeNet、ResNet等。
與傳統(tǒng)識別技術相比,深度學習技術具有以下優(yōu)勢:
(1)無需人工設計特征,系統(tǒng)可以自行學習歸納出特征。
(2)識別準確度高,深度學習在圖像識別方面的錯誤率已經(jīng)低于人類平均水平,在可預見的將來,計算機將大量代替人力進行與圖像識別技術有關的活動。
(3)使用簡單,易于工業(yè)化,深度學習由于不需要領域的專家知識,能夠快速實現(xiàn)并商業(yè)化,國內較知名的深度學習創(chuàng)業(yè)公司有專注人臉識別的Face++、研究無人車的馭勢科技等。
4 存在問題與未來展望
雖然深度學習具備諸多優(yōu)點,但目前來看深度學習仍有許多不足之處。首先,由于深度學習模型為非凸函數(shù),對其的理論研究十分困難,缺乏理論保證。在對數(shù)據(jù)進行調整時,仍是簡單的“試錯”,缺少理論支撐。
同時,由于深度學習過于依賴數(shù)據(jù)量和計算資源。對一個新概念的學習,往往需要數(shù)百個甚至更多有標記的樣本。當遇到有標記的樣本難以獲取或者代價太大時,深度學習就無法取得好的學習效果。并且深度學習需要十分昂貴的高性能GPU,這使得深度學習難以平民化。目前深度學習訓練速度較慢,往往需要幾天甚至一個月。其模型擴展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會迅速下降。目前的深度學習屬于靜態(tài)過程,與環(huán)境缺乏交互。
對其的解決方案目前主要有兩點:
(1)針對于模型擴展性差的問題,通過引入遷移學習,研究不同任務或數(shù)據(jù)之間的知識遷移,提高模型的擴展能力、學習速度,同時降低學習成本,便于冷啟動。
(2)與強化學習結合,研究在動態(tài)環(huán)境下進行深度學習,提高深度學習與環(huán)境交互的能力。
參考文獻
[1]蔣樹強,閔巍慶,王樹徽.面向智能交互的圖像識別技術綜述與展望[J].計算機研究與發(fā)展,2016:113-122.
[2]張翠平,蘇光大.人臉識別技術綜述[J].中國圖象圖形學報,2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強算法[J].計算機科學,2016.
[4]孫志軍,薛磊,許陽明,王正.深度學習研究綜述[J].計算機應用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學習研究進展[J].軟件學報,2015:26-39.
[6]高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004:86-100.
篇3
P鍵詞關鍵詞:視網(wǎng)膜;PCNN;血管分割;MATLAB;GUIDE
DOIDOI:10.11907/rjdk.161883
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2016)008-0068-03
0 引言
眼睛是人體接受外界信息最主要的器官,約75%左右的信息來源于視覺信息。因此,眼睛健康與否對人的學習、生活和工作的影響非常大。而眼底則是這個器官的重要組成部分,主要包括視網(wǎng)膜、脈絡膜、黃斑和視盤等。眼底視網(wǎng)膜中的血管是人體內唯一可以非創(chuàng)傷的方式直接觀察到的較深層微血管,其顏色、亮度、位置分布、形狀以及曲率等變化可以直接反映出疾病對血管網(wǎng)絡形態(tài)結構的影響,是心腦血管疾病對血管微循環(huán)檢查的重要部位。因此,視網(wǎng)膜圖像中血管網(wǎng)絡的檢測與分割對心腦血管疾病的診斷及治療具有重要意義[1]。
由于該方法計算公式復雜,涉及參數(shù)較多,且目前主要使用編寫腳本程序的方式進行視網(wǎng)膜眼底圖像中的血管分割,各個參數(shù)的調整都要在腳本程序中進行,非常復雜,不便于可視化地觀察實驗結果變化。因此,設計開發(fā)一款界面友好、操作簡單的視網(wǎng)膜血管分割系統(tǒng)是非常必要的。
MATLAB是一款由Mathworks公司推出的數(shù)學軟件,它在數(shù)值分析、矩陣運算、數(shù)值擬合以及圖形繪制等方面均有極其強大的功能,已被廣泛應用于數(shù)字圖像處理、信號處理和系統(tǒng)仿真等各個領域。同時,MATLAB 軟件具有界面友好、操作簡單的圖形可視化界面設計工具,其集成圖形用戶界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜單、對話框、按鈕和文本等各種控件[2]。用戶通過對控件進行布局,編寫控件的回調函數(shù)即可實現(xiàn)GUI 與用戶之間的交互,操作十分方便。
本系統(tǒng)在對視網(wǎng)膜眼底圖像中的血管進行預處理并運用脈沖耦合神經(jīng)網(wǎng)絡(Pulse Coupled Neural Network,PCNN)迭代原理分割的基礎上,利用MATLAB 的圖形用戶界面開發(fā)環(huán)境(GUIDE)實現(xiàn)了視網(wǎng)膜血管分割系統(tǒng)。該系統(tǒng)為醫(yī)學圖像研究提供了一種有效的視網(wǎng)膜血管分割方法,也為醫(yī)學圖像處理提供了一個操作方便的實驗平臺。
1 研究方法
首先是對視網(wǎng)膜眼底圖像中的血管進行預處理,然后利用PCNN方法對視網(wǎng)膜圖像中的血管進行分割。
1.1 視網(wǎng)膜血管圖像預處理
所處理的視網(wǎng)膜圖像為眼底視網(wǎng)膜RGB彩色圖像,通過將RGB 彩色圖像分解成紅、綠、藍三通道單色圖像可以發(fā)現(xiàn),綠色通道的視網(wǎng)膜圖像中血管和背景對比度最高, 而紅、藍色通道的單色圖像中噪聲較多、對比度較低, 因此采用綠色通道的視網(wǎng)膜圖像進行處理。
由于視網(wǎng)膜眼底圖像是由專門的醫(yī)學設備采集的,血管周圍區(qū)域難免會對后續(xù)處理產(chǎn)生干擾,因此需要對視網(wǎng)膜圖像進行有效區(qū)域的選取。將RGB圖像進行二值化處理,使其歸一化到[0,1]之間,再依次應用形態(tài)學中的開運算、閉運算和腐蝕操作,生成二值掩膜圖像。
由于血管直徑大小不一、背景干擾以及成像時光照不均等因素影響,使得血管與背景的對比度較低。為獲得理想的分割效果,要對眼底圖像進行預處理,以增強血管和背景的對比度。本系統(tǒng)主要采用對比度受限制的自適應直方圖均衡化(CLAHE)[3]與二維高斯匹配濾波[4]方法對視網(wǎng)膜血管進行對比度的增強。
直方圖均衡化(HE)的基本思想是通過圖像的灰度分布直方圖確定一條映射曲線,用來對圖像進行灰度變換,以達到提高圖像對比度的目的。然而HE是對圖像全局進行調整的方法,不能有效提高局部對比度。為了提高圖像的局部對比度,有研究者提出自適應直方圖均衡化(AHE)方法,將圖像分成若干子塊,對子塊進行HE處理。但是AHE 對局部對比度提高過大,將導致圖像失真。為了解決這個問題,必須對局部對比度進行限制,這便是CLAHE方法。CLAHE處理后的圖像既能體現(xiàn)不同位置灰度分布之間的差異,又能使全局灰度較為協(xié)調。
二維高斯匹配濾波的原理主要是根據(jù)血管曲率較小且寬度漸進改變這一特點,將血管近似分段為等寬度的線段,然后用高斯曲線模擬其橫截面的灰度輪廓。由于血管方向具有任意性,因此需要旋轉高斯曲線來匹配不同方向的血管。每30°旋轉一次,得到從0°~180°的6個匹配濾波器,再分別與經(jīng)過CLAHE處理后的圖像進行卷積,選擇其中最大的卷積值作為增強圖像的像素值。
最后,將經(jīng)過CLAHE處理之后的圖像減去經(jīng)過CLAHE、二維高斯匹配濾波后的圖像,即可得到最終的預處理結果。
1.2 基于PCNN的視網(wǎng)膜血管分割
脈沖耦合神經(jīng)網(wǎng)絡 (PCNN ,Pulse Coupled Neutral Network)[5]是20世紀90年代形成和發(fā)展的與傳統(tǒng)人工神經(jīng)網(wǎng)絡有著根本不同的新型神經(jīng)網(wǎng)絡,其模型直接來源于高級哺乳動物的視覺神經(jīng)系統(tǒng),具有現(xiàn)實的生物學依據(jù),在圖像處理與分析及計算機視覺領域中有著廣泛應用。它不僅能夠克服微小變化造成的影響,而且能夠較完整地保留圖像的區(qū)域信息。因此,使用PCNN進行視網(wǎng)膜血管圖像分割具有一定優(yōu)勢。
本系統(tǒng)采用PCNN簡化模型對視網(wǎng)膜圖像血管自動分割,該模型不僅保持了原始模型的重要特性,而且減少了部分參數(shù)。用迭代公式可以描述為:
式中,Sij是外部刺激,即點(i,j)對應像素的灰度值,F(xiàn)ij是神經(jīng)元的輸入項,Lij、Uij、Yij、Eij分別是神經(jīng)元的耦合連接輸入、內部活動項、脈沖輸出和動態(tài)閾值。VL為連接輸入域的放大系數(shù),β為神經(jīng)元之間的連接強度系數(shù),VE和αE分別為動態(tài)閾值的放大系數(shù)和衰減常數(shù)因子,W為連接加權系數(shù)矩陣。PCNN應用于眼底圖像處理時,其神經(jīng)元數(shù)目與圖像像素數(shù)目一致,各神元與像素一一對應,像素的灰度值作為對應神經(jīng)元的輸入Sij。當連接加權系數(shù)矩陣W所在鄰域內有相似灰度值像素時,若其中某個神經(jīng)元點火產(chǎn)生脈沖輸出,會引起鄰域內相近灰度值像素對應的神經(jīng)元點火,產(chǎn)生脈沖序列輸出,這些輸出脈沖序列構成的二值圖像Y即為輸出的分割圖像。
2 系統(tǒng)設計思路及方法
根據(jù)上述分割過程,將系統(tǒng)設計成兩大模塊,分別對應于兩個界面,主界面為視網(wǎng)膜圖像預處理模塊,子界面為視網(wǎng)膜血管分割模塊。通過使用MATLAB GUIDE中的控件進行布局和編寫相應的回調函數(shù)來實現(xiàn)各模塊功能。
利用MATLAB GUI實現(xiàn)視網(wǎng)膜血管分割系統(tǒng)的過程可以分為GUI 圖形界面布局和GUI 程序實現(xiàn)兩部分[6]。對于界面布局,首先要考慮窗口大小、控件位置以及界面所要實現(xiàn)的功能及各控件需要完成的任務。完成控件的布局之后,接著應對控件屬性進行設置,通過在相應的控件上雙擊鼠標左鍵,打開屬性查看器,設置該控件屬性。最后需要對各個控件進行回調函數(shù)的編寫,這是界面設計的關鍵一步,直接影響界面各個功能的實現(xiàn)。
3 系統(tǒng)功能實現(xiàn)
3.1 視網(wǎng)膜圖像預處理模塊
視網(wǎng)膜圖像預處理模塊包括選擇圖片、選擇RGB通道、CLAHE增強處理、二維高斯匹配濾波處理以及最終預處理結果5個子模塊,如圖1所示。
具體操作如下:界面初始化后自動加載一幅默認圖片,也可以由用戶選擇其它圖片;單擊“選擇圖片”按鈕,之后會彈出一個對話框,選擇要載入的圖片,可以看到圖片顯示在界面的左上角,文件名顯示在圖片正下方;然后選擇彩色通道,默認為綠色通道,選擇的通道圖像顯示在右邊區(qū)域左上角。如果勾選 “生成掩膜”選項,則后面的運行結果均會顯示出單擊“生成掩膜”之后的圖像,默認狀態(tài)為未勾選;接下來需要進行CLAHE處理,以增強圖像對比度。在這里,主要是對adapthisteq函數(shù)中的參數(shù)進行設置;最后單擊“運行”按鈕,結果顯示在右邊區(qū)域的右上角。在進行CLAHE處理之后,需要進行二維高斯匹配濾波處理,主要是對濾波核個數(shù)、血管半徑及血管段長度進行設置,以進一步增強血管與背景的對比度;然后單擊“運行”按鈕,結果顯示在右邊區(qū)域的左下角;單擊“最終預處理結果”按鈕,結果顯示在右邊區(qū)域的右下角。
3.2 視網(wǎng)膜血管分割模塊
視網(wǎng)膜血管圖像分割模塊主要是根據(jù)PCNN算法迭代原理,調節(jié)PCNN各個參數(shù),對視網(wǎng)膜血管圖像進行分割,如圖2所示。
具體操作如下:單擊主界面中的“PCNN分割”按鈕,即可進入視網(wǎng)膜血管分割模塊的界面;接著選擇所需PCNN模型和核,并設置核的半徑大小。若選擇“原始模型”,則需要設置PCNN的6個參數(shù),若選擇“改進模型”,則只需設置PCNN的4個參數(shù);之后設置迭代次數(shù)和beta的值,單擊“運行”按鈕,在彈出的對話框中,選擇一幅迭代圖片,將自動生成分割結果;對于分割后的結果,單擊“保存”按鈕,可以保存圖片;最后單擊“返回”按鈕,可以返回主界面。
4 結語
基于MATLAB 軟件在圖形繪制、數(shù)值運算及可視化界面開發(fā)等方面的優(yōu)勢,在對視網(wǎng)膜眼底圖像中的血管預處理并運用PCNN算法迭代原理進行分割的基礎上,通過MATLAB GUI 設計完成了視網(wǎng)膜血管分割系統(tǒng),可以實現(xiàn)視網(wǎng)膜血管圖像的增強處理,進而利用脈沖耦合神經(jīng)網(wǎng)絡方法對視網(wǎng)膜血管圖像進行分割。本系統(tǒng)提供了一種有效的視網(wǎng)膜血管分割方法,在醫(yī)學圖像研究方面具有一定參考價值。同時,系統(tǒng)具有界面友好、操作簡單等特點,為醫(yī)學圖像處理提供了一個操作方便的實驗平臺。
參考文獻:
[1] 姚暢,陳后金,李居朋. 基于過渡區(qū)提取的視網(wǎng)膜血管分割方法[J].電子學報,2008,36(5):974-978.
[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序設計[J]. 電腦知識與技術,2009,27(5):7767-7768.
[3] 陳萌夢,熊興良,張琰,等. 1種視網(wǎng)膜眼底圖像增強的新方法[J]. 重慶醫(yī)科大學學報,2014,39(8):1087-1090.
[4] 姚暢,陳后金. 一種新的視網(wǎng)膜血管網(wǎng)絡自動分割方法[J].光電子?激光,2009,20(2):274-278.
篇4
關鍵詞:化學計量學 分析化學 人工神經(jīng)網(wǎng)絡
化學計算學作為化學的分支學科,起步較晚,在涉及內容上又比較廣闊,涉及到數(shù)學、統(tǒng)計學及計算機應用技術等相關學科,可以說是一門交叉性的學科。正是因為科學技術的發(fā)展及多學科相互滲透的作用才誕生了化學計量學這門獨特的學科。涵蓋于化學測量的整個過程,采樣理論、實驗設計、選擇與優(yōu)化、變量處理及數(shù)據(jù)分析斗屬于化學計量學。化學計量學擔負的主要任務是進行化學測量數(shù)據(jù)的分析與處理,進行測量程序與實驗方法的最佳選擇,最早由瑞典化學家提出,一直沿用至今。正是因為化學計量學的巨大作用,解決了傳統(tǒng)化學研究中不能攻破的難題,成為化學研究的新方向與關注點。
一、化學計量學對于化學測量的應用分析
在化學研究中,需要將化學計量學滲透于化學測量的全過程。在上世紀五十年代以來,新的化學儀器分析方法已經(jīng)被充分的引入到分析化學中,分析測試工作已經(jīng)逐步實現(xiàn)了儀器化、自動化與初步的計算機化,這些技術的深入應用,為化學分析提供了可靠的測量數(shù)據(jù),但是將這些分析儀器的優(yōu)點結合起來,將雜亂無章的數(shù)據(jù)信息進行重新排列組合,最大限度的解決信息的篩選,成為化學研究工作者當前面臨的最大難題。
化學計量學在解決這一問題中發(fā)揮了重大作用。將分析分離技術集于一體,通過特定的高維儀器產(chǎn)生分析信號,利用新型的分析信號多元校正及有效分辨方法進行復雜多組分的體系定性,進行定量解析。利用這種化學計量學的方法可以對巨大的數(shù)據(jù)信息進行有效的篩選,從而提取最有用的信息,對這些有用信息進行分析,實現(xiàn)了單純的“數(shù)據(jù)提供者”到“問題解決者”的角色轉變?;瘜W計量法對于化學測量產(chǎn)生的影響是深遠且巨大的?;瘜W計量法應該貫穿于化學測量的全過程。
二、當前化學計量學在分析化學中的應用分析
(一)化學計量學在化學定量構效關系中的應用分析
化學定量構效關系研究是化學學科的根本性研究問題,結合物質的化學成分與基本的結構進行化學性質的測定,是我國目前化學理論研究中的重要目標。在進行研究時一般采用圖論與數(shù)值的方法進行各種化合物的表征,將所獲取的計算結果與實際的被測量化學物的物理、化學及生物特性結合起來,用比較明確的定量關系來代替含糊的定性描述。目前化學計量學在進行分析化學研究時引入了全局最優(yōu)算法,在利用誤差反向傳播的多層次感知模型進行苯酚衍生物的活性測驗時取得了明顯的研究效果,較之先前的研究方法,改進是十分明顯的。
(二)化學計量學中模式識別方法在分析化學中的應用
化學計量學中的模式識別法是根據(jù)化學測量數(shù)據(jù)矩陣,對樣本集通過樣本性質進行分類進行選取的方法。根據(jù)測量在多維模式空間中的相對位置不同,用線性判斷識別分析法、最鄰近法等進行模式的識別。模式識別法的研究能夠為決策及過程優(yōu)化提供最有實用價值的信息資料。我國石油化工行業(yè)、材料化學研究領域都基于該思想破解了很多研發(fā)難題。其中K―最鄰近法從伏安波匯總對重疊的伏安響應信號進行區(qū)分,將K―最鄰近法用于電位階伏安波及毛細管曲線分類中,實現(xiàn)了對有機化合物構效關系的有效表征。二SMCA法最廣泛的應用就是食品的鑒定。
(三)化學計量學的人工神經(jīng)網(wǎng)絡應用分析
除了我們上面提到的應用,化學計量學在神經(jīng)網(wǎng)絡應用方面也發(fā)揮了積極的作用。所謂的人工神經(jīng)網(wǎng)絡是基于現(xiàn)代生物學的對人腦組織進行研究而提出的,利用大量的簡單的處理單元進行充分連接,從而形成的巨大的復雜的網(wǎng)絡體系,主要是用來模擬人的大腦神經(jīng)網(wǎng)絡結構域的一定神經(jīng)行為。人工神經(jīng)網(wǎng)絡可以對數(shù)據(jù)模式進行合理的解析與分類,對于原因與結果關系不確定的非線性測量數(shù)據(jù)有著獨特的應用。分析化學的不確定性很多,借助于化學計量學的人工神經(jīng)網(wǎng)絡得到了有效的應用解決。從目前神經(jīng)網(wǎng)絡的應用情況來看,在譜圖分析、藥物分子藥效的預測及蛋白質結構的預測方面都取得了不錯的成績。此外,在分析化學中應用比較廣泛的還有遺傳算法,遺傳算法可以進行多組分分析波長選擇、數(shù)據(jù)校正優(yōu)化、核磁共振脈沖波形選擇等。人工神經(jīng)網(wǎng)絡還進一步促進了儀器聯(lián)機與實驗的自動化。在生產(chǎn)方面起到了重要的指導作用。
(四)化學計量法波普化學的應用分析
目前在化學研究中,化學家們一直努力的目標主要是波普數(shù)據(jù)庫的有效利用。波普數(shù)據(jù)庫的質譜、核磁共振譜、色譜等復雜分析體系的快速定性定量分析都是當前研究的重點?;瘜W計量學為這方面的研究提供了新的突破口。各種濾波、平滑、交換、卷積技術的應用,促進了分析化學的發(fā)展??梢灾苯犹峁┎豢煞蛛x的直接地測定相互干擾的共存性物種,對于完全未知的混合物也可以實現(xiàn)準確的測定。
(五)化學計量法的多元校正分析應用
我國化學的多元化分析成為今后化學研究的大趨勢,不僅在研究目標上體現(xiàn)出多元化,對于研究對象也呈現(xiàn)出多元化的特性。這對于化學研究工作者是不小的挑戰(zhàn)。要求化學工作者能夠快速、準確的定位與定量,從而得出分析結果。在這樣的背景下,多元校正法應用而生,其產(chǎn)生為現(xiàn)代分析儀器提供了大量的測量數(shù)據(jù),并對這些數(shù)據(jù)進行了解析,可以說多元校正法是新型的數(shù)學統(tǒng)計方法。多元校正法在多個方面進行了研究優(yōu)化,靈敏度、檢測度、精密度等都對指標進行了優(yōu)化,在對這些指標優(yōu)化后,大大擴展了分析儀器的功能與方法的有效及實用性。正是因為正交設計、均勻性設計分析、板因式設計分析等多種實驗設計優(yōu)化方法的相互協(xié)調,對分析選擇性進行了改善,在一定程度上拓寬了其化學計量法多元校正的應用領域。
三、結束語:
化學計量學從產(chǎn)生到現(xiàn)在大約只有30多年的歷史,但是在短短的幾十年內,其應用不斷得到普及,其應用效果不斷得到化學行業(yè)的肯定。將來,化學計量學將依然是令人關注的問題,有著廣闊而光明的前景?;瘜W計量學不斷發(fā)展,將對儀器的智能化分析提供新的研究理論與方法途徑,為高維聯(lián)用儀器的發(fā)展提供新的突破口與改進點。通過本文對化學計量學在分析化學中的應用分析,我們在看到化學計量學優(yōu)勢作用的同時,更應該看到其發(fā)展中的不足,針對這些不足進行研究分析,在進行多次驗證的基礎上尋找新的解決途徑,完善這些不足,為化學計量學的發(fā)展提供更加廣闊的發(fā)展空間。在分析化學發(fā)展領域,增強對化學計量學的引入是今后化學研究發(fā)展的一個大方向。
參考文獻
[1]黃丹.淺談化學計量學在分析化學中的應用及發(fā)展前景[J].今日科苑.2009(08).
[2]周統(tǒng)武,蔡娟.化學計量學的學科現(xiàn)狀與發(fā)展方向[J].中國科技信息,2009(03).
[3]周南.關于“分析化學中的計量學與質量保證”的國際研討會[J].理化檢驗(化學分冊),2007(03).
篇5
人工神經(jīng)網(wǎng)絡作為一種智能化的方法近年來在圖像數(shù)據(jù)壓縮領域得到了一定的研究與應用[6]?;谌斯ど窠?jīng)網(wǎng)絡的數(shù)據(jù)壓縮主要有2個步驟:①學習訓練,將數(shù)據(jù)送入輸入層作為訓練樣本,不斷調整各層間的連接權值,從而使得網(wǎng)絡的輸出均方差達到最??;②壓縮編碼,將數(shù)據(jù)輸入到訓練好的網(wǎng)絡,壓縮后的數(shù)據(jù)通過隱含層輸出。DEM數(shù)據(jù)具有相關性和連續(xù)性的特點,即DEM數(shù)據(jù)反映的是地形連續(xù)變化的特征,高程劇烈變化的部分是少有的并且DEM網(wǎng)格中某一點的高程值可以通過鄰域值用非線性函數(shù)表示,這實質上非線性函數(shù)逼近或地形曲面擬合的過程?;谝陨咸攸c,學者們將人工神經(jīng)網(wǎng)絡引入到DEM數(shù)據(jù)壓縮領域,馮琦等[7]采用BP神經(jīng)網(wǎng)絡實現(xiàn)DEM數(shù)據(jù)壓縮,該研究特色在于:①采用L-M訓練算法提高單隱層網(wǎng)絡(SHLN)運算速率[8-9];②基于DEM數(shù)據(jù)相關性特點設置相對誤差精度指標實現(xiàn)對最優(yōu)BP訓練網(wǎng)絡的選取,在減少結點數(shù)的同時獲得較高的壓縮比;③該方法解壓過程對于計算機硬件依賴性不高,能夠進行數(shù)據(jù)的離線壓縮處理。根據(jù)DEM數(shù)據(jù)的連續(xù)性特征,趙鴻森等[10]提出了一種基于RBF神經(jīng)網(wǎng)絡的壓縮方法,該方法將山脊線、山谷線等地形特征作為樣本點訓練集,能夠根據(jù)地形特征自適應確定網(wǎng)絡結構,神經(jīng)網(wǎng)絡權值是通過網(wǎng)格點高程值獲得,可獲得較高的壓縮比。
基于小波變換的DEM數(shù)據(jù)壓縮
1.基于DWT的DEM數(shù)據(jù)壓縮
DWT(DiscreteWaveletTransform)適合于處理各種冗余度低、相關性低的非平穩(wěn)信號的壓縮處理,對于不穩(wěn)定、相關性差的DEM數(shù)據(jù)壓縮具有較好的效果。DWT對于信號的壓縮是基于其他具有多分辨率分析(MRA)這一特性,即根據(jù)Mallat算法[11]原始信號能夠被逐級分解為高頻和低頻信號,由于高頻分解信號含有絕大都數(shù)信息并且幅值小,通過設定一定的比例將最小幅值的分解系數(shù)置為0,再通過小波系數(shù)重構達到信號壓縮的目的。經(jīng)過理論分析,原始信號經(jīng)過DWT,重構信號與原始信號具有高度的一致性。事實上重構信號與原始信號的差別往往不可忽略,特別是對于DME數(shù)據(jù)的壓縮,壓縮后數(shù)據(jù)相對于原始數(shù)據(jù)而言存在著嚴重的邊界畸變、失真等問題,必須加以解決。針對這一問題,CHANG[12]等將二維離散小波變換的邊界問題轉變?yōu)橐痪S離散小波變換來進行處理,研究結果表明該方法大大減小了邊界失真區(qū)域,在提高壓縮比的同時DEM重建數(shù)據(jù)精度也得以提高。
2.基于IWT的DEM數(shù)據(jù)壓縮
DWT是通過將信號分解系數(shù)直接置0的方式來進行壓縮處理,重構信號與原始信號不可避免地出現(xiàn)誤差,而基于IWT(IntegerWaveletTransform)信號壓縮,由于小波分解系數(shù)通過有限精度數(shù)(FinitePrecisionNumber)來進行精確描述,因而適合于對信號進行無損壓縮處理[13]?;贗WT的數(shù)據(jù)壓縮具有以下特點:①壓縮處理很大程度上依賴于多相矩陣因式分解的選擇,而因式分解能否對壓縮后圖像給定一個適當?shù)恼`差尺度,取決于圖形迭代函數(shù);②IWT采用提升方案,并且均為整數(shù)運算,數(shù)據(jù)處理的速率得以提高;③IWT完全可逆,既可以實現(xiàn)有損編碼也可以實現(xiàn)無損編碼。陳仁喜等[14]將整形小波變換用于DEM數(shù)據(jù)壓縮處理,該方法首先將經(jīng)過預處理的DEM數(shù)據(jù)進行整形小波變換,然后對變換系數(shù)進行閾值化處理,最后進行量化編碼。該方法最大特點是實現(xiàn)了數(shù)據(jù)壓縮比和質量以及數(shù)據(jù)質量和傳輸速度的很好折中,具體為:①量化方法基于SPIHT算法平面?zhèn)魉退枷耄匾畔⒅饕杏诟呶?,將小波變換后的系數(shù)直接去掉后面的n個平面位,該方法在保證數(shù)據(jù)壓縮質量的同時提高了壓縮比;②采用基于位平面掃描的算法對量化后的數(shù)據(jù)進行壓縮編碼,這使得壓縮后的數(shù)據(jù)具有質量漸進傳輸特性;③小波變換后各子帶分別進行編碼,在解碼過程中可以不對高頻子帶解碼,得到的恢復數(shù)據(jù)分辨率較低,這有利于對大型DEM數(shù)據(jù)進行快速檢索和瀏覽。
3.基于SPIHT小波編碼算法
EMZ(EmbeddedZerotreeWavelet)算法由Shaprio[15]于1993年提出,該算法包括嵌入式和零樹,在零樹結構與逐次逼近量化方法(SAQ)相結合的基礎上實現(xiàn)嵌入式編碼。該算法能充分利用小波系數(shù)特點使得輸出的碼流具有嵌入的優(yōu)點,因而在圖像處理[16-17]、生物醫(yī)學[18]等領域得到廣泛的應用研究。但該算法也存在著如在相互獨立的零樹進行編碼時浪費大量字節(jié)等缺陷,研究者們也做了一些改進[19]。在EMZ算法基礎上發(fā)展而來的SPIHT(SetPartitioninginHierarchicalTrees)[20]算法具有能夠在保證數(shù)據(jù)壓縮質量的前提下提高壓縮比,能夠進行優(yōu)化嵌入式編碼,均方根誤差和計算復雜度低等優(yōu)點,并且數(shù)據(jù)壓縮后具有很好的漸進傳輸特性,目前該算法在圖像壓縮領域得到廣泛應用。地形特征是影響DEM壓縮質量的一個重要因素,平坦地區(qū)數(shù)據(jù)冗余量大而山地地勢高低起伏,數(shù)據(jù)冗余則較小,但就現(xiàn)有的研究方法而言將這兩種地形采用同樣地壓縮比,壓縮結果不盡如人意,李毅等[21]提出了一種基于SPIHT小波的DEM自適應壓縮方法,該方法特點在于:①考慮地形特征,根據(jù)地形的復雜度進行分析以確定數(shù)據(jù)壓縮比,從而確保數(shù)據(jù)可視化質量;②自適應性編碼,通過才用表征不同尺度的小波高頻系數(shù)和地形尺度特征向量對地形復雜度進行評估,根據(jù)評估結果自適應調節(jié)編碼算法。但該研究中數(shù)據(jù)壓縮比是根據(jù)地形視覺效果選擇,存在一定的經(jīng)驗性,在實際應用中很難得到較為理想的壓縮比。
4.基于M進制小波的DEM數(shù)據(jù)壓縮
多分辨率分析是傳統(tǒng)二進制小波變換的基本特性,即能夠獲得信號在時間域和頻率域局部化特征,這有利于對圖像局部信息進行有效地識別和分析。當圖像經(jīng)過多層小波分解時,隨著分解層數(shù)的增加,圖像信息會出現(xiàn)不同程度的丟失,這成為二進制小波變換的主要缺陷。在二進制小波變換基礎上發(fā)展的M進制小波變換具有如下特點:①能夠對圖像信號進行更加細致地分解,分解次數(shù)不受限制;②圖像信息更加集中,并能夠精確描述圖像的頻率分布;③圖像重構具備較高的精度;④具有對圖像信號相對狹窄的高頻部分進行放大處理和對圖像信號壓縮的特性,這克服了正交小波分解所存在的缺陷.DME由于具有海量化數(shù)據(jù),以及復雜的地形信息等特點一直是DEM數(shù)據(jù)壓縮的難點,近年來研究者們將M進制小波變換引入DME數(shù)據(jù)壓縮領域,王宇宙等[22]提出了一種基于多進制小波變換的DEM數(shù)據(jù)壓縮方法,顧及DEM地形因素,將高頻和低頻信息分別進行編碼處理是其主要特色,具體化為:①低頻系數(shù)采用差分映射編碼,這充分顧及地面變化的連續(xù)性以及大量數(shù)據(jù)冗余的情形,能夠對低頻信息進行無損的壓縮編碼;②并未直接舍棄系數(shù)值較小的高頻小波系數(shù),而是通過自適應對數(shù)量化表,對各個高頻小波系數(shù)子塊分別加以量化處理,能夠獲得較好的壓縮效果。但該方法不足之處在于:對數(shù)量化位數(shù)是根據(jù)壓縮率來進行確定,而事實上壓縮率不能預先得知,從而量化位數(shù)也就無法精確得獲得,基于具體地形信息的DEM數(shù)據(jù)精確壓縮也就難以實現(xiàn)。多進制小波函數(shù)和尺度函數(shù)的構造是基于多進制小波DEM數(shù)據(jù)壓縮的難點之一,對此呂希奎等[23]構造了一種具有插值性質的多進制小波函數(shù)和尺度函數(shù),將DEM數(shù)據(jù)轉變?yōu)槎S圖像壓縮問題,能夠在保持地形特征基本不變的前提下提高壓縮比。但基于多進制DEM數(shù)據(jù)壓縮本質上是有損壓縮,細節(jié)信息的損失不可避免。#p#分頁標題#e#
基于組合算法的DEM數(shù)據(jù)壓縮
1.SPHIT算法與小波變換相結合的DEM數(shù)據(jù)壓縮
整形小波變換(IWT)采用了提升方案(LS),避免了傳統(tǒng)小波的卷積運算,并且計算過程完全在空間域進行,計算復雜度明顯降低,便于硬件實現(xiàn)。因此,IWT能夠對于冗余度較大的DEM數(shù)據(jù)進行有效地去相關性處理,實現(xiàn)對DEM數(shù)據(jù)的無損或近似無損的壓縮。將IWT與新型編碼方法的代表——SPIHT算法有機結合,為DEM數(shù)據(jù)壓縮提供了一種有效方法。田繼輝等[24]提出一種能夠用于應急三維GIS的DEM數(shù)據(jù)壓縮方法,該方法特點在于:①根據(jù)壓縮精度要求,實現(xiàn)DEM數(shù)據(jù)單位轉換;②對于每塊DEM數(shù)據(jù)均減去其最小值,在降低了小波變換級數(shù)的同時使得SPIHT編碼級數(shù)也得到降低;③通過設定一個小波系數(shù)閾值,將高于和低于該閾值的小波系數(shù),分別進行SevenZip和SPIHT算法進行處理;④選用Int5/3實現(xiàn)對DEM數(shù)據(jù)壓縮處理。該方法充分發(fā)揮IWT和SPIHT算法的優(yōu)勢,能夠顧及到地形平坦和起伏較大情形下的壓縮編碼,研究表明該方法取得了較好的壓縮效果,但對于DEM數(shù)據(jù)的邊界問題并未提及,仍需要進一步加以研究。
2.基于小波變換與熵編碼相結合的DEM壓縮算法
該算法實現(xiàn)主要有3個步驟:①小波變換,即選擇恰當?shù)男〔ɑ瘮?shù)對DEM數(shù)據(jù)進行小波變換;②量化,經(jīng)過小波變換后數(shù)據(jù)相比原始數(shù)據(jù)而言更加集中,但其數(shù)量大小并未改變,必須采用一定的量化方法進行數(shù)據(jù)量化;量化通常有矢量和標量量化兩種方法;③編碼,通過將小波變換后的量化數(shù)據(jù)進行編碼,將其轉化為字符流。就整個小波壓縮流程而言,數(shù)據(jù)經(jīng)過壓縮后邊界失真現(xiàn)象的克服,數(shù)據(jù)壓縮比的提高,以及在于量化和編碼方法的選擇是該壓縮算法的難點所在。DEM數(shù)據(jù)具有不穩(wěn)定、相關性差、信息熵高,并且DEM在平原地區(qū)具有較大的冗余,而在山區(qū)則冗余度較低等特點,這使得數(shù)據(jù)壓縮比難以得到提高,常占強等[25]利用具有線性相位的雙正交小波變換與混合熵編碼相結合的方法對山區(qū)DEM數(shù)據(jù)進行壓縮處理,具體來說:首先對DEM數(shù)據(jù)進行小波變換,通過選取最大分解系數(shù)的1/6作為自適應閾值并與硬閾值函數(shù)相結合,對小波分解后的高頻系數(shù)進行處理,能夠使得大約95﹪小波系數(shù)為0;然后將高頻和低頻分解系數(shù)分別采用游程編碼和Huffman編碼;最后再次通過游程解碼和Huffman解碼進行數(shù)據(jù)解壓。該研究充分發(fā)揮了小波變換與編碼方法各自的優(yōu)勢,在提高數(shù)據(jù)重建精度的同時獲得了較高的壓縮比,但小波閾值的選取局限于單一的情形,對多種情形的小波閾值的自適應確定規(guī)則的研究仍有待于進一步深入。
3.紋理優(yōu)化技術與其他方法相結合的DEM數(shù)據(jù)壓縮
紋理數(shù)據(jù)作為一種重要的場景數(shù)據(jù),在對三維DEM數(shù)據(jù)進行渲染時一般存在兩個問題:①由于采用分辨率高而且顏色豐富的紋理,從而存消耗急劇增加;②無法有處理決紋理分辨率與視距之間的關系,即相機與圖的距離較近時,圖形分辨率較大,相機與圖形距離較大時,圖形分辨率較小。Mipmap(Multi-imagepyramidmap)技術能夠很好解決以上問題,該技術由Willams提出,并很快得到了廣泛的研究和應用。從廣義角度上分析,DME數(shù)據(jù)壓縮、傳輸與顯示是一個有機整體,同屬于DEM數(shù)據(jù)壓縮范疇,即廣義DEM數(shù)據(jù)壓縮。楊曉東等[26]結合Mipmap紋理優(yōu)化技術與頂點法向量編碼方法對DEM數(shù)據(jù)進行壓縮處理,該研究主要實現(xiàn)如下功能:①數(shù)據(jù)的漸進傳輸和顯示:通過對DEM數(shù)據(jù)進行小波變換,分別采用標量量化器和EZW對小波系數(shù)進行量化和編碼;②DEM數(shù)據(jù)優(yōu)化顯示,采用頂點法向量的計算和編碼方法并結合Mipmap紋理優(yōu)化技術,能夠對模型數(shù)據(jù)進行光照效果的計算。該研究突破了將DEM數(shù)據(jù)的壓縮、傳輸以及優(yōu)化顯示有機結合,突破了現(xiàn)有的DEM數(shù)據(jù)壓縮的固有模式,為該領域提供了一個較好的研究思路。
4.基于判別規(guī)則(指標)的DEM數(shù)據(jù)壓縮
TIN由于采用不規(guī)則的空間分布高程采樣點描述地形,在數(shù)據(jù)結構、三角網(wǎng)生成算法等方面相對于排列規(guī)則且結構簡單的Grid數(shù)據(jù)而言,數(shù)據(jù)壓縮方面難度較大。通過預先定義某一判別規(guī)則(指標)來對數(shù)據(jù)量進行適當?shù)娜∩幔瑥亩鴮崿F(xiàn)對DEM數(shù)據(jù)的壓縮,是實現(xiàn)DEM數(shù)據(jù)壓縮處理的一種有效方法。蔡先華等[27]提出DEM數(shù)據(jù)壓縮地形描述誤差(Ep)這一判別指標來實現(xiàn)對DEM數(shù)據(jù)壓縮,該方法首先在充分考慮DEM高程采用點、地形描述以及數(shù)據(jù)壓縮等誤差相互影響的基礎上,確定數(shù)據(jù)壓縮誤差限值EP0;然后對不是TIN邊界的高程點產(chǎn)生的地形誤差Ep與所給限值進行比較,剔除小于該值的高程點,從而實現(xiàn)DEM數(shù)據(jù)的壓縮。三角網(wǎng)在地形起伏較大的情況下,相鄰法線向量之間夾角較大,而當?shù)匦纹教箷r,相鄰法線向量近乎平行。劉春[28]等提出一種基于TIN的DEM數(shù)據(jù)壓縮方法,該方法將相鄰三角形法線間的夾角作為判別依據(jù),判別閾值步驟如下:①確定大概閾值T,采用該閾值進行TIN壓縮;②計算DEM采樣點高程差的方差S;③將S與壓縮誤差允許值進行比較,如果大于該值則適當減少閾值T,并重新計算;反之則增大閾值T并重新計算直到滿足要求為止。該方法間接地顧及地形特征,并且閾值的選擇是根據(jù)所給點的壓縮誤差指標進行迭代選擇的,研究表明該方法對TIN數(shù)據(jù)壓縮較為有效,但對于特殊地面模型的壓縮處理仍有待于進一步研究。
結束語
篇6
關鍵詞:深度學習;目標視覺檢測;應用分析
隨著計算機的普及,目標視覺檢測也在計算機的發(fā)展中逐漸被應用。人們的生活越來越離不開計算機和電子設備,數(shù)據(jù)信息充斥著當代人的生活。隨著人們生活質量的提高對電子設備要求越來越高,越來越精準。目標檢測技術在人們的生活中,也發(fā)揮著很大的作用和價值。智能監(jiān)控、機器人、自動定位、人臉聚焦、航拍、衛(wèi)星等方面都應用了目標視覺檢測的技術。在高層視覺處理和任務分析中,目標視覺檢測技術也是基礎。無論是分析行為、事件還是場景語義的理解都需要運用到目標視覺檢測技術。因此目標視覺檢測在各個方面都發(fā)揮著重大的作用,本文就深度學習在目標視覺檢測中的應用和展望進行探討。
一、深度學習在目標視覺檢測中的進展
深度學習最早出自于人工神經(jīng)網(wǎng)絡。深度學習把多層感知器作為學習結構,組合底層特征進行高層的學習。作為機器研究的一個新領域,模仿人腦組建學習的神經(jīng)網(wǎng)絡。深度學習可以逐步自主的學習。而目標視覺檢測在近幾年出現(xiàn)了很多的問題,例如,類內和類間存在差異。即使通過訓練也很難包含所有類內的特征描述模型。而且類內和類間的差異大小不一樣這就給目標視覺檢測的發(fā)展帶來很大的阻礙。在圖像采集的過程中,由于種種因素會導致目標物體被遮擋,因此,視覺算法的魯棒性也需要進行整改。語義理解也存在著差異,對仿生和類腦角算法有一定的難度。而計算機的復雜和自適應性也比較高,需要設計高效的目標視覺檢測技術,為了確保目標視覺檢測的精準程度,還需要設計出自動更新視覺模型來提高模型在不同環(huán)境下的適應能力。隨著深度學習的發(fā)展,深度學習對于目標視覺檢測有很大的用處,可以極大地解決目前目標視覺檢測技術出現(xiàn)的問題。因此很多專家開始把深度學習融入到目標視覺檢測的發(fā)展當中,并進行研究。
二、目標視覺檢測的流程和順序
估計特定類型目標是目標視覺檢測的關鍵,目標視覺檢測的流程大致分為三步,區(qū)域建議、特征表示和區(qū)域分類。根據(jù)圖一,第一步區(qū)域建議。目標檢測需要獲得目標的準確位置和大小尺度,在輸入圖像的時候找到指定的類型目標是其中一種區(qū)域建議。還可以通過滑動窗進行區(qū)域建議,投票、圖像分割的區(qū)域建議也可以使用。滑動窗需要在輸入圖像的時候在子窗口執(zhí)行目標來檢測目標所處的位置。投票機制則通過部件的模型找到輸入圖像和模型在局部區(qū)域內的最佳位置,并最大限度地讓所有局部區(qū)域匹配,利用拓撲的方式來得到最佳匹配。但是投票機制的區(qū)域建議計算代價會比較高。圖像分割的區(qū)域建議則建立在圖像分割的基礎上面,是一個消耗時間和精力的過程,而且很復雜很難把整個目標分割出來。而深度學習在圖像分類和目標檢測中都有一定得進展,通過深度學習的表征和建模能力可以生成抽象的表示[1]。
圖一,目標視覺檢測流程
三、深度學習在目標視覺檢測當中的作用
深度學習融入目標視覺檢測推動了目標視覺檢測的發(fā)展和研究。目標視覺檢測和圖像分類有一定的區(qū)分,目標視覺檢測主要關注圖像的局部信息,圖像分類在意圖像的全局表達。但是它們也有一定的互通性。首先從區(qū)域建議的方法來探討深度學習在目標視覺檢測中的作用。深度學習在目標視覺檢測中的基本參考方法是Girshick等人提出來的R-CNN方法。R-CNN和CNN相聯(lián)系,檢測的精準度達到了53.3%,對比傳統(tǒng)的方法有很大的飛躍。如圖二所示,輸入相關圖像的同時進行選擇性的搜索提取候選區(qū),通過CNN網(wǎng)絡來提取固定長度的向量,圖像經(jīng)過兩個全連接層和五個積卷層得出一個4096的向量,最后把提取到的向量數(shù)據(jù)在向量機中進行分配。但是這樣的方式還是存在很多的不足和弊端,因此Girshick對R-CNN和SPP-net進行了進一步的改進,圖像進行一次卷積在特征圖上進行映射送入Rol池化層,最后通過全連接層輸出。同一幅畫像的Rol共同相同計算機的內存效率更加高。通過softmax 的分類不僅省去特征的存儲還提高了利用率。近年來,kin等人又提出了PVANET網(wǎng)絡,數(shù)據(jù)的檢測精準度達到了82.5%,在確保精準度的情況下還能使通道數(shù)減少,可以增加對細節(jié)的提取。
圖二,R-NN的計算流程
早期還提出過無區(qū)域建議的方式,例如,DPM模型可以在目標的內部進行結構化的建模,不僅提高了檢測的性能,也能很好地適應非剛體的形變。但是DPM模型的構建條件復雜,模型訓練也比較繁瑣,所以sermanet又進行研究提出了Overfeat的模型,避免圖像塊的操作出錯,也能提高算法的效率。但是關于尺寸的識別還是存在著一定的問題,因此無區(qū)域建議還在不斷的探索過程中。redmom提出了關于改進yolo模型的方法,成為yolov2,可以確保精準度和定位,提升了檢測率。專家們還研制出一種新的訓練算法,用數(shù)據(jù)來找到物體的準確定位,yolo模型通過這樣的方式課題檢測超過九千種物體[2]。
四、結束語
未來深度學習在目標視覺檢測中都會得到繼續(xù)的應用和進展,深度學習在目標視覺測試中依舊是主流的方向。深度學習通過它的優(yōu)勢可以獲得高層次抽象的表達。但是深度學習的理論還不是特別的完善,模型的可解釋性還不夠強。因此深度學習模式還需要得到進一步的改進和完善,對模型的結構,訓練等多加指導。大規(guī)模多樣性數(shù)據(jù)集也比較匱乏,現(xiàn)在很多的目標視覺檢測都在imagenet上進行訓練,但是目標檢測技術還需要進一步的完善和提高,達到最好的效果。深度學習在目標視覺檢測技術中的應用還不夠完善,任重而道遠,還需要進一步的完善理論提高精準度。在未來,深度學習和目標視覺檢測一定能夠得到極大的進展。
參考文獻
篇7
關鍵詞:人工智能;引擎;大數(shù)據(jù);CPU;FPGA
DOI:10.3969/j.jssn.1005-5517-2017-2.006
1 2016年人工智能迎來了春天
2016年人工智能(A1)進入了第三個。2016年3月9-15日,谷歌AlphaGo(阿爾法狗)以4:1的成績擊敗世界圍棋冠軍李世石職業(yè)九段,意義非常重大。因為過去機器主要做感知,現(xiàn)在出現(xiàn)了認知,這是人工智能的關鍵所在。
8個月后,2016年12月29日~2017年1月4日,AlphaGo的升級版――谷歌Master(大師)在30秒快棋網(wǎng)測中,以60勝0負1和的成績,橫掃柯潔、古力、聶衛(wèi)平、樸廷桓、井山裕太等數(shù)十位中日韓世界冠軍與頂級高手。從此以后,也許人類以后就沒有和Master進行圍棋比賽的機會了!除了圍棋,人工智能下一步將在國際象棋、中國象棋等棋類方面發(fā)展。
撲克牌方面,專家水平的人工智能首次戰(zhàn)勝一對一無限注德州撲克人類職業(yè)玩家,而且DeepStack讓機器擁有知覺。
人工智能還能玩游戲。其意義很重大,平時環(huán)境中很難得到一些數(shù)據(jù),因為游戲相當于虛擬社會,例如“星際爭霸2”是復雜的虛擬社會,如果人工智能在這個虛擬社會中能戰(zhàn)勝人,這將是非常了不起的,未來可涉及到高級決策,在軍事上很有用處。2016年11月5日,谷歌DeepMind宣布與暴雪合作開發(fā)人工智能,挑戰(zhàn)實時戰(zhàn)略視頻游戲“星際爭霸2”。這件事情的意義非常重大。下一步可以用于軍事上的高級戰(zhàn)略決策。
無人駕駛方面,2016年11月15日,“在第三屆世界互聯(lián)網(wǎng)大會”期間,18輛百度“云驍”亮相烏鎮(zhèn)子夜路,在3.16公里的開放城區(qū)道路上自主行駛。2016年特斯拉Autopilot 2.0問世,該軟件只需要八千美元,就可讓軟件駕駛汽車。所有特斯拉新車將安裝“具有完全自動駕駛功能”的該硬件系統(tǒng),并可通過OTA(空中下載技術)進行軟件升級;自動駕駛功能從L2(二級,半無人駕駛)直接跳躍到L4/L5();2017年底之前,特斯拉車將以完全自動駕駛模式從洛杉磯開往紐約。Uber提出在城區(qū)大范圍無人駕駛出租車試運行,Uber 2016年9月14日在美國匹茲堡市推出城區(qū)大范圍無人駕駛出租車免費載客服務并試運行,先期已測試近2年,說明無人駕駛真正落地了。
為何無人駕駛很重要?因為人工智能是無人駕駛的核心。除了百度、特斯拉、Uber,谷歌Waymo也在做自動駕駛測試。此外,沃爾沃、福特、寶馬、百度、英特爾等全球約20多家企業(yè)公開宣布,4年以后的2021年將會是無人駕駛/自動駕駛元年,部分5AE L4車將會實現(xiàn)量產(chǎn)。
計算機視覺
針對ImageNet ILSVRC測試比賽的1 000種物體識別,Deep CNN超過了人類的識別能力。人是5.1%(如圖1),2016年2月23日谷歌人工識別的評測是3.08%。ImageNetILSVRC中有1000種物體,例如猴子、馬、飛機、坦克等約1500萬張照片、包含2.2萬類種不同物體。深度學習一般能做到52層,極深度學習(very deep lea rning)現(xiàn)在已經(jīng)做到1000層。
在ILSVRC 2016國際評測中,包括視覺物體檢測、視覺物體定位、視頻物體檢測、場景分類、場景解析等性能均有提高。值得一提的是,在此次大會上,中國團隊大放異彩,幾乎包攬了各個項目的冠軍(圖2)。
人工智能語義分割
基于全卷積神經(jīng)網(wǎng)絡FCN的路面/場景像素級語義分割取得重要進展。為此,我們可以分割大部分道路。
人工智能唇語專家
看電視時把聲音關掉,靠嘴唇說話的變化來識別談話內容,這種能力機器識別率已經(jīng)超過人類。例如2016年12月,英國牛津大學與谷歌DeepMind等研發(fā)的自動唇讀系統(tǒng)LipNet,對GRID語料庫實現(xiàn)了95.2%的準確率;對BBC電視節(jié)目嘉賓進行唇語解讀,準確率為46.8%,遠遠超過專業(yè)的人類唇語專家(僅為12.4%)。
人工智能人臉識別
人臉識別可以達到產(chǎn)品級別,例如支付寶的刷臉成功率超過了人類。如圖3,人的水平為97.40,百度為99.77。因此可以進行產(chǎn)品體驗。2017年1月6日,百度人工智能機器人“小度”利用其超強人類識別能力,以3:2險勝人類最強大腦代表王峰。
語音識別
目前的社交新媒體和互動平臺中,Al虛擬助手和Al聊天機器人正在崛起。一天,美國GIT(佐治亞理工大學)的一個課堂上來了一位助教,教師講完課后說:“大家有問題就問助教吧”。這位助教原來是個會眨眼睛的機器人!這時學生們才知道每天網(wǎng)上給他們答疑解惑的是人工智能,此前學生們也感到很吃驚,這位助教非常敬業(yè),晚上還在發(fā)Email。
人工智能語音合成
指從文本聲音到真實聲音,可以自動翻譯成英文。2016年9月19日,谷歌DeepMind推出WaveNet,實現(xiàn)文本到美式英語或中國普通話的真實感語音合成。
人工智能速記員
包括語音識別和NLP(自然語言處理)。2016年10月17日,微軟的語音識別系統(tǒng)實現(xiàn)了5.9%的詞錯率(WER),媲美人類專業(yè)速記員,且錯誤率更低;中國科大訊飛也有語音輸入法。
人工智能翻譯
中國人往往從小學到讀博士都在學英語?,F(xiàn)在,谷歌、微軟和百度等公司在做人工智能翻譯。以谷歌為例,2016年9月27日,谷歌的神經(jīng)機器翻譯系統(tǒng)(GNMT)實現(xiàn)了多語種翻譯,較之傳統(tǒng)方法,英譯西班牙翻譯錯誤率下降了87%,英譯漢下降了58%,漢譯英下降了60%,已接近人工翻譯的水平。也許今后學外語沒那么重要了,人們可戴著耳機,耳機能直接翻譯成各語言。
人工智能對抗訓練
Goodfellow(2014)提出的生成式對抗網(wǎng)絡(GAN),為半監(jiān)督學習/舉一反三式的學習發(fā)展提供新思路,2016年發(fā)展迅速。目前是監(jiān)督式學習,需要依靠大數(shù)據(jù),因此大數(shù)據(jù)需要非常完備。而人是舉一反三式的學習。例如人沒有見過飛機,看過幾張照片就可以把世界上所有飛機都認出;目前的大數(shù)據(jù)驅動的深度學習方式,是把世界上所有飛機照片都看過才行?,F(xiàn)在進行舉一反三的半監(jiān)督或無監(jiān)督式學習,思路是采用對抗的方法,一個網(wǎng)絡造假,另一網(wǎng)絡鑒別照片是真是假,通過對抗式的學習來共同進步(如圖4)。
人工智能引擎
芯片三巨頭
英特爾、英偉達和高通全部轉到了人工智能上。為此英偉達的股票漲了幾倍。英特爾也在大搞人工智能。高通為了進入人工智能領域,收購了恩智浦,恩智浦此前收購了飛思卡爾。
現(xiàn)在出現(xiàn)了基于超級GPU/TPU集群的離線訓練,采用超級GPU/TPu集群服務器,例如英偉達的深度學習芯片Tesla P100及DGX-1深度學習計算機,谷歌數(shù)據(jù)中心的TPU。
終端應用采用GPU/FPGA-based DPU,例如英特爾Apollo Lake A3900的“智能互聯(lián)駕駛艙平臺”,高通驍龍的820A處理器。
通用人工智能與認知智能
1997年,lBM的超級電腦程序“深藍”擊敗國際象棋大師加里?卡斯帕羅夫;2011年2月,IBM的自動問答系統(tǒng)在美國最受歡迎的智力競答電視節(jié)目“危險邊緣”中戰(zhàn)勝了人類冠軍:IBM的沃森醫(yī)生在某些細分疾病領域已能提供頂級醫(yī)生的醫(yī)療診斷水平,例如胃癌診斷。
可見,1.AlphaGo和Master等已可橫掃人類圍棋職業(yè)頂尖高手,下一步,將能下中國象棋等所有棋類,此外還可以打牌、炒股等,即什么都可以干,是強人工智能。2.人工智能已成為無人駕駛汽車商業(yè)落地的關鍵。3.視覺物體識別、人臉識別、唇語識別等在許多國際公開評測中,達到或超過人類的水平;4.速記等語音識別已可媲美人類;5.包括神經(jīng)機器翻譯在內的自然語言處理,性能也大幅度提升;6.生成式對抗網(wǎng)絡得到極大關注。
目前,發(fā)展通用人工智能成為普遍共識。
2 社會極大關注
未來,可能很多工作就會消失了。
人工智能引起社會的極大關注和熱議,人工智能發(fā)展很快;而且人工智能的學習速度快,很勤奮,未來可以達到人類所有的智能,這時到達了從強人工智能到超越人工智能的奇點;人工智能有超越人類智能的可能;理論上,人工智能還可以永生。
這也引起了很多人們的擔憂。奇點到來、強人工智能、超人工智能、意識永生、人類滅絕等聳人聽聞的觀點出現(xiàn),引起包括霍金、蓋茨和馬斯克等在內的世界名人對人工智能發(fā)展的擔憂。在每年的世界人工智能大會上,專門有一個論壇探討人工智能與法律、倫理及人類未來的會場。
現(xiàn)在,人工智能工業(yè)的OpenAI成立。
2016年全社會對人工智能的極大關注,可能是2016年AI的最大進展!
在半監(jiān)督/無監(jiān)督學習、通用人工智能方面,人工智能具有舉一反三,并有常識、經(jīng)驗、記憶、知識學習、推理、規(guī)劃、決策,甚至還有動機。這最后一點有點恐怖,人是有意識和動機的,機器做事也有動機,太可怕了。
智能學習進步很快,AIpha Go八個月后就可以戰(zhàn)勝所有圍棋手,因為它能每天24小時學習、不吃不喝地學習,比人強多了。
因此,在經(jīng)歷了60年“三起兩落”的發(fā)展后,以深度學習為主要標志的人工智能正迎來第3次偉大復興,這次引起社會尤其是產(chǎn)業(yè)界高強度的關注。因為上世紀60年代和80年代,人工智能沒有達到這樣的水平。
硅谷精神教父、預言家凱文?凱利說,未來人工智能會成為一種如同電力一樣的基礎服務。斯坦福大學推出了“人工智能百年研究”首份報告――《2030年的人工智能與生活》。
3人工智能上升為國家發(fā)展戰(zhàn)略
有人認為第四次工業(yè)革命即將由人工智能與機器人等引爆。英國政府認為,人工智能有望像19世紀的蒸汽機革命那樣徹底改變我們的生活,甚至人工智能給人類社會帶來的變革與影響,有可能遠遠超過蒸汽機、電力和互聯(lián)網(wǎng)帶來的前三次工業(yè)革命。
智能制造、無人駕駛汽車、消費類智能機器人、虛擬助手、聊天機器人、智能金融、智能醫(yī)療、智能新聞寫作、智能律師、智慧城市等可能被人工智能代替。人工智能將無處不在,可望替換人類的部分腦力勞動,一些職業(yè)會被取代或補充,一些新的行業(yè)又會誕生,例如18世紀出現(xiàn)了紡織工人,之后汽車代替了馬車等。因此,我們將經(jīng)歷從“互聯(lián)網(wǎng)+”到“人工智能+”。
中國“互聯(lián)網(wǎng)+”與“中國制造2025”國家發(fā)展戰(zhàn)略的實施,對人工智能的巨大需求在迅速增長。未來2-5年,人工智能應用與產(chǎn)業(yè)發(fā)展將迎來爆發(fā)期。
中國政府在《“互聯(lián)網(wǎng)+”人工智能3年行動實施方案》提出:計劃在2018年形成千億級人工智能產(chǎn)業(yè)應用規(guī)模。201 7年1月10日,科技部部長萬鋼稱,將編制完成人工智能專項規(guī)劃,加快推進人工智能等重大項目的立項論證。
美國政府在2016年10月13日出臺了《為人工智能的未來做好準備》的報告,提出了23條建議措施。同一天,美國政府又出臺了《國家人工智能研發(fā)戰(zhàn)略規(guī)劃》,提出了7大重點戰(zhàn)略方向。美國參議院于2016年11月30日召開了關于人工智能的首次國會聽證會,主題是“人工智能的黎明”,認為中國是對美國人工智能全球領導地位的一個真正威脅。在2016年12月20日美國白宮了《人工智能、自動化與經(jīng)濟》報告,考察了人工智能驅動的自動化將會給經(jīng)濟帶來的影響,并提出了國家的三大應對策略方向。可見,奧巴馬把人工智能看作其政治遺產(chǎn)之一(注:另一個是Cyber空間)。
英國政府2016年12月了《人工智能:未來決策的機遇與影響》的報告,關注人工智能對社會創(chuàng)新與生產(chǎn)力的促進作用,論述如何利用英國人工智能的獨特優(yōu)勢,增強英國國力。
日本政府2017年開始,要讓人工智能與機器人推動第四次工業(yè)革命。
4 我國對策
應以深度卷積神經(jīng)網(wǎng)絡為核心,全面開展計算機視覺、語音識別和自然語言等人工智能產(chǎn)品的開發(fā)與大規(guī)模產(chǎn)業(yè)化應用。這需要大數(shù)據(jù)、計算平臺/計算引擎、人工智能算法、應用場景等飛速發(fā)展,另外還需要資源、資金、人才。在方法上,選定垂直細分領域最重要。
面向若干細分垂直領域,建立大數(shù)據(jù)中心。實現(xiàn)大數(shù)據(jù)采集、清洗、標簽、存儲、管理與交易,建立大數(shù)據(jù)源公共基礎設施與垂直領域知識庫。專有大數(shù)據(jù)是人工智能產(chǎn)業(yè)制勝的關鍵和法寶。中國企業(yè)必須開始特別關注大數(shù)據(jù)的采集與利用。其重要性如同原油―樣,跨國企業(yè)視之為戰(zhàn)略資源!
強力開展人工智能芯片與硬件平臺的研發(fā)。包括基于FPGA的深度學習芯片;類腦芯片與憶阻器件;建立國家級人工智能超算中心。
篇8
本文結合計算機行業(yè)的發(fā)展,對計算機網(wǎng)絡云計算技術進行了分析研究,希望能為計算機技術的進步提供一定的理論支持。
一、計算機網(wǎng)絡的云計算技術概念
美國的網(wǎng)絡公司最早提出計算機網(wǎng)絡云計算技術的概念,隨著科學的進步與發(fā)展已經(jīng)逐漸成為了一門成熟的技術,有著豐富的理論基礎與實踐經(jīng)驗。現(xiàn)在的“云計算”技術是指能將網(wǎng)絡、硬件、設備相融合,同時實現(xiàn)規(guī)模性、安全性、虛擬性的技術。目前來看,對計算機網(wǎng)絡云計算的定義還沒有統(tǒng)一的趨勢,每一名研究人員都有自己的研究與看法,通過研究與分析,本文對云計算的觀點是:首先,每一個“云”都是獨立的計算機分布體系,基于網(wǎng)絡化、虛擬化的計算機服務層,與計算機中的資源保持一定的節(jié)奏,實現(xiàn)計算機資源的同步。其次,計算機網(wǎng)絡云是一個綜合體,并非是獨立的,計算機軟件的開發(fā)中離不開云計算的環(huán)節(jié),其重點就是網(wǎng)絡云計算特征的研究。對于計算機網(wǎng)絡的使用者來說,計算機集成軟件層面,能被接受與理解的就是云計算,在本文重點突出的就是云計算的屬性。最后,計算機網(wǎng)絡的使用者沒有進行長期的規(guī)劃后使用,很容易出現(xiàn)浪費現(xiàn)象,目前的云計算技術可以實現(xiàn)分或秒內的數(shù)據(jù)計算,可以很好地避免資源過載或資源浪費現(xiàn)象。
通過研究可以看出,計算機網(wǎng)絡云計算技術可以定義成計算機網(wǎng)絡中進行的某種服務形式,其中相關的硬件設施與軟件系統(tǒng)統(tǒng)稱為計算機網(wǎng)絡云計算。定義中包括網(wǎng)絡計算機、超級計算機、集成技術等,相關的技術既有區(qū)別又有聯(lián)系。計算機網(wǎng)絡云計算技術的原理是:大量的數(shù)據(jù)分布于分布式計算機中,同時保證用戶的數(shù)據(jù)系統(tǒng)與計算機同步運行,進而實現(xiàn)及時將需要的資源切換到相應的應用中,根據(jù)使用者的訪問需求進行存儲系統(tǒng)與計算機系統(tǒng)的定位。計算機網(wǎng)絡云計算技術可以基于用戶服務需求及時提供所需的網(wǎng)絡信息資源。計算機網(wǎng)絡云計算技術適應性強,彈性好,專業(yè)技術性高,發(fā)展前景十分好,應用越來越廣泛。
二、計算機網(wǎng)絡云計算技術的分類
基于多樣化的標準,計算機云計算的分類也有多種方式。比較常見的是:根據(jù)服務方式的不同,云計算可以分為私有云和公有云。私有云是根據(jù)用戶的自身情況進行獨立使用,同時建立平臺,操作性與實用性十分好。公有云是ζ淥用戶的資源進行開發(fā)利用。在選擇私有云與公有云時,應該考慮的主要因素是:
1.服務的延續(xù)性
大部分情況下,公有云提供的服務容易受外界影響,如網(wǎng)絡故障等情況,而私有云則不會出現(xiàn)這種問題。
2.數(shù)據(jù)安全性
如果對于穩(wěn)定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對于計算資源要求不高可以選用公有云,如果對于計算資源要求較高則比較適合建立自己的私有云平臺。
4.監(jiān)控能力
公有云可以將使用用戶對系統(tǒng)的監(jiān)控能力屏蔽起來,這對于金融保險投資行業(yè)是十分有必要的。
三、計算機網(wǎng)絡云計算技術的實現(xiàn)
為了將計算機系統(tǒng)的系統(tǒng)處理過程進行簡化,通常將該過程劃分為預處理過程與功能實現(xiàn)過程兩大部分。對系統(tǒng)的各項功能進行分解,得到一些不需要進行功能實現(xiàn)過程與預處理過程的功能。對于可以進行預先處理過程的功能通常是一次性處理,在執(zhí)行過程中,可以將預處理過程得到的結果直接使用,以此完成特點的系統(tǒng)功能。該方法與原則的采用,極大地簡化了系統(tǒng),大幅度提高了系統(tǒng)運行效率。計算的云化中的系統(tǒng)就是計算云化系統(tǒng),它的計算量十分巨大,系統(tǒng)計算運行效率極高。但因為計算云化系統(tǒng)為一次處理系統(tǒng),只要計算云規(guī)則生成,計算云化系統(tǒng)的使命與任務也就完成,而不是在對計算機加以應用時需要該系統(tǒng)。通常在計算機網(wǎng)絡云計算中形成的系統(tǒng)就是云計算系統(tǒng),是一個十分簡單的系統(tǒng),對計算機的處理能力沒有過高要求,同時應用于各類計算機系統(tǒng)計算中。
四、計算機網(wǎng)絡云計算的計算與優(yōu)勢
建立計算機網(wǎng)絡云計算過程的第一步是服務器架構的建立,其對計算機網(wǎng)絡云計算技術中的IAAS部分進行充當。目前來看,仍沒有關于網(wǎng)絡云計算服務器架構的專門、統(tǒng)一的標準出現(xiàn),這需要一定的相關技術進行支持,例如計算區(qū)域網(wǎng)SAN和附網(wǎng)NAS等,這都是應用比較多的服務器架構技術。NAS文件計算系統(tǒng)是松散結構型的集群,它的架構有很明顯的分布式特征。NAS文件系統(tǒng)集群中的各個節(jié)點具有互補與相互影響的特點,文件是最小的單位,因為只要在集群存儲文件就可以計算出文件的數(shù)據(jù)信息,直接減少了很多計算的冗余性。它的拓展性很高,同時成本較低,安全控制系統(tǒng)安全穩(wěn)定。如果客戶發(fā)出過多的請求,NAS系統(tǒng)的限制就表現(xiàn)出來,二級計算就可以通過NAS的云服務完成。
SAN是一種緊密結合類型的集群,在集群中存儲文件之后,可以分解成很多個數(shù)據(jù)塊。相比于集群之中的節(jié)點,各數(shù)據(jù)塊之間能夠進行相互訪問。節(jié)點可以借助于訪問文件間的數(shù)據(jù)塊針對客戶的請求進行處理。SAN系統(tǒng)之中可以通過節(jié)點數(shù)量增減來響應請求,同時提升界定本身的性能。為了能夠將以SAN為基礎的OBS發(fā)展起來,就需要更好的性能與更低的成本。而SAN計算建構的硬件價格十分高,同時依托于SAN的服務價格,因此可以適當?shù)亟档鸵幌滦阅?,保證更好的性能與更低的成本。
五、實例――基于谷歌云計算技術的AlphaGo亮點分析
AlphaGo通過谷歌云計算技術,擁有與人類棋手類似的“棋感”,其技術遠勝于1997年IBM公司研制的超級電腦“深藍”?!吧钏{”面對的是相對圍棋簡單多的國際象棋,設計理念為根據(jù)棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計算技術,可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運算能力都集中在“棋感策略”網(wǎng)絡中最有可能的情況上。其背后的深層算法,具備三大亮點:(1)深度卷積神經(jīng)網(wǎng)絡學習技術:“棋感策略”網(wǎng)絡的本質學習人類圍棋大師走法思維。AlphaGo藉此擁有強大的盤面評估能力。(2)增強學習算法技術:此算法可通過自我對弈來持續(xù)提升AlhpaGo的棋感策略和盤面評估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術:“評價網(wǎng)絡”的核心,可以融合棋感策略和盤面評估能力,修正落子選擇而最終給出落子方案。
六、計算機網(wǎng)絡云計算技術發(fā)展遇到的問題
在目前計算機網(wǎng)絡云計算技術廣泛地運用到各個領域的過程中,云計算技術也存在一些缺陷與不足還需要引起我們的重視,同時在云計算的應用過程中應采用足夠的措施來對數(shù)據(jù)信息的安全性進行可靠的保障,這是計算機網(wǎng)絡云計算技術發(fā)展過程中十分重要的一項課題。現(xiàn)在的大部分云端是通過瀏覽器進行接入的,瀏覽器是計算機系統(tǒng)中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時,用戶證書與認證密鑰特別容易因為瀏覽器漏洞而產(chǎn)生泄密。同時由于不同的應用都需要在云端中進行認證,這就需要保證認證機制的高效性與安全性。在應用服務層之中,應該采取安全有效的措施來保護用書的隱私安全,在基礎設施層中要采取安全可靠的方法保C數(shù)據(jù)的安全性。
七、采取措施保障網(wǎng)民數(shù)據(jù)安全
如果數(shù)據(jù)的安全不能得到保障,就會對云計算的發(fā)展產(chǎn)生不利影響,所以為了能夠保障網(wǎng)民數(shù)據(jù)的安全。就需要采取切實可行的手段來保證數(shù)據(jù)的安全性。
1.隔離操作系統(tǒng)與數(shù)據(jù)
為了能夠切實有效地保障網(wǎng)民信息的安全,就需要充分使用Hypervisor,從而將網(wǎng)民的操作系統(tǒng)與數(shù)據(jù)資源隔離起來,從而有效地保證了計算資源的安全性,避免了網(wǎng)民操作系統(tǒng)所帶來的可能的不利影響。
2.重置API保護層
服務商提供給用戶API,用戶根據(jù)需要進行應用。但同時第三方也有可能對這些API進行使用。為了保證數(shù)據(jù)的安全性,就需要你安裝API保護層,重疊保護API。
3.嚴格身份認證
服務商應嚴格的執(zhí)行身份認證,防范冒充網(wǎng)民身份的行為,加強對賬號與密碼的管理控制,確保網(wǎng)民只訪問自己的程序與數(shù)據(jù),從而保證數(shù)據(jù)資源的安全性。
篇9
【摘要】 為了實現(xiàn)人體器官的三維重建,如何準確、有效地提取二維醫(yī)學圖像的邊緣成了首要解決的問題。我們提出一種新的圖像邊緣提取方法,該方法先將原始CT圖像二值化,然后利用數(shù)學形態(tài)運算對二值化圖像進行預處理,最后利用Canny算子提取圖像邊緣。通過腎臟CT圖像邊緣提取結果表明,該方法簡單、高效、性能優(yōu)越。
【關鍵詞】 CT圖像;邊緣提?。粩?shù)學形態(tài)學;Canny算子
Research on the Edge Extraction of CT ImageZHANG Xiaoping,ZHU Zhisong,WANG Junze
(Nantong Univirsity, Nantong 226019, China)
Abstract:To reconstruct the body organs in 3-D, how to extract the edges from 2-D medical images accurately and effectively has benen the primarily problem. Therefore, a new method of edge extraction was introduced in this paper. The original CT image was binarized firstly and then preprocessed by mathematical morphology operating. Finally, the image edge was extracted by the Canny algorithm. The results of kidney CT image edge extraction show that the method is simple, efficient and superior performance.
Key words:CT image;Edge extraction;Mathematical morphology;Canny algorithm
1 引 言
隨著計算機技術、CT(計算機斷層掃描)、MRI(核磁共振)等醫(yī)學影像技術的不斷發(fā)展,虛擬現(xiàn)實技術也越來越多地應用到現(xiàn)代醫(yī)療領域。利用計算機圖像處理和數(shù)據(jù)可視化技術,根據(jù)醫(yī)學影像設備提供的二維斷層圖像,進行人體器官的三維重建已是現(xiàn)代醫(yī)學重要發(fā)展方向之一。腎臟疾病的外科手術是泌尿外科中的一個重點和難點,因此,根據(jù)CT二維圖像重構腎臟及其周圍結構的三維模型,有助于醫(yī)生選擇最佳手術路線、減少手術損傷、提高手術成功率[1]。CT二維圖像的邊緣提取作為器官三維重構的第一步,一直受到國內外學者的關注,提出了眾多的邊緣檢測算法,如小波變換法、神經(jīng)網(wǎng)絡法、模糊技術法等[2]。近幾年,隨著數(shù)學形態(tài)學理論的不斷完善與發(fā)展,數(shù)學形態(tài)學在圖像邊緣檢測中得到了廣泛的應用[3-5]。本研究正是在數(shù)學形態(tài)學的基礎上,結合Canny算子,以腎臟為例,進行了CT圖像的邊緣提取。
2 數(shù)學形態(tài)學在圖像預處理中的運用
數(shù)學形態(tài)學是一門新興的、以形態(tài)為基礎對圖像進行分析的學科。它利用具有一定結構和特征的結構元素對圖像進行匹配,以實現(xiàn)對圖像的分析和識別,在去除噪聲、邊緣檢測等圖像預處理問題中有著明顯的優(yōu)勢[6]。數(shù)學形態(tài)學定義了兩種基本變換,即膨脹(Dilation)和腐蝕(Erision)。首先介紹其定義[7]:設F是原始圖像,B是結構元素,膨脹運算定義為:
D(F)=FB={(x,y)/Bxy∩F≠Φ}(1)
即B對F膨脹產(chǎn)生的二值圖像D(F)是由這樣的點(x,y)組成的集合,若圖B的原點位移至(x,y),那么它與F的交集非空。
腐蝕運算定義為:
E(F)=FΘB={(x,y)/BxyF}(2)
即B對F腐蝕產(chǎn)生的二值圖像E(F)是由這樣的點(x,y)組成的集合,若圖B的原點位移至(x,y),那么B將完全包含于F。
由上述兩種基本運算可以復合得到開啟、閉合變換。
開啟是對圖像先腐蝕后膨脹的過程,F(xiàn)用B來開啟,其數(shù)學表達式可記為:
F·B=(FΘB)B(3)
閉合是對圖像先膨脹后腐蝕的過程,F(xiàn)用B來閉合,其數(shù)學表達式可記為:
F·B=(FB)ΘB(4)
上述4種運算中,膨脹可以填充圖像中的小孔及圖像邊緣上小的凹陷部分;腐蝕可以消除圖像中細小的成分;開啟則具有消除細小物體、在纖細處分離物體和平滑較大物體邊界的作用;閉合則具有填充物體內細小孔洞、連接臨近物體和平滑邊界的作用。
利用數(shù)學形態(tài)學進行圖像預處理時,選擇簡單、表現(xiàn)力強的結構元素是關鍵,是形態(tài)變換中最重要的參數(shù);其次,還要綜合考慮目標體的清晰度和噪聲的大小來選取結構元素的大?。?]。一般目標體輪廓不清晰時,選擇較小的結構元素;噪聲顆粒較大時,選擇較大的結構元素。
3 Canny算子的邊緣檢測原理
經(jīng)過數(shù)學形態(tài)變換之后,圖像的邊緣將變得清晰、突出,此時,圖像的邊界信息可以被方便地提取出來。傳統(tǒng)的算法有Sobel、 Prowitt 、Robert、Canny算子等[9]。在眾多的算子中,Canny算子因其具有高信噪比、高定位精度及單邊緣響應等優(yōu)良性能[10],在許多圖像處理領域得到應用。本研究也正是采用該算法提取腎臟CT圖像邊緣。
Canny算子的基本思想是采用二維高斯函數(shù)的任意方向上的一階方向導數(shù)為噪聲濾波器,通過與圖像卷積進行濾波,然后對濾波后的圖像尋找局部梯度最大值,以此來確定圖像邊緣[11]。其數(shù)學描述如下:
3.1 用高斯濾波器平滑圖像
二維高斯濾波函數(shù)為:
G(x,y)=12πσ2exp(-x2+y2〖〗2σ2)(5)
在某一方向n上G(x, y)的一階導數(shù)為:
Gn=Gn=nG(6)
式6中n是方向矢量,n=cosθ
sinθ,
G是梯度矢量,G=Gx
Gy。
將圖像{F|f(x,y)}與Gn 作卷積,改變n的方向,Gn×f(x,y)取得最大值時的n,就是正交于檢測邊緣的方向。
3.2 梯度的幅值和方向計算
用一階偏導的有限差分來計算梯度的幅值和方向。
Ex=Gx×f(x,y) Ey=Gy×f(x,y)
A(x,y)=Ex2+Ey2 Φ=Arctan(ExEy)(7)
A(x,y)反映了圖像(x,y)點處的邊緣強度,Φ是圖像(x,y)點處的法向矢量。
3.3 對梯度幅值進行非極大值抑制
為確定圖像邊緣,必須保留局部梯度最大的點,而抑制非極大值。若圖像F上(x,y)點處的梯度幅值A(x,y)小于沿著梯度線方向上的相鄰像素點的邊緣強度,則認為該點為非邊緣點,將A(x,y)置為0。
3.4 用雙閾值法檢測和連接邊緣
設定兩個閾值t1和t2(t2>t1)。凡邊緣強度>t2者,則一定是邊緣點;凡邊緣強度t2的點,若有,則補為邊緣點,若沒有,則不是邊緣點。用t1、t2兩個閾值對非極大值抑制圖像進行雙閾值化,可得兩個檢測結果,分別記為T1和T2。圖像T2閾值較高,所以噪聲較少,但會造成邊緣信息的損失;圖像T1閾值較低,則保留了較多信息。于是以圖像T2為基礎,以圖像T1為補充,連接圖像的邊緣。
由此可見,Canny算子是既能去除噪聲又能保留邊緣特性的邊緣檢測一階微分算法的最佳方法。
4 應用實例
本研究在Matlab6.5軟件平臺上,以某醫(yī)院一患者的腎臟CT斷層圖像為例,提取了其中右腎的邊緣輪廓,具體實施步驟如下:
4.1 圖像二值化
CT圖像是灰度圖像,為了更好的形態(tài)運算和邊緣檢測,首先進行二值化處理,即把灰度圖像轉變成由0、1 組成的矩陣所表示的圖像。圖1為原始CT圖像,圖2是二值化圖像。在本次實驗中,二值化閾值為0.8。實驗過程中發(fā)現(xiàn),該方法簡單、高效,且丟失的信息也很少。
4.2 數(shù)學形態(tài)學處理
由圖2可見,圖像存在著一些空腔、毛刺、邊緣凹陷等現(xiàn)象,要進行邊緣檢測,還需經(jīng)過進一步處理,通過本研究介紹的數(shù)學形態(tài)運算即可完成。
所求邊緣是腎臟外圍輪廓,首先需要填充圖像中的空腔和邊緣凹陷。對此,可采用imclose函數(shù)進行閉合運算,即進行先膨脹后腐蝕,其中結構元素為5×5圓形結構元素,結果見圖3。由圖3可見,經(jīng)過閉合運算后,圖像中還存在一些小短枝和孤立斑點,這些也必須剔除,否則,將影響邊緣提取效果。對此,可采用imopen函數(shù)進行開啟變換實現(xiàn),即先腐蝕后膨脹。針對小短枝和孤立斑點,無法用同一種結構元素去剔除,所以必須分兩步:首先選用3×3矩形結構元素執(zhí)行開啟變換,去除小短枝像素,結果見圖4;然后用3×3菱形結構元素再次執(zhí)行開啟變換,去除孤立斑點,結果見圖5。
4.3 Canny算子提取邊緣
經(jīng)過上述處理,腎臟圖像邊緣已經(jīng)逐漸清晰、突出,此時利用Canny算子即可提取其邊界信息,如圖6所示,本次實驗中,邊緣強度閾值t1為0.0063,t2為0.0156 。圖6基本無失真地描述了邊界信息。提取圖6中各邊界點的坐標,即可獲得重構的邊界圖形,見圖7。對腎臟各層CT圖像進行上述運算后,經(jīng)過插值處理,即可進行該器官的三維重構。
5 結束語
本研究從實用性的角度出發(fā),闡述了利用數(shù)學形態(tài)學和Canny算子進行腎臟CT斷層圖像邊緣提取的方法和步驟。實驗證明該方法簡單、快速、精度高、適用性強,為醫(yī)學圖像的三維重建和虛擬手術技術的研究奠定了良好的基礎。
參考文獻
[1]王洛夫, 張紹祥,江軍,等.腎臟及其周圍結構的三維可視化研究[J].第三軍醫(yī)大學學報,2004,26 ( 6 ): 537-539.
[2]張小琳.圖像邊緣檢測技術綜述[J].高能量密度物理,2007,(1):37-40.
[3]Bai X Z, Zhou F. Edge detection based on mathematicalmorphology and iterative thresholding[A].International conference on computational intelligence and Security[C]. NY: IEEE, 2006.1849-1852.
[4]Serra J. Image analysis and mathematical morphology[M].New York: Academic Press,1982.
[5]Huang C-P,Wang R-Z.An intergrated edge detection method using mathematical morphology[J].Pattern Recgnition and Image Analysis,2006,16(3):406-412.
[6]陳虎,王守尊,周朝輝.基于數(shù)學形態(tài)學的圖像邊緣檢測方法研究[J].工程圖學學報,2004,(2):112-115.
[7]崔屹.圖像處理與分析-數(shù)學形態(tài)學方法及應用 [M].北京:科學出版社,2000.
[8]Li Z H,Yang Y P,Jiang W.Multi-scale morphologictracking approach for edge detection[A].The 4th International conference on image and graphics[C]. NY: IEEE,2007.358-362.
[9]馬艷, 張治輝.幾種邊緣檢測算子的比較[J].工礦自動化,2004(2): 54-56.
篇10
關鍵詞:文本生成圖像;對抗生成網(wǎng)絡(GAN);美觀度評判;StackGAN++;美學損失
基于給定文本生成對應圖像是計算機視覺領域一項經(jīng)典且富有挑戰(zhàn)性的任務,顧名思義,即給出一句描述確定內容的文本(可描述某件物體或某個場景環(huán)境),通過一定架構的模型生成與文本內容相對應的圖像,使其盡可能做到逼近現(xiàn)實,能夠迷惑人眼的識別或一些模型的判斷。該任務需要在理解文本含義的基礎上,根據(jù)文本的內容構建出合理的像素分布,形成一幅完整的、真實的圖片。因為給出的文本所包含的信息量在通常情況下都遠少于其所對應生成的圖像(文本通常只對圖像中主體部分大致進行了描述,圖像則還包含主體所處背景、圖像全局特征等額外信息),所以一句給定的文本可能會對應許多符合其描述的圖像結果,這是文本生成圖像任務的難點所在[1]。在如今生活、制造等多方面邁向智能化發(fā)展的時期,文本生成圖像這一任務在實際生產(chǎn)生活當中具有非常廣的應用價值和潛力,比如應用于平面廣告設計領域,可以為廣告制作團隊生成廣告用的配圖,從而不必再專門雇用插畫制作人員;家具、日用品生產(chǎn)領域,可以通過給出一段產(chǎn)品描述,利用模型批量生成大量的產(chǎn)品概念圖,從而給設計者提供了可供選擇的樣例空間,降低設計環(huán)節(jié)的工作量。
如今,基于給定文本生成圖像任務的實現(xiàn)都是基于從大量的圖像數(shù)據(jù)中學習并模擬其數(shù)據(jù)的分布形式來生成盡可能接近真實的圖像,尤其在對抗生成網(wǎng)絡(GenerativeAdversarialNetworks,GAN)[2]的火熱發(fā)展下,借助其來實現(xiàn)文本生成圖像的任務已經(jīng)成為了主流選擇,目前也有許多生成效果優(yōu)秀的模型被提出。在這一研究方面,研究者所關注的重點是如何能夠提高生成模型生成圖片的真實性、清晰度、多樣性、解析度等問題,這些將直接影響生成模型的質量和性能,并關系到生成模型能否有效投入到實際應用當中。
然而如果考慮到實際應用,圖像好看,或者有足夠的美觀度也是一項重要的需求。比如為平面廣告設計配圖,對圖像的要求不僅是清晰、真實,還應該擁有較高的美觀度,從而能夠吸引人的眼球,提高廣告的關注度??梢哉f,如果能夠實現(xiàn)提高此類模型生成圖片的美觀度,則在實際應用場景中將會給用戶帶來更加良好的使用體驗,從而提高此類應用的質量。遺憾的是,現(xiàn)在對文本生成圖像GAN的研究很少關注生成圖像的美觀質量,現(xiàn)有文獻中也并未發(fā)現(xiàn)有將美學評判與圖像生成相結合的研究,這成為了本文研究的動機。
由此引出另一個問題:如何評判一幅圖像的美觀度。圖像的美觀度評判實際上是一項帶有主觀性質的任務,每個人因不同的閱歷、審美觀甚至所處環(huán)境、情感狀態(tài)等多方面因素的影響,對同一幅圖像有可能會給出完全不同的評價。然而,面對互聯(lián)網(wǎng)空間與日俱增的圖片數(shù)量,借助人力對其進行美觀度的評價是不切實際的。因此,研究借助計算機進行自動化圖像美觀度評判成為了計算機視覺領域另一項研究課題,至今也有許多研究者提出了實現(xiàn)原理各異且效果優(yōu)良的美觀度評判模型。借助這些模型,可以對目標圖像進行分類或評分,給出盡可能接近符合多數(shù)人評價標準的評判結果。
借此,本文致力于研究從美觀度的角度對文本生成圖像GAN的生成結果進行優(yōu)化的方法。本文的貢獻和創(chuàng)新點如下:
1)從實際應用的角度出發(fā),將生成結果美觀度加入評價文本生成圖像GAN模型生成結果的評價指標,以目前受到較高認可度的文本生成圖像GAN模型——StackGAN++[3]為基礎,從美觀度的角度對其生成結果進行評估,以觀察其生成結果的美觀度質量。
2)將美觀度評判模型融入該GAN的生成模型當中,通過增添美學損失的方式改造生成模型,從而在模型訓練過程中加入美學控制因素,引導模型生成美觀度更高的結果。本文提出的改進方法使得模型生成圖像的總體美學質量(以IS(InceptionScore)為評價指標[4])提高了2.68%,其生成圖像結果整體的美觀度指標提高了3.17%。
1相關工作
1.1美觀度評判模型
隨著網(wǎng)絡空間中圖片數(shù)量的急速增長,在圖片檢索領域為了能夠更好地為用戶甄選返回圖像的質量、給用戶返回更高質量的搜索結果,對圖片按美學質量進行分類的需求逐漸增加。圖片所附帶的數(shù)據(jù)標簽(如喜歡該圖的人的數(shù)量、圖片內容等)可以作為美觀度評價的一類較為有效的標準,但大部分的圖片并不存在類似這樣的標簽,雖然如今有許多研究已能夠做到給圖片準確高效地進行標簽標注[5],然而即使每幅圖片均被標注了足夠用以進行評判的標簽,圖片龐大的數(shù)量又使得人工評判工作量巨大,因此需要能夠對圖片進行美觀度評判的模型,由計算機來完成這一任務。
受到心理學、神經(jīng)科學等領域中對人類美學感知的研究成果啟發(fā),計算機視覺領域的研究者們通過模擬、復現(xiàn)人類處理接收到的圖像視覺信息的過程,設計實現(xiàn)了一系列自動評判圖片美學質量的模型[6]。圖像美觀度評判模型一般遵循一個固定的流程:首先對輸入圖像進行特征提取,然后借助提取的特征,利用訓練好的分類或回歸算法獲得相應的結果。
特征提取則是其中非常重要的一環(huán),因為特征信息是對圖像美學質量的概括,其決定了美觀度評判模型的精確度。選取得當?shù)奶卣骷饶芴岣吣P驮u判的精確度,又能減少不必要的計算量,因為不同特征對于圖像美學質量的貢獻度是不同的[7]。早期的研究中,研究者們通常選擇以繪畫、攝影所用的美學規(guī)則理論和人的直觀感受為依據(jù),自主設計所要提取的特征,比如清晰度、色調、三分規(guī)則等。這類方法的好處是直觀、易于理解,但缺點在于所設計的特征通常不能很全面地描述圖像美學信息,而且設計特征對于研究者的工程能力和相關領域知識了解程度都有較高的要求。而隨著深度學習領域的不斷發(fā)展,將卷積神經(jīng)網(wǎng)絡(ConvolitionalNeuralNetworks,CNN)應用于圖像處理這一方式展現(xiàn)出了卓越的效果。借助CNN能夠從大量的圖像數(shù)據(jù)中學習到有力的圖像特征表示,其所包含的信息量遠超人工特征設計所設定的特征[8],從而使得CNN處理圖像的方式在圖像處理領域得到廣泛應用,并逐漸成為主流選擇的方法。深度學習方法應用于圖像美觀度評判的特征提取環(huán)節(jié),主要有2種方式:第1種是借助已有的深度學習圖像處理模型,利用其中間層特征作為評判依據(jù),采用傳統(tǒng)的分類或回歸方法進行美觀度評判;第2種是對已有的模型進行改造,使得其能夠從圖像數(shù)據(jù)中學習到新的隱藏的美學特征,并借此對圖像的美觀度作出評判。
本文采用的是Kong等[9]設計的美觀度評判模型。該模型隨AADB(AestheticsandAttributesDatabase)數(shù)據(jù)集一同提出,其基于AlexNet[8]改造得來,通過提取圖片的內容特征以及自定義的屬性標簽特征來幫助判斷圖像的美觀度。此外,該模型吸收了Siamese網(wǎng)絡[10]的結構,實現(xiàn)了接收兩幅一組的圖像作為輸入并給出它們之間相對評分的功能,同時提出了2種對圖像進行成對采樣的訓練方式來輔助增加結果的精確度。實驗結果表明該模型在AVA(AestheticVisualAnalysis)數(shù)據(jù)集上的判別準確率達到77.33%,超過了當時已有的許多模型的表現(xiàn)。作者并未對該模型進行命名,為方便說明,下文中統(tǒng)一用“AADB模型”對其進行代指。
1.2文本生成圖像GAN
GAN的提出是機器學習領域一項重大的突破,其為生成模型的訓練提供了一種對抗訓練的思路。相比于傳統(tǒng)的生成模型如變分自編碼器、玻爾茲曼機,GAN優(yōu)勢有:其訓練只需借助反向傳播而不需要馬爾可夫鏈、能夠產(chǎn)生全新的樣本以及更加真實清晰的結果、簡化任務設計思路等,因此,其成為了現(xiàn)今機器學習領域十分火熱的研究課題。
GAN的結構一般可分為兩部分:生成器部分,負責接收一段隨機噪聲作為輸入來生成一定的結果;判別器部分,負責接收訓練數(shù)據(jù)或生成器生成的數(shù)據(jù)作為輸入,判斷輸入是來自哪一方。生成器的最終目標是生成能夠徹底欺騙判別器的數(shù)據(jù),即判別器無法區(qū)分輸入數(shù)據(jù)來自真實數(shù)據(jù)分布還是生成器擬合的數(shù)據(jù)分布;而判別器的最終目標是有效區(qū)分其輸入來源,識別出來自生成器的輸入。GAN的訓練正是基于這種博弈的過程,令生成器和判別器二者之間進行對抗,交替更新參數(shù),當模型最終達到納什均衡時,生成器即學習到了訓練數(shù)據(jù)的數(shù)據(jù)分布,產(chǎn)生相應的結果。
雖然GAN擁有良好的表現(xiàn)力和極大的發(fā)展?jié)摿Γ浔旧磉€存在一些缺點,比如訓練困難、無監(jiān)督使得生成結果缺少限制、模式崩潰、梯度消失等問題。后續(xù)許多研究者對GAN從結構[11]、訓練方法[12]或實現(xiàn)方法[13]上進行了改進,逐漸提高了GAN訓練的穩(wěn)定性和生成效果。此外,CGAN(ConditionalGAN)[14]將條件信息與生成器和判別器的原始輸入拼接形成新的輸入,用以限制GAN生成和判別的表現(xiàn),使得GAN生成結果的穩(wěn)定性得到提高。
利用GAN來實現(xiàn)文本生成圖像任務也是基于CGAN的思想,以文本-圖像組合為訓練數(shù)據(jù),文本作為輸入數(shù)據(jù)的一部分,在生成器中與隨機噪聲拼接作為生成器的整體輸入,在判別器中則用于形成不同的判斷組合——真實圖片與對應文本、真實圖片與不匹配文本、生成器生成圖片與任意文本并進行鑒別。文本數(shù)據(jù)通常會借助其他編碼模型將純文字信息轉化為一定維數(shù)的文本嵌入向量,用以投入模型的訓練計算當中。最先利用GAN實現(xiàn)文本生成圖像任務的是Reed等[15]提出的GAN-INT-CLS模型,其吸收了CGAN和DCGAN(DeepConvolutionalGAN)[11]的思想,同時提出改進判別器接收的文本-圖像組合輸入(新增真實圖像與不匹配文本的組合)以及通過插值的方式創(chuàng)造新的文本編碼向量兩種方法來提高生成結果的質量和豐富度,生成了64×64大小的圖像。隨后該領域的一項重要突破是Zhang等[16]提出的StackGAN模型,該模型通過使用2個生成器的方式生成圖像,首次實現(xiàn)了只借助給定文本的條件下生成256×256大小的圖像。該模型中,第1個生成器接收隨機噪聲與文本向量的拼接來生成64×64大小的中間結果,第2個生成器則使用該中間結果與文本向量作為輸入,這種方式可以實現(xiàn)利用文本信息對中間結果進行修正和細節(jié)補充,來獲得質量更高的256×256大小圖像的結果。
在StackGAN的理論基礎上,Zhang等[3]提出了StackGAN++模型。該模型使用3個生成器-判別器組以類似樹狀的方式連接,其中3個生成器分別對應生成64×64、128×128、256×256大小的圖像,第1個生成器以文本向量和隨機噪聲的拼接為輸出,之后每一個生成器接收前一個生成器生成的圖像結果與文本向量作為輸入,生成下一階段的圖像結果;每一個判別器接收對應階段的生成器的輸出與文本向量進行判別,計算條件生成損失。此外,Zhang等[3]引入了無條件生成損失,即計算在不使用文本信息的情況下生成圖片的損失,與條件生成損失相結合,引導模型的訓練,最終進一步提高了生成圖片的質量。本文即選用了該模型進行基于美學評判的優(yōu)化改進研究。
此后文本生成圖像GAN的研究多在類似StackGAN++的多階段生成模式基礎上,通過加入各種輔助信息來幫助生成器生成更好的結果,如AttnGAN(AttentionalGAN)[17]引入了注意力機制,分析對比生成圖像與對應文本之間的特征相似度,并利用對比結果輔助生成器的訓練;Cha等[18]則通過引入感知損失的方式,從圖像特征層面進行對比來輔助生成器更好地學習到訓練數(shù)據(jù)的分布。
2StackGAN++的美學質量分析
在提出基于美學評估的對StackGAN++模型的優(yōu)化方法之前,需要了解該模型目前生成結果的美學質量如何。本節(jié)將利用AADB模型對其進行初步測量。
本節(jié)實驗使用的StackGAN++模型是基于Caltech-UCSDBirds200鳥類圖像數(shù)據(jù)庫2011版訓練的鳥類圖像生成模型,其測試數(shù)據(jù)集中包含2933張圖像,每張圖像對應10條文本說明,其中文本數(shù)據(jù)需經(jīng)過char-CNN-RNN模型編碼。Zhang等[3]給出了其模型源碼的github地址(https://github.com/hanzhanggit/StackGAN-v2)。
本文實驗運行于Ubuntu16.04操作系統(tǒng),使用GeForceGTX1080Ti顯卡進行訓練。軟件環(huán)境方面,本實驗利用Adaconda2搭建python2.7虛擬環(huán)境,并需要安裝Pytorch1.0以及caffe1.0(分別對應StackGAN++以及AADB模型運行所需)。
2.1測試數(shù)據(jù)集生成結果的美觀度分布
首先針對測試數(shù)據(jù)集所產(chǎn)生的樣本進行美觀度評判,觀察其分布狀況。理論情況下,訓練數(shù)據(jù)集中包含了29330條語句對應的嵌入向量,經(jīng)由生成模型后獲得29330張圖像結果,實際運行中由于StackGAN++模型所采用的批處理訓練策略,最終生成圖像數(shù)量為29280張,但從整體數(shù)量的規(guī)模來看并不影響對于其整體美觀度評價的判斷。利用AADB模型獲得生成圖像的美學分數(shù),其分布如圖1所示。
由AADB模型計算得出的美學分數(shù)集中于[0,1]區(qū)間,在特殊情況下會超過1。為了便于標注美學分數(shù)的分布區(qū)間,在繪制區(qū)間分布柱狀圖時,將由AADB模型獲取的美學分數(shù)(超過1的截斷至0.9999)乘以10,這種表示方法也符合實際生活中人工評判時的常用取值范圍選擇;在展示降序分布時則直接采用模型輸出的結果范圍來標注分數(shù)坐標軸。圖1(a)表明,原始StackGAN++在測試數(shù)據(jù)集上生成圖像的美學分數(shù)集中在5~8的區(qū)間段內,占總體的78.6%,其中6~7區(qū)間段內的圖像數(shù)量最多,占整體結果數(shù)量的33.9%。而圖1(b)表明,在5~8區(qū)間段內,圖像的美學分數(shù)變化呈現(xiàn)出均勻平緩的變化趨勢,并沒有出現(xiàn)在某一節(jié)點大幅變動的情況。
29280張生成結果的平均美學分數(shù)為0.62828。根據(jù)AADB模型作者給出的評判標準,一張圖片的分數(shù)超過0.6則可以認為是一張好圖片,低于0.4則認為是一張差圖片,在兩者之間認為是一張一般性質圖片,而本文出于后續(xù)實驗樣本劃分的考慮,將好圖片的下限標準提高至0.65,差圖片的上限標準提高至0.5。由此來看,模型的平均結果處于一般質量的區(qū)間,說明原模型的整體生成結果從美觀度的角度來講仍然存在可以提升的空間。本文從全部生成結果中選擇美學分數(shù)最高以及最低的圖片各10張的結果,交由真人進行主觀評判,其結果均與美學分數(shù)表現(xiàn)出對應關系,即認為最高分數(shù)的10張圖片擁有較高的美觀度,而最低分數(shù)的10張圖片則評價一般或交叉表明AADB模型給出的美學分數(shù)對圖像美觀度的評價能較好地符合人的直觀感受。
2.2固定文本批量生成圖像結果的美觀度分布
如果想要達成提高生成模型美觀度質量的目標,一個簡單的想法是,可以對同一條語句,一次性批量生成大量的圖片,按美觀度模型給出的分數(shù)進行降序排序,從中選出分數(shù)最高圖像作為輸出結果,或以分數(shù)排序最靠前(分數(shù)最高)的一定數(shù)量的圖像作為輸出結果,再交由模型使用者自行判斷選擇最終的結果。這種方法雖然存在嚴重的效率問題,但易于實現(xiàn)且非常直觀。其中的問題在于確定生成圖像的數(shù)量,因為隨著生成圖像數(shù)量的增加,其多樣性也會隨之增加。也更容易出現(xiàn)更多美觀度高的圖像結果,但進行美觀度評判以及排序選擇的時間消耗也會隨之增加,因此若選擇此種做法作為優(yōu)化方法,需要在生成結果質量以及模型運行效率之間尋求一個平衡點。
基于以上考慮,除對測試集整體進行美觀度評判以外,還從中選擇一批(實驗設定為24)數(shù)量的文本輸入數(shù)據(jù),針對每一條文本數(shù)據(jù)生成不同數(shù)量的圖片來觀察其美學分數(shù)的分布。選擇100、200、350、500、750、1000共6種生成數(shù)量,針對選定的文本數(shù)據(jù)生成對應數(shù)量的圖像,利用AADB模型計算生成結果的美學分數(shù)。圖2展示了其中一條文本的結果。結果表明,美學分數(shù)在各個區(qū)間的分布狀況是相近的,基本不受一次性生成數(shù)量的影響。6組結果都表現(xiàn)出生成圖像的美學分數(shù)集中于5~7的區(qū)間內的分布狀況,且隨著生成數(shù)量的增加,高分圖像的出現(xiàn)頻率也越來越高。表1展示了6組分布結果中最高分數(shù)圖像的分數(shù)與分數(shù)前10高圖像的平均分數(shù),表明了一次性生成數(shù)量越多,即使是處于高分分段的圖像其整體的質量也會得到提高,也驗證了本節(jié)第一段所述的情況。但面對最高分數(shù)的情況,因生成模型會以隨機噪聲作為輸入來生成圖像,這導致了其對生成結果的不可控性,所以生成結果會出現(xiàn)一定的擾動,使得最高分圖像的分數(shù)與生成數(shù)量之間并不存在確定的正相關關聯(lián)性。
3基于美學評判的圖像生成優(yōu)化
原始的StackGAN++模型采用了3組生成器-判別器組合,以類似樹狀的方式進行連接,每一個生成器生成不同尺寸的圖像,并作為下一個生成器輸入數(shù)據(jù)的一部分。其中每一個生成器的損失LGi(i=1,2,3)計算式為
pagenumber_ebook=102,pagenumber_book=2443
式中:pGi為生成器Gi學習到的數(shù)據(jù)分布;si為生成器Gi生成的結果;c為文本向量;Di為與生成器Gi對應的判別器,其接收單個輸入si或雙輸入si和c,輸出相應的判別結果;E[·]表示期望函數(shù)。
該損失計算方式由兩部分組成,前一部分計算生成器不利用文本向量生成圖像的損失,即無條件損失,該部分用以監(jiān)督生成器生成更加真實的、使判別器認為來自于真實數(shù)據(jù)分布的數(shù)據(jù);后一部分計算生成器利用了文本向量生成圖像的損失,即條件損失,該部分用來監(jiān)督生成器生成符合輸入文本描述的圖像,即保證文本與圖像之間的一致性。在StackGAN++的理論描述中,Zhang等[3]認為每一個生成器生成的圖像雖然大小不同,但都是基于同一條文本生成的,所以它們彼此之間應該保持相似的色彩和基本結構,并提出了色彩一致性損失用來保證3個生成器生成圖像之間擁有較高的色彩一致性。但經(jīng)過實驗作者發(fā)現(xiàn)在基于文本生成的模式下,色彩一致性所起到的作用十分微弱,因為其對生成結果的約束力要遠遠小于文本-圖像一致性的約束,即式(1)中的Esi~pGi[lnDi(si,c)]。式(2)為生成器的總體損失(下文稱為對抗損失)計算公式,用于訓練過程中的梯度計算。
受到Johnson等[19]提出的感知損失的啟發(fā),本文將AADB模型與StackGAN++的生成器結合,用于在生成模型訓練過程中提供輔助訓練信息,達成從美學角度來優(yōu)化生成模型的目的。具體地,在式(2)的基礎上,加入一項新定義的損失——美學損失Laes,其計算式為
式中:Aes函數(shù)表示使用AADB模型計算生成結果s3的美學分數(shù)。2.1節(jié)中,AADB模型計算得出的美學分數(shù)存在超過1的情況,因此在計算美學損失時,會對模型返回的美學分數(shù)進行判斷,如果其超過了1,則將其截斷至0.9999。該損失實際計算了最后一階段生成器G3生成結果的美學分數(shù)與1之間的歐幾里得距離,最小化該損失即最小化生成結果美學分數(shù)與1之間的差距,代表了生成結果美學質量的提升。最后,加入了美學損失后新的生成器損失計算公式為
式中:β為美學損失的權重,用來控制其在總體損失中所占的比例,β越大則美學損失所占的比例越大。β為0時,模型即還原為StackGAN++。
由于美學損失的作用是引導生成器生成美觀度更高的圖像,而對抗損失則是控制整個訓練過程以及生成結果的關鍵,保證了生成器能夠生成符合文本描述的真實圖像,這是文本生成圖像模型最基本的目的,因此β值的選擇應當在保證在訓練過程中美學損失起到的調控作用不會壓過對抗損失的前提下對生成結果的美觀度產(chǎn)生影響。
4實驗與性能評估
選取不同的美學損失權重β進行訓練,以IS作為訓練獲得模型的質量的衡量指標,在保證IS與原模型相比不降低的前提下,觀察其生成結果的美觀度分布情況。IS是借助InceptionModel[20]計算得出的用來衡量GAN圖像生成效果的最常用指標之一,通常情況下其數(shù)值越大代表GAN生成的圖像具有更高的多樣性和真實性,進而代表生成圖像的總體質量更好。在文本生成圖像GAN領域,IS被廣泛用來進行不同GAN之間的效果對比。
本節(jié)所使用的環(huán)境與第2節(jié)對StackGAN++本身進行美學質量分析的實驗環(huán)境相同,故此處不再贅述。模型訓練過程采用批訓練策略,每個批包含24條文本嵌入向量,每一個時期(epoch)中包含368個批的訓練過程,下文將一個批完成一次訓練的過程稱為一步(step)。訓練過程包含600個時期,并于每2000步的時間節(jié)點保存一次模型參數(shù),以便于訓練完成后根據(jù)保存時模型的表現(xiàn)選取效果最好的模型。本文提出的優(yōu)化方法的實現(xiàn)流程如圖3所示。
本文選取β=45,0,0.0001,分別進行了訓練。選擇45是因為,觀察StackGAN++訓練時生成器的對抗損失發(fā)現(xiàn)對抗損失與美學損失的比值在50左右。因此,當β=45時,對抗損失與經(jīng)權重放大的美學損失在數(shù)值上比較接近;1與0.0001是基于經(jīng)驗的選擇,取β=1時美學損失與對抗損失平權,而β=0.0001則是參考了Cha等[18]提出的感知損失的權重選取。訓練完成后,對應每個β取值各形成了一組于不同時間節(jié)點保存的模型,分別從中選取IS分數(shù)最高的模型作為對應取值下的結果模型。在對選定的模型進行美學質量評判之前,需要先考察它們所生成的圖片的總體質量,以確保在引入了美學損失后沒有出現(xiàn)模型生成圖像質量下降的情況。表2展示了3種取值對應模型與原模型的IS數(shù)據(jù),其中β為0即代表未引入美學損失的原始StackGAN++模型。
通過對比,當β=0.0001時,模型在IS上取得最高的數(shù)值,并且超過了原始模型的IS,表明美學損失的引入還起到了提高模型生成效果的正面效應。這是可以理解的,因為當生成器生成了一幅效果很差的圖像,例如模糊不清或主體扭曲變形,此時美觀度評判模型將會給出較低的分數(shù),使得美學損失增大并導致生成器總損失增大。此外,當β=45時,模型的IS分數(shù)降低,表現(xiàn)為生成器生成圖像的質量有所下降。對β=45時獲得的模型所生成的圖像進行人工評判的結果也反映出這時生成圖像出現(xiàn)了更多的模糊、失真等不良結果。因此,β=45的情況已無繼續(xù)討論的價值,此后美學層面的實驗和數(shù)據(jù)統(tǒng)計也不再考慮此種情況。當β=1時,模型的IS與原模型相比十分接近,還需通過美學分數(shù)的分布對比來確定在此情況下美學損失是否起到了優(yōu)化的作用。
為了驗證美學損失是否對生成模型結果的美學質量起到了優(yōu)化作用,接下來計算了使用β=1,0.0001這2種情況的模型在測試數(shù)據(jù)集上生成的29280張圖像的美學分數(shù)分布情況;同時針對一個批的24條文本嵌入向量,每條文本生成1000張圖像,計算其美學分數(shù)的分布,數(shù)據(jù)結果如圖4所示(這里選出一條文本生成的1000張圖像的美學分數(shù)分布進行展示)。表3展示了2種β取值下模型在測試數(shù)據(jù)集上的生成結果的美學分數(shù),同時一并列出了原模型在測試數(shù)據(jù)集上生成結果的美學分數(shù)作為對比。從表中可知,當β=0.0001時,由測試數(shù)據(jù)集生成的圖像其平均美學分數(shù)與原模型相比提高了3.17%;表4給出了原模型與β=0.0001優(yōu)化模型分別生成的24組針對同一條文本的1000幅圖像平均美學分數(shù)對比情況,也可以發(fā)現(xiàn)大部分文本生成結果的美學分數(shù)與原模型的生成結果相比有所提高。同時由圖4所示的美學分數(shù)分布情況也能看出,此時高分段圖像的數(shù)量增加,較低分段圖像的數(shù)量減少,表明美學損失起到了調控生成結果美觀度的作用。圖5展示了原模型與β=0.0001的優(yōu)化模型使用4條文本對應生成的1000張圖像中等距抽取10張圖像的結果(每個分圖第1行為原模型,第2行為優(yōu)化模型,每個模型對每條文本均生成1000張圖像),每行圖像從左到右按美學分數(shù)從高到低的順序排列,從中可以直觀感受到,經(jīng)過美學優(yōu)化的生成模型所生成的圖像結果在色彩對比度、整體色調、背景虛化簡單化等方面均有一定優(yōu)勢,反映了其美觀評價相比原模型有所提升。
5結論
本文提出了一種基于美學評判的文本生成圖像GAN的優(yōu)化方法,利用美觀度評判模型獲得生成器生成圖像的美學分數(shù),計算該生成圖像的美學損失,與模型本身的對抗損失以適當?shù)臋嘀仃P系相結合,作為該生成器新的損失并重新訓練模型,最后對獲得的新模型生成的圖像進行了美學質量的統(tǒng)計與和原模型的對比。實驗所得結論如下:
1)經(jīng)過本文方法獲得的生成模型,其生成結果的美觀度與原模型相比得到了提升,同時IS分數(shù)也有所提高,表明美學損失能夠起到提高生成模型質量的作用。