數(shù)學(xué)建模聚類分析范文
時(shí)間:2024-01-04 17:44:58
導(dǎo)語(yǔ):如何才能寫好一篇數(shù)學(xué)建模聚類分析,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
關(guān)鍵詞:工程教育;CDIO教育理念;教學(xué)設(shè)計(jì)模式;實(shí)踐類課程
現(xiàn)今世界,利用大數(shù)據(jù)技術(shù)打造指引行業(yè)發(fā)展的風(fēng)向標(biāo),已成為各行業(yè)向智能經(jīng)濟(jì)發(fā)展邁出的重要步伐。然而,當(dāng)前大數(shù)據(jù)專業(yè)人才極其短缺。我校肩負(fù)著服務(wù)武陵山片區(qū)區(qū)域發(fā)展與扶貧攻堅(jiān)國(guó)家戰(zhàn)略的使命,承擔(dān)著為西部地區(qū)培養(yǎng)優(yōu)秀工程技術(shù)人才的重任。近年 來(lái),我校緊跟以人工智能、大數(shù)據(jù)技術(shù)為代表的新科技發(fā)展步伐,積極推進(jìn)新工科建設(shè),成為首批30所入圍數(shù)據(jù)中國(guó)“百校工程”項(xiàng)目建設(shè)院校之一[1],新獲批的“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)(以下簡(jiǎn)稱大數(shù)據(jù)專業(yè))于2018年開始招生。如何根據(jù)時(shí)代需求辦好大數(shù)據(jù)新專業(yè),以培養(yǎng)具有大數(shù)據(jù)思維、掌握大數(shù)據(jù)分析應(yīng)用技術(shù)的高層次人才是我校面臨的一個(gè)新挑戰(zhàn)。大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)是體現(xiàn)該專業(yè)辦學(xué)質(zhì)量和人才培養(yǎng)水平的重要標(biāo)志。如何利用先進(jìn)教學(xué)理念提高該類課程的教學(xué)質(zhì)量和人才培養(yǎng)水平,是我校大數(shù)據(jù)專業(yè)建設(shè) 過(guò)程中必須重視的問(wèn)題。本研究立足于我校大數(shù)據(jù)專業(yè)建設(shè)的實(shí)際需求,探究基于CDIO理念的大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)設(shè)計(jì)模式。本研究的實(shí)施,將為我校創(chuàng)新型工程教育改革探索道路,不僅有利于提升我校大數(shù)據(jù)專業(yè)實(shí)踐類課程的教學(xué)質(zhì)量,也將對(duì)其他工科課程教 學(xué)改革起到一定的指導(dǎo)和借鑒作用。
1 CDIO工程教育模式的發(fā)展及內(nèi)涵
上世紀(jì)80年代起,工程人才短缺和高等院校工程教育低質(zhì)量之間的矛盾日益突出,產(chǎn)業(yè)對(duì)工程教育改革的呼聲不斷高漲。1986年,美國(guó)的工程教育學(xué)會(huì)、國(guó)家研究委員會(huì)和國(guó)家工程院等機(jī)構(gòu)開始探索工程教育改革之路。2000年,麻省理工學(xué)院和瑞典皇家工學(xué)院等四 所大學(xué)組成的跨國(guó)研究機(jī)構(gòu),正式啟動(dòng)CDIO教育改革計(jì)劃,在廣泛調(diào)研和大量實(shí)踐研究的基礎(chǔ)上,制定了CDIO教學(xué)大綱[2]。2004年,CDIO工程教育模式創(chuàng)立,并開始向世界各國(guó)推廣。2005年,瑞典國(guó)家高教署建立了CDIO的12條新標(biāo)準(zhǔn),并將之用于對(duì)本國(guó)100個(gè)工程學(xué)位 計(jì)劃進(jìn)行評(píng)估[3]。迄今為止,包括麻省理工學(xué)院在內(nèi)的丹麥、南非、法國(guó)、新加坡、中國(guó)等國(guó)家的幾十所世界著名大學(xué)加入了CDIO國(guó)際組織。這些學(xué)校的多個(gè)工科院系在教學(xué)中借鑒和采納了CDIO工程教育理念,取得了良好的效果。目前,CDIO已成為國(guó)內(nèi)外高校工程教育改革和培養(yǎng)體系制定等領(lǐng)域研究和實(shí)踐的熱點(diǎn)。實(shí)踐表明,CDIO教育模式不但能提高學(xué)生團(tuán)隊(duì)協(xié)作能力、綜合解決問(wèn)題能力,而且在學(xué)生創(chuàng)新能力培養(yǎng)方面效果顯著。據(jù)文獻(xiàn)[4-5],CDIO工程教育模式自2005年開始引入我國(guó)。2006年,汕頭大學(xué)成為中國(guó)高校中的首個(gè)CDIO成員。2008年12月,教育部高教司理工處聯(lián)合汕頭大學(xué)主辦了CDIO工程教育模式試點(diǎn)工作會(huì)議,成立“教育部CDIO工程教育改革試點(diǎn)工作組”,確定了18所高校及相關(guān)專業(yè)(機(jī)械類、電氣類、化工類、土木類)為國(guó)內(nèi)首批CDIO試點(diǎn)。工作組每年舉辦兩次全國(guó)性的會(huì)議, 對(duì)CDIO試點(diǎn)工作進(jìn)行交流、研討和總結(jié),并通過(guò)CDIO培訓(xùn)班為全國(guó)高校實(shí)施CDIO教育培養(yǎng)骨干人才。2016年1月,“全國(guó)CDIO工程教育聯(lián)盟”成立。至今已有100余所高校加入聯(lián)盟。這些高校的部分工科專業(yè)采用CDIO工程教育模式教學(xué),培養(yǎng)出來(lái)的學(xué)生深受社會(huì)與企業(yè)歡 迎。當(dāng)前,在聯(lián)盟全體成員的共同努力下,我國(guó)高校積累了一系列改革經(jīng)驗(yàn)與成果,在基于CDIO理念建立專業(yè)培養(yǎng)標(biāo)準(zhǔn),構(gòu)建一體化課程體系,實(shí)施基于項(xiàng)目/問(wèn)題、探究式等主動(dòng)教與學(xué)方法等方面都取得了顯著進(jìn)步,有效推進(jìn)了CDIO的本土化與再創(chuàng)新。近年來(lái),國(guó)內(nèi)CDIO的研究趨勢(shì)從CDIO教育模式、教學(xué)體系等宏觀的主題向具體的課程教學(xué)改革、課程建設(shè)等更深更細(xì)的方向發(fā)展,諸多教師在教學(xué)實(shí)踐中嘗試了采用CDIO理念進(jìn)行課程教學(xué)改革的研究與探索[6-10]。CDIO工程教育模式是國(guó)際創(chuàng)新型工程教育改革的最新成果,體現(xiàn)了系統(tǒng) 性、科學(xué)性和先進(jìn)性的統(tǒng)一,代表了當(dāng)代工程教育的發(fā)展趨勢(shì)。該模式以產(chǎn)品研發(fā)到產(chǎn)品運(yùn)行的生命周期為載體,讓學(xué)生以主動(dòng)的、實(shí)踐的、課程之間有機(jī)聯(lián)系的方式進(jìn)行工程學(xué)習(xí)。CDIO的4個(gè)字母代表Conceive(構(gòu)思)、Design(設(shè)計(jì))、Imple?ment(實(shí)現(xiàn))和Operate(運(yùn)作)四個(gè)單詞。CDIO主要包括三個(gè)核心文件[11]:1個(gè)愿景、1個(gè)大綱和12條標(biāo)準(zhǔn)。CDIO愿景提供了一種強(qiáng)調(diào)工程基礎(chǔ)的、建立在真實(shí)世界的產(chǎn)品和系統(tǒng)的“構(gòu)思-設(shè)計(jì)-實(shí)現(xiàn)-運(yùn)行”的CDIO過(guò)程背景環(huán)境基礎(chǔ)上的工程教育。CDIO大綱從技術(shù)知識(shí)和推理能力、個(gè) 人職業(yè)技能和職業(yè)道德、人際交往技能、企業(yè)和社會(huì)的構(gòu)思-設(shè)計(jì)-實(shí)施-運(yùn)行(CDIO)系統(tǒng)四個(gè)方面,以逐級(jí)細(xì)化的方式,將工程師需具備的工程基礎(chǔ)知識(shí)、個(gè)人能力、人際團(tuán)隊(duì)能力和整個(gè)CDIO全過(guò)程能力表達(dá)出來(lái),要求用綜合的培養(yǎng)方式使學(xué)生在工程基礎(chǔ)知識(shí)、個(gè)人能力、人際團(tuán)隊(duì)能力和工程系統(tǒng)能力四個(gè)層面達(dá)到預(yù)定目標(biāo)。CDIO的12條標(biāo)準(zhǔn)[12]涉及到專業(yè)哲學(xué)(標(biāo)準(zhǔn)1)、課程計(jì)劃開發(fā)(標(biāo)準(zhǔn)2-4)、設(shè)計(jì)實(shí)現(xiàn)經(jīng)驗(yàn)和實(shí)踐場(chǎng)所(標(biāo)準(zhǔn)5-6)、教與學(xué)的方法(標(biāo)準(zhǔn)7-8)、教師發(fā)展(標(biāo)準(zhǔn)9-10)、學(xué)生考核與專業(yè)評(píng)估(標(biāo)準(zhǔn)11-12),回答了工程教育“如何培養(yǎng)人”的問(wèn)題,使得工程教育改革變得具體化、可操作和可測(cè)量,能夠?qū)φ麄€(gè)教育模式的實(shí)施和檢驗(yàn)起到系統(tǒng)全面的指引作用,對(duì)學(xué)生的學(xué)和教師的教都具有重要指導(dǎo)意義。
2 CDIO理念下大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)設(shè)計(jì)的思路與策略
2.1 設(shè)計(jì)思路
大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)是培養(yǎng)學(xué)生運(yùn)用理論知識(shí)、科學(xué)方法和技術(shù)技能去解決大數(shù)據(jù)工程實(shí)際問(wèn)題并進(jìn)行科技創(chuàng)新的實(shí)踐能力的重要環(huán)節(jié)。目前,我校大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)組織方式通常以項(xiàng)目為單位設(shè)計(jì),重視對(duì)學(xué)生解決實(shí)際問(wèn)題(主要是項(xiàng)目涉及到的 具體問(wèn)題)的能力,但不關(guān)注學(xué)生在整個(gè)項(xiàng)目周期中知識(shí)、能力、態(tài)度等的變化情況,無(wú)法全面覆蓋技術(shù)性與非技術(shù)性能力的培養(yǎng)目標(biāo)。CDIO理念要求培養(yǎng)出來(lái)的學(xué)生必須在工程基礎(chǔ)知識(shí)、個(gè)人能力、人際團(tuán)隊(duì)能力和工程系統(tǒng)能力四個(gè)層面都達(dá)到預(yù)定目標(biāo)。CDIO教育模 式強(qiáng)調(diào)一體化與參與性,促使學(xué)生在項(xiàng)目研發(fā)到項(xiàng)目運(yùn)行的整個(gè)項(xiàng)目周期中進(jìn)行鍛煉與思考,課程教學(xué)不僅要關(guān)注學(xué)生學(xué)到的學(xué)科知識(shí),更要關(guān)注學(xué)生能力、素質(zhì)的提升情況。顯然,CDIO理念下大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)設(shè)計(jì)應(yīng)強(qiáng)調(diào)“知識(shí)與能力”并重,緊扣CDIO大綱 和CDIO標(biāo)準(zhǔn),進(jìn)行教學(xué)大綱和教學(xué)組織方式的設(shè)計(jì),并設(shè)置以“學(xué)習(xí)評(píng)估為中心”的多樣化考核方式。
2.2 設(shè)計(jì)策略
教學(xué)大綱方面,本研究嘗試結(jié)合大數(shù)據(jù)類專業(yè)培養(yǎng)目標(biāo),依據(jù)CDIO大綱,對(duì)大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)大綱進(jìn)行設(shè)計(jì):依據(jù)CDIO大綱的主題和條目組織課程大綱結(jié)構(gòu),并明確描述與期望能力要求相對(duì)應(yīng)的課程學(xué)習(xí)目標(biāo)。教學(xué)組織方式方面,本研究嘗試在大數(shù)據(jù)專業(yè) 實(shí)踐類課程教學(xué)中以“做中學(xué)”為依托,將整個(gè)課程教學(xué)安排以項(xiàng)目為載體,針對(duì)每個(gè)項(xiàng)目為學(xué)生提供“構(gòu)思-設(shè)計(jì)-實(shí)施-運(yùn)行”的流程,并將實(shí)踐所需知識(shí)、能力、素質(zhì)等培養(yǎng)目標(biāo)圍繞項(xiàng)目這個(gè)核心融入教學(xué)實(shí)踐中,讓學(xué)生的整個(gè)學(xué)習(xí)過(guò)程變成對(duì)一個(gè)個(gè)項(xiàng)目的完整實(shí)踐過(guò)程。教學(xué)考核方面,本研究嘗試匹配CDIO大綱的能力目標(biāo),具體根據(jù)課程概念及原理性知識(shí)的理解、技能掌握、設(shè)計(jì)—實(shí)現(xiàn)經(jīng)驗(yàn)獲取、分析及解決問(wèn)題能力、交流表達(dá)能力和綜合實(shí)踐能力等類別的學(xué)習(xí)效果的評(píng)估需要,在大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)考核方式設(shè)置時(shí), 對(duì)不同類別的學(xué)習(xí)效果設(shè)計(jì)不同的考核方式。
3 CDIO理念下的大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)設(shè)計(jì)模式
3.1 教學(xué)大綱框架設(shè)計(jì)
基于CDIO理念的教學(xué)大綱需要對(duì)融合了知識(shí)、能力、態(tài)度的學(xué)習(xí)效果進(jìn)行準(zhǔn)確描述,并清晰指明該課程整體及每一節(jié)課對(duì)學(xué)生所需學(xué)習(xí)的內(nèi)容和所需掌握的能力要求。依據(jù)CDIO大綱中關(guān)于個(gè)人能力、職業(yè)素養(yǎng)等方面的培養(yǎng)要求,本研究將大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué) 大綱框架設(shè)計(jì)為如表1形式。
3.2 教學(xué)組織方式設(shè)計(jì)
如何在實(shí)踐教學(xué)組織中體現(xiàn)CDIO教育理念是實(shí)施CDIO教學(xué)的基礎(chǔ)[13]。本研究基于CDIO理念將大數(shù)據(jù)專業(yè)實(shí)踐類課程教學(xué)組織方式設(shè)計(jì)為如圖1所示的“理論講授-任務(wù)布置-項(xiàng)目構(gòu)思-項(xiàng)目設(shè)計(jì)-項(xiàng)目實(shí)施-項(xiàng)目運(yùn)行”六個(gè)環(huán)節(jié)構(gòu)成的有機(jī)體。讓學(xué)生在參與項(xiàng)目的構(gòu)思 、設(shè)計(jì)、實(shí)施、運(yùn)行這四個(gè)環(huán)節(jié)的活動(dòng)中逐漸形成較完整的系統(tǒng)思維。
3.3 考核方式設(shè)置
CDIO理念下的教學(xué)是師生共同學(xué)習(xí)的過(guò)程,要求以“學(xué)”為中心進(jìn)行評(píng)估,教學(xué)與考核相互聯(lián)系,考核用來(lái)促進(jìn)和診斷教學(xué)和學(xué)習(xí)。為了評(píng)估課程教學(xué)所培養(yǎng)學(xué)生的能力能否達(dá)到CDIO大綱要求的預(yù)定目標(biāo),需要從不同方面檢驗(yàn)學(xué)生的學(xué)習(xí)效果。為此,本研究根據(jù)不 同類別的學(xué)習(xí)效果評(píng)估的需要,以過(guò)程性考查為重點(diǎn),設(shè)置不同的考核方式如表2所示。上述各類考核方式可綜合應(yīng)用于專業(yè)實(shí)踐類課程教學(xué)的整個(gè)過(guò)程。為確保評(píng)估的可靠性和有效性,可在不同階段選擇一種或多種考核方式對(duì)不同類別的學(xué)習(xí)效果進(jìn)行評(píng)估。
篇2
關(guān)鍵詞:電力負(fù)荷預(yù)測(cè);負(fù)荷因素;聚類;時(shí)間序列法;預(yù)測(cè)精度
中圖分類號(hào):tm71 文獻(xiàn)標(biāo)識(shí)碼:a
1 傳統(tǒng)的時(shí)間序列法
傳統(tǒng)的時(shí)間序列法發(fā)展較早、應(yīng)用廣、相對(duì)成熟,其主要原理是利用了電力負(fù)荷的慣性特征及時(shí)間上的延續(xù)性,通過(guò)對(duì)歷史數(shù)據(jù)時(shí)間序列的處理,確定其基本的特征和變化規(guī)律,以對(duì)未來(lái)的負(fù)荷進(jìn)行預(yù)報(bào),該預(yù)測(cè)方法的模型主要包括自回歸模型、動(dòng)平均模型、自回歸動(dòng)平均模型和非平穩(wěn)序列模型。傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法圍繞電力負(fù)荷這一隨機(jī)變量建立數(shù)學(xué)模型,未能考慮其他方面的綜合影響,存在預(yù)測(cè)誤差較大的缺陷,隨著電力系統(tǒng)對(duì)負(fù)荷預(yù)測(cè)要求的越來(lái)越高,該方法的不足也越來(lái)越明顯。
2 聚類分析
聚類分析是一種能有效地發(fā)現(xiàn)具有價(jià)值的離群序列的數(shù)據(jù)挖掘技術(shù),聚類分析一般由兩個(gè)過(guò)程組成:相似性度量及選擇聚類算法,故聚類可看成是時(shí)間序列法負(fù)荷預(yù)測(cè)讀取數(shù)據(jù)的預(yù)處理過(guò)程,對(duì)負(fù)荷序列進(jìn)行聚類,一方面可發(fā)現(xiàn)感興趣的聚類結(jié)構(gòu),進(jìn)行相關(guān)分析,另一方面,可為深入研究提供更有針對(duì)性的數(shù)據(jù)集,該方法已在多個(gè)領(lǐng)域被廣泛應(yīng)用。
3 基于聚類和時(shí)間序列的電力負(fù)荷預(yù)測(cè)
在電力領(lǐng)域內(nèi),節(jié)假日、高溫等樣本量很小的特殊情況不適合混合在所有的負(fù)荷模式中分析,否則易被當(dāng)作噪聲或壞數(shù)據(jù)而影響預(yù)測(cè)精度。而若將這些相似的離群序列作為樣本,進(jìn)行聚類分析,發(fā)掘它們的共性,得到相對(duì)應(yīng)的負(fù)荷模式,即可對(duì)特殊情況下的電力負(fù)荷趨勢(shì)進(jìn)行預(yù)測(cè),提高預(yù)測(cè)精度。
基于聚類分析的時(shí)間序列預(yù)測(cè)方法存在兩個(gè)數(shù)據(jù)分析形式:分類和預(yù)測(cè)。分類是指把電力負(fù)荷劃分到不同的類中,不同的類提供精簡(jiǎn)的數(shù)據(jù)集,以該數(shù)據(jù)集研究樣本的特征,減少預(yù)測(cè)使用的數(shù)據(jù)量,從而提高了計(jì)算效率。預(yù)測(cè)則是指從不同數(shù)據(jù)集中提取重要數(shù)據(jù)類模型并進(jìn)行未來(lái)的數(shù)據(jù)趨勢(shì)的預(yù)測(cè)。分類為預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ)及分類規(guī)則;而預(yù)測(cè)則是對(duì)時(shí)間序列歷史的和當(dāng)前的數(shù)據(jù)建立函數(shù)模型,去推測(cè)未來(lái)的發(fā)展趨勢(shì)?;诰垲惡蜁r(shí)間序列的電力負(fù)荷預(yù)測(cè)可以分為兩種。
(1)簡(jiǎn)單電力負(fù)荷預(yù)測(cè)
根據(jù)過(guò)去的負(fù)荷統(tǒng)計(jì)數(shù)據(jù),找到其隨時(shí)間變化的規(guī)律,建立時(shí)序模型,以推斷未來(lái)負(fù)荷數(shù)值的方法。首先把時(shí)間序列通過(guò)分段、相似性度量、矢量形態(tài)聚類后用一系列符號(hào)表示,即時(shí)間序列轉(zhuǎn)化為靜態(tài)的模式組合,然后使用普通的數(shù)據(jù)挖掘工具進(jìn)行知識(shí)發(fā)現(xiàn),該預(yù)測(cè)形式類似于傳統(tǒng)的時(shí)間序列的電力負(fù)荷預(yù)測(cè)模型。
(2)多因素電力負(fù)荷預(yù)測(cè)
時(shí)間序列的變化不僅和歷史數(shù)據(jù)有關(guān),還受眾多其它因素的影響。多因素預(yù)測(cè)方法根據(jù)對(duì)歷史數(shù)據(jù)的分類,尋找影響因素與時(shí)間序列之間的因果關(guān)系,建立相關(guān)分析模型,然后通過(guò)對(duì)歷史數(shù)據(jù)及最新數(shù)據(jù)的統(tǒng)計(jì)分析,確定其合理性后,進(jìn)行趨勢(shì)預(yù)測(cè)。
以下對(duì)電力負(fù)荷預(yù)測(cè)算法流程進(jìn)行說(shuō)明,如上圖1所示。預(yù)測(cè)算法首先進(jìn)行電力負(fù)荷的聚類分析,該階段是本算法的重點(diǎn)和難點(diǎn),它決定了整個(gè)系統(tǒng)中最重要的知識(shí)獲取和知識(shí)支持主體;然后采用自回歸動(dòng)平均模型的時(shí)間序列法,利用aic準(zhǔn)則確定其模型的階數(shù),該部分需結(jié)合聚類分析的數(shù)據(jù)集及分類規(guī)則進(jìn)行建模;最后通過(guò)相應(yīng)的誤差判斷準(zhǔn)則進(jìn)行結(jié)果的預(yù)測(cè)。如果聚類分析及建立的模型不合理,則需要重新對(duì)數(shù)據(jù)進(jìn)行聚類分析,再進(jìn)行結(jié)果的預(yù)測(cè)。該算法可以針對(duì)電力負(fù)荷數(shù)據(jù)常受氣溫、節(jié)假日等因素影響這一特點(diǎn)進(jìn)行聚類分析,再應(yīng)用時(shí)間序列對(duì)未來(lái)電力負(fù)荷進(jìn)行預(yù)測(cè),具有較高的準(zhǔn)確性。
4 算例分析
本文采用某市2010年7月5日至7月25日的電力實(shí)際負(fù)荷數(shù)據(jù),該數(shù)據(jù)為每十五分鐘采樣一點(diǎn),一天共96個(gè)采樣點(diǎn)。選取7月5日至25日連續(xù)21天的實(shí)際負(fù)荷數(shù)據(jù),利用聚類后的電力負(fù)荷預(yù)測(cè)時(shí)間序列法,采用matlab軟件工具,對(duì)接下來(lái)24個(gè)小時(shí)(即7月26日)的負(fù)荷進(jìn)行預(yù)測(cè)。下表列舉了傳統(tǒng)時(shí)間序列法預(yù)測(cè)值、聚類時(shí)間序列法預(yù)測(cè)值及其誤差值(表中僅為部分點(diǎn)數(shù)的數(shù)據(jù))。
傳統(tǒng)時(shí)間序列法預(yù)測(cè)結(jié)果、聚類時(shí)間序列法預(yù)測(cè)結(jié)果與真實(shí)負(fù)荷數(shù)據(jù)對(duì)比曲線如下圖2所示。
圖2紅線代表了聚類時(shí)間序列法的預(yù)測(cè)值,棕色線代表傳統(tǒng)時(shí)間序列法的預(yù)測(cè)值,藍(lán)線代表了負(fù)
的實(shí)際值。從傳統(tǒng)時(shí)間序列法預(yù)測(cè)結(jié)果與聚類時(shí)間序列法預(yù)測(cè)結(jié)果兩者與真實(shí)負(fù)荷數(shù)據(jù)的曲線圖可以看出,聚類時(shí)間序列法的預(yù)測(cè)曲線與真實(shí)負(fù)荷曲線具有較高重合率。經(jīng)過(guò)計(jì)算,傳統(tǒng)時(shí)間序列負(fù)荷預(yù)測(cè)的誤差絕對(duì)值的平均值為6.069%,聚類時(shí)間序列負(fù)荷預(yù)測(cè)的誤差絕對(duì)值的平均值為2.48%,聚類時(shí)間序列法預(yù)測(cè)的負(fù)荷誤差明顯比傳統(tǒng)時(shí)間序列法預(yù)測(cè)的負(fù)荷的誤差較小,即聚類時(shí)間序列法預(yù)測(cè)精度較高。
結(jié)語(yǔ)
本文指出了傳統(tǒng)時(shí)間序列預(yù)測(cè)方法的缺陷,闡述了時(shí)間序列法及聚類分析的預(yù)測(cè)原理,提出了基于聚類時(shí)間序列的電力負(fù)荷預(yù)測(cè)方法,即先通過(guò)聚類后,再進(jìn)行時(shí)間序列法的預(yù)測(cè)。針對(duì)某市的電力負(fù)荷情況,在matlab中進(jìn)行仿真,求得聚類時(shí)間序列法的預(yù)測(cè)結(jié)果,并與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比。結(jié)果表明,基于聚類時(shí)間序列的電力負(fù)荷預(yù)測(cè)方法,能考慮其他因素對(duì)電力的影響,有效提高電力負(fù)荷預(yù)測(cè)的精度。
參考文獻(xiàn)
[1]劉晨暉.電力系統(tǒng)負(fù)荷預(yù)報(bào)理論與方法[m].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,1987,23-56.
[2]李艷紅,雷金輝.電力負(fù)荷時(shí)間序列預(yù)測(cè)的應(yīng)用與研究[j].科學(xué)技術(shù)與工程,2011,11(04):860-864.
[3]王秋梅.時(shí)間序列法負(fù)荷預(yù)測(cè)的原理和應(yīng)用[j].華東電力,1993(04):37-39.
[4]鄒森.時(shí)間序列自適應(yīng)短期負(fù)荷預(yù)測(cè)[j].山東工業(yè)大學(xué)學(xué)報(bào),1988,18(02):43-49.
[5]王駿,王士同,鄧趙紅.聚類分析研究中的若干問(wèn)題[j].控制與決策,2012,27(03):322-327.
[6]鞠平,馬大強(qiáng).電力系統(tǒng)負(fù)荷建模[m].北京:中國(guó)電力出版社,2008:53-69.
篇3
【關(guān)鍵詞】釀酒葡萄分級(jí);主成分分析;聚類分析
釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。為了對(duì)釀酒葡萄進(jìn)行分級(jí),通過(guò)查閱資料,首先采用主成分分析的方法,確定釀酒葡萄特征性的主要成分和葡萄酒的理化指標(biāo)的主要成分,然后再以釀酒葡萄和葡萄酒所得主成分作為變量進(jìn)行聚類分析,從而得到釀酒葡萄的等級(jí)分類結(jié)果。
1 主成分分析方法
主成分分析方法是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。設(shè)有q個(gè)樣品(多元觀測(cè)值),每個(gè)樣品觀測(cè)p項(xiàng)指標(biāo)(量)x1,x2,…,xp
得到原始數(shù)據(jù)資料陣:
用數(shù)據(jù)矩陣X的p個(gè)列向量(即p個(gè)指標(biāo)向量) X1,X2,…Xp做線性組合,得到綜合指標(biāo)向量:
F1=a11 X1+a21X2+…+ap1Xp
{ F2=a12 X1+a22X2+…+ap2Xp
…
F1=a1p X1+a2pX2+…+appXp
簡(jiǎn)寫即為:Fi=aip X1+a2iX2+…+apiXp ,
(i=1,2,…,p)
由于需要,對(duì)組合系數(shù)ai'=(a1i,a2i,…,api)
作如下要求:
a1i2+a2i2+…api2=1,i=1,2,…,p
即:ai為單位向量:ai'ai=1,且有下列原則決定:
(1)Fi與Fj(i≠j,i,j=1,…,p)互不相關(guān),即 Cov(Fi,F(xiàn)j)=0,
并有Var(Fi)=ai'∑ai,
其中∑為X的協(xié)方差陣。
(2)F1是X1,X2,…Xp的一切線性組合(系數(shù)滿足上述要求)中的方差最大的,即
Var(F1)=maxc'c=1Var(∑pi=1cixi)
其中c=(c1,c2,…,cp)。F2是與F1不相關(guān)的X1,X2,…Xp一切線性組合中方差最大的,F(xiàn)p是與F1,F(xiàn)2,…,F(xiàn)p=1都不相關(guān)的X1,X2,…,Xp的一切線性組合中方差最大的。
滿足上述要求的綜合指標(biāo)向量F1,F(xiàn)2,…,F(xiàn)p即為主成分,這p個(gè)主成分從原始指標(biāo)提供的信息總量中所提取的信息量依次遞減,每一個(gè)主成分所提取的信息量用方差來(lái)度量,主成分方差的貢獻(xiàn)就等于原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值λi,每一個(gè)主成分的組合系數(shù)
ai'=(a1i,a2i,…,api)
就是相應(yīng)特征值λi所對(duì)應(yīng)的單位特征向量ti,方差的貢獻(xiàn)率為αi=λi/∑nk=1λi 。
其中ai越大,說(shuō)明相應(yīng)的主成分反映綜合信息的能力越強(qiáng)。
2聚類分析方法
對(duì)變量進(jìn)行聚類分析,首先要確定變量的相似性度量,常用的變量相似性度量方法有相關(guān)系數(shù)法和夾角余弦法兩種。此處采用相關(guān)系數(shù)法,記變量Xj的取值(X1j,X2j,…,Xnj)∈Rn(j=1,2,…,m),則可以用兩變量Xj與Xk的樣本相關(guān)系數(shù)作為他們的相似性度量,即
rjk=[∑ni=1(xij-xj)(xik-xk)]/[∑ni=1(xij-xj)2∑ni=1(xik-xk)2]1/2
3 結(jié)果分析
對(duì)于釀酒紅葡萄,由主成分分析所得的結(jié)果通過(guò)分析軟件SPSS13.0的Hierachical Cluster分析,得出聚類分析結(jié)果:
分析上圖不難得到,紅葡萄酒的等級(jí)可以分為四個(gè),且等級(jí)越往上,其值越大,故可將釀酒紅葡萄的等級(jí)分為四個(gè)等級(jí),對(duì)應(yīng)為A、B、C、D,由MATLAB軟件計(jì)算可得到其分類分值和相應(yīng)的等級(jí):
對(duì)于釀酒白葡萄,同理可以得出分析結(jié)果:
同樣可得到其分類分值和相應(yīng)的等級(jí):
釀酒葡萄有若干指標(biāo)成分,采用主成分分析方法可以明確對(duì)葡萄酒質(zhì)量有重要貢獻(xiàn)的成分指標(biāo),而聚類分析結(jié)果也是確定葡萄酒特征性成分的重要基礎(chǔ)。在評(píng)價(jià)葡萄酒質(zhì)量?jī)?yōu)劣時(shí),本來(lái)葡萄酒的質(zhì)量是由理化指標(biāo)、衛(wèi)生指標(biāo)即感官指標(biāo)共同確定的。但在對(duì)此問(wèn)題的分析過(guò)程中,沒(méi)考慮衛(wèi)生指標(biāo),則對(duì)葡萄酒的質(zhì)量評(píng)價(jià)時(shí),人們不能從健康方面去評(píng)價(jià)葡萄酒的質(zhì)量。因?yàn)槟菢訉⒂锌赡茏屇切┬l(wèi)生不達(dá)標(biāo)的酒廠在不考慮衛(wèi)生指標(biāo)的條件下得到好的評(píng)價(jià),從而危害到人們的身體健康,因此本文對(duì)釀酒葡萄的分級(jí)帶有一定的特殊性。
本文通過(guò)主成分分析和聚類分析的方法得到釀酒紅葡萄和釀酒白葡萄一般可以分為A,B,C,D四個(gè)不同等級(jí)的結(jié)論,當(dāng)然也存在一些問(wèn)題或不足,這是今后要繼續(xù)研究的問(wèn)題。
參考文獻(xiàn):
[1]韓中庚.數(shù)學(xué)建模方法及其應(yīng)用(第二版)[M].北京:高等教育出版社,2009年
[2]李運(yùn),李記名,姜忠軍.統(tǒng)計(jì)分析在葡萄酒質(zhì)量評(píng)價(jià)中應(yīng)用[J].釀酒科技,2009年
篇4
[關(guān)鍵詞] 物流 配送網(wǎng)絡(luò) 聚類分析
一、引言
配送是物流系統(tǒng)中一個(gè)直接與消費(fèi)者相連的重要環(huán)節(jié),優(yōu)化配送網(wǎng)絡(luò),進(jìn)行合理的物流配送是實(shí)現(xiàn)運(yùn)輸規(guī)模經(jīng)濟(jì)、節(jié)省運(yùn)輸費(fèi)用的重要手段。物流配送網(wǎng)絡(luò)實(shí)際上由多個(gè)不同的網(wǎng)絡(luò)組成,每個(gè)網(wǎng)絡(luò)都服務(wù)于特定的目標(biāo),但每個(gè)網(wǎng)路又不是孤立進(jìn)行運(yùn)作的。確切地說(shuō),在不同的運(yùn)輸網(wǎng)絡(luò)之間存在極大的重疊和冗余。因此通過(guò)配送網(wǎng)絡(luò)的優(yōu)化,消除這些冗余是降低配送成本的有效手段。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問(wèn)題的一種統(tǒng)計(jì)分析方法。采用聚類分析的方法,可極大地提高優(yōu)化的性能,增加所處理業(yè)務(wù)的規(guī)模。
二、聚類基本理論
“物以類聚,人以群分”,在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的分類問(wèn)題。所謂類,通俗地說(shuō),就是指相似元素的集合。聚類分析起源于分類學(xué),隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來(lái)越高,僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切地進(jìn)行分類,于是數(shù)學(xué)工具逐漸地被引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。
假設(shè)一個(gè)要進(jìn)行聚類分析的數(shù)據(jù)集包括n個(gè)對(duì)象,這些對(duì)象可以是人、房屋、貨物等?;趦?nèi)存的聚類算法通常都采用差異矩陣[1]的數(shù)據(jù)結(jié)構(gòu)。
差異矩陣是一個(gè)對(duì)象-對(duì)象結(jié)構(gòu)。它存放所有n個(gè)對(duì)象彼此之間所形成的差異。它一般采用n×n矩陣表示,如式(1)所示。
其中,d(i, j)表示對(duì)象i和對(duì)象j之間的差異(或不相似性程度)。通常d(i, j)為一個(gè)非負(fù)數(shù),當(dāng)對(duì)象i和對(duì)象j非常相似或彼此“接近”時(shí),該值接近0,該數(shù)值越大,就表示對(duì)象i和對(duì)象j越不相似。由于有d(i,j) = d(j,i)且d(i, i) = 0,因此就有式(1)所示的矩陣。
所采用的測(cè)量單位可能會(huì)對(duì)聚類分析產(chǎn)生影響。例如:將測(cè)量單位(對(duì)于高度屬性)從英尺變?yōu)槊?,?對(duì)于重量屬性)從英磅變?yōu)榍Э?,都?huì)導(dǎo)致不同的聚類結(jié)果。通常采用一個(gè)較小的單位表示一個(gè)屬性會(huì)使得屬性的取值范圍變大,因此對(duì)聚類結(jié)構(gòu)就有較大的影響。為幫助避免對(duì)屬性測(cè)量單位的依賴,就需對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。所謂標(biāo)準(zhǔn)化測(cè)量就是給所有屬性相同的權(quán)值。這一做法在沒(méi)有任何背景知識(shí)的情況下是非常有用的。而在一些應(yīng)用中,用戶會(huì)有意識(shí)地賦予某些屬性更大權(quán)值以突出其重要性。例如:在對(duì)貨物進(jìn)行聚類分析時(shí),可能就會(huì)給時(shí)間屬性賦予更大的權(quán)值。
為了實(shí)現(xiàn)標(biāo)準(zhǔn)化測(cè)量,一種方法就是將初始側(cè)量值轉(zhuǎn)換為單位變量。給定一個(gè)屬性(變量)f,可以利用以下計(jì)算公式對(duì)其進(jìn)行標(biāo)準(zhǔn)化:
(1)計(jì)算絕對(duì)偏差均值S
其中,x1f,x2f,…… xnf是變量f的n個(gè)測(cè)量值,mf為變量f的均值,也就是
(2)計(jì)算標(biāo)準(zhǔn)化測(cè)量(Z -分值)
其中,絕對(duì)偏差均值sf要比標(biāo)準(zhǔn)差σf更為魯棒(對(duì)含有噪聲數(shù)據(jù)而言)。在計(jì)算絕對(duì)偏差均值時(shí),對(duì)均值的偏差|xnf-mf|沒(méi)有進(jìn)行平方運(yùn)算,因此異常數(shù)據(jù)作用被降低。
一種有效的聚類分析計(jì)算方法是基于密度的算法(Density-based Methods),它與其它方法的一個(gè)根本區(qū)別是:它基于密度而非基于各種各樣的距離。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”聚類的缺點(diǎn)。這個(gè)方法的指導(dǎo)思想就是:只要一個(gè)區(qū)域中點(diǎn)的密度大過(guò)某個(gè)閾值,就把它加到與之相近的聚類中去。代表算法有:OBSCAN算法、OPTICS算法、OENCLUE算法等。
三、配送網(wǎng)絡(luò)的優(yōu)化
配送網(wǎng)絡(luò)的底層結(jié)構(gòu)由下述五個(gè)主要元素構(gòu)成:
1.Facility(設(shè)施)
配送網(wǎng)絡(luò)中的站點(diǎn)(一般是物理的)。在網(wǎng)絡(luò)中,站點(diǎn)代表了貨物集中或分發(fā)的地點(diǎn)。例如,在郵政配送網(wǎng)中,它們可以是加工及分發(fā)站,調(diào)度中心,航空郵件中心和散件中心。
2.Delivery(一次投遞的貨物)
Facility之間配送的項(xiàng)目。在網(wǎng)絡(luò)中,Delivery代表了在特定時(shí)間窗(即,從貨物準(zhǔn)備好到要求送達(dá)目的站之間的時(shí)間段)之內(nèi)、從起點(diǎn)到終點(diǎn)、有一定體積和重量、要運(yùn)送的貨物。不同類型的Delivery可能代表了,從起點(diǎn)到終點(diǎn)、有不同的服務(wù)標(biāo)準(zhǔn)的貨物(例如,從北京到上海的特快專遞)。
Delivery按是否可分開配送可以分成可分Delivery和不可分Delivery??煞值腄elivery是可以被分成不同部分進(jìn)行配送的。相反,不可分Delivery不能分成不同部分進(jìn)行配送。
3.Batch(班次)
配送網(wǎng)絡(luò)中時(shí)間固定,經(jīng)過(guò)的站點(diǎn)固定的運(yùn)送貨物的路線。一個(gè)Batch的定義包括Batch的各個(gè)方面:運(yùn)輸工具的容量或載重能力,Batch的類型(航空,公路,鐵路等),Batch的工作日(一周里面哪天或哪些天有出發(fā)的安排),到達(dá)和離開每個(gè)中間站點(diǎn)的時(shí)間(用時(shí)分秒表示,不牽扯日期),簽訂一個(gè)班次的費(fèi)用和提前解除班次合約的費(fèi)用。
4.Leg(班次的一段)
Leg連接相鄰的兩個(gè)Facility,Batch由一系列Leg組成。Leg的定義包括:從屬的Batch,Leg起點(diǎn),Leg終點(diǎn),離開Leg起點(diǎn)和到達(dá)Leg終點(diǎn)的時(shí)刻(用時(shí)分秒表示,不牽扯日期),Leg開始離Batch開始的天數(shù),容量或載重能力,可變運(yùn)輸成本(單位體積或重量的運(yùn)輸成本)等屬性。當(dāng)然,在一個(gè)Batch中,前一個(gè)Leg的終點(diǎn)要和后一個(gè)Leg的起點(diǎn)相同。
5.TriP(行程)
真正意義上用于移動(dòng)貨物的途徑(路線)。Trip的構(gòu)成形式是多樣的,我們既可以把一個(gè)Batch看成是一個(gè)Trip來(lái)配送Delivery,也可以取一個(gè)Batch的若干Leg作為配送Delivery的Trip,還能使用多個(gè)Batch的Leg作為Trip,只要它能在規(guī)定時(shí)間內(nèi)把Delivery從起點(diǎn)運(yùn)送到終點(diǎn)。Trip是為了方便建模而構(gòu)建的一個(gè)虛擬的概念,配送網(wǎng)絡(luò)優(yōu)化系統(tǒng)運(yùn)行的時(shí)候,先使用搜索技術(shù)把每個(gè)Delivery的所有可行配選Trip找出來(lái),再進(jìn)行建模。
費(fèi)用由Leg可變費(fèi)用(可變運(yùn)輸費(fèi)用),Trip遲到懲罰費(fèi)用,Batch固定費(fèi)用和Batch提前解約費(fèi)用構(gòu)成。優(yōu)化的目標(biāo)就是滿足“指派約束”和“容量和載重能力約束”的情況下,使總費(fèi)用最小。
由于物流配送網(wǎng)絡(luò)的Facility既能作為起點(diǎn),也能作為終點(diǎn),因此每個(gè)Facility可能既集中貨物也分發(fā)貨物。相應(yīng)地,一個(gè)Batch可能同時(shí)需要搜集和分發(fā)貨物。假設(shè)將要優(yōu)化的物流配送網(wǎng)絡(luò)已經(jīng)簽訂了一些班次。即優(yōu)化的目標(biāo)是判斷哪些班次繼續(xù)留用,那些班次應(yīng)該提前解除合同。
在模型優(yōu)化之前,必須把原始數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)的數(shù)據(jù)格式輸入模型。這個(gè)步驟包含分析數(shù)據(jù)和清理數(shù)據(jù);依照特定的內(nèi)容、結(jié)構(gòu)和格式的要求準(zhǔn)備好輸入數(shù)據(jù)文件。在預(yù)處理時(shí),對(duì)數(shù)據(jù)進(jìn)行徹底的檢查。數(shù)據(jù)的錯(cuò)誤、矛盾之處都得到更正。預(yù)處理過(guò)程中,最重要的一步就是進(jìn)行聚類預(yù)處理。
在貨物數(shù)量龐大的配送網(wǎng)絡(luò)中,如果把每單貨物都看成一個(gè)Delivery(即把每單貨物都當(dāng)成一個(gè)Delivery變量加入模型中),模型的求解過(guò)程將耗費(fèi)相當(dāng)長(zhǎng)的時(shí)間。所以在模型進(jìn)行求解之前,我們可以使用一些成熟的聚類分析方法,把權(quán)重屬性值比較接近的貨物聚合成一個(gè)Delivery,從而減少模型的計(jì)算復(fù)雜度。模型的解在接近最優(yōu)解的情況下,能極大地縮短計(jì)算時(shí)間。所謂權(quán)重屬性,就是用來(lái)權(quán)衡貨物是否能合成一個(gè)Delivery所參考的重要的屬性。
在實(shí)際中,一種較好的方法是采用基于密度的DBSCAN(Density-based Spatial Clustering of Application with Noise)聚類算法對(duì)貨物進(jìn)行聚類。該算法通過(guò)不斷生長(zhǎng)出足夠高的密度區(qū)域來(lái)進(jìn)行聚類,它能從含有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。
由于要把時(shí)間和類型都類似的貨物進(jìn)行聚類,所以選用貨物的類型、貨物就緒時(shí)間和要求送達(dá)時(shí)間等屬性為聚類的權(quán)重屬性。屬性和算法都確定好了之后,可編寫Java程序?qū)崿F(xiàn)DBSCAN聚類算法。輸入不同的貨物數(shù),輸出聚合好的Delivery。通過(guò)每個(gè)Delivery可以查詢到每個(gè)原始的貨物。見表1:
使用Java程序編制配送網(wǎng)絡(luò)的優(yōu)化系統(tǒng),系統(tǒng)主要由以下幾個(gè)部分構(gòu)成:搜索行程、構(gòu)建CPLEX模型、使用CPLEX進(jìn)行優(yōu)化。將表1的數(shù)據(jù)輸入該優(yōu)化系統(tǒng),得到測(cè)試結(jié)果見表2:
在近似于實(shí)際問(wèn)題規(guī)模(120個(gè)站點(diǎn),300個(gè)班次,502段,10000個(gè)配送貨單)的時(shí)候,可以看出,優(yōu)化系統(tǒng)還是可在一分鐘左右完成計(jì)算。
四、結(jié)論
通過(guò)比較測(cè)試結(jié)果可以發(fā)現(xiàn),使用優(yōu)化系統(tǒng)的總花費(fèi)要比傳統(tǒng)方法少20%,極大地降低了配送的成本。證明通過(guò)聚類分析對(duì)配送貨物進(jìn)行預(yù)處理可有效提高配送網(wǎng)絡(luò)的優(yōu)化性能。
參考文獻(xiàn):
[1]Ian.H.Wjtten,EibeFrank,Data Mining:Pratical Machine Learning Tools and Techniques.Seeond Edition[M]. Elsevier Ine.2005
篇5
1.統(tǒng)計(jì)分析方法
統(tǒng)計(jì)分析方法是利用統(tǒng)計(jì)學(xué)原理對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,從而找出它們之間的關(guān)系和規(guī)律的方法。統(tǒng)計(jì)分析一直是分析空間數(shù)據(jù)的常用方法,側(cè)重空間物體和現(xiàn)象的非空間特性分析。統(tǒng)計(jì)分析方法包括線性與非線性分析、相關(guān)分析、回歸分析、差異分析、判別分析、Bayes網(wǎng)絡(luò)等。統(tǒng)計(jì)分析方法的缺點(diǎn)是難以處理字符型數(shù)據(jù),需要具有領(lǐng)域知識(shí)和統(tǒng)計(jì)知識(shí),一般由具有統(tǒng)計(jì)經(jīng)驗(yàn)的領(lǐng)域?qū)<襾?lái)完成。
2.基于集合論的數(shù)據(jù)挖掘方法
集合論(簡(jiǎn)稱集論)是一門研究集合(由一些抽象數(shù)學(xué)對(duì)象構(gòu)成的整體)的數(shù)學(xué)理論。集論(加上邏輯和謂詞演算)是數(shù)學(xué)的公理化基礎(chǔ)之一,通過(guò)集合、元素及成員關(guān)系來(lái)形式化地表示其他數(shù)學(xué)對(duì)象?;诩险摰臄?shù)據(jù)挖掘方法包括覆蓋正例排斥反例方法、概念層次網(wǎng)絡(luò)方法和基于粗糙集理論方法,其中應(yīng)用最廣泛的是粗糙集(RS)理論方法。這三種方法中都使用了集合理論中的一些概念和原理,并涉及到大量的集合運(yùn)算。
粗糙集理論(Rough Set Theory)是波蘭學(xué)者Z.Pawlak在1982年提出的,它被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息分類分析和知識(shí)獲取。粗糙集(RS)作為集合論的擴(kuò)展,是一種用于研究不完全和不完整信息描述的數(shù)據(jù)挖掘技術(shù),它能夠在缺少數(shù)據(jù)先驗(yàn)知識(shí)的情況下,以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理。
覆蓋正例排斥反例方法是利用覆蓋所有正例、排斥所有反例的思想來(lái)尋找規(guī)則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則(選擇子的合取式),比較典型的算法有Michalski的AQ11方法、洪家榮改進(jìn)的AQ15方法和AE5方法。
概念層次網(wǎng)絡(luò)(HNC)理論是關(guān)于自然語(yǔ)言理解處理的一個(gè)理論體系,它建立了網(wǎng)絡(luò)式概念符號(hào)基元體系,即概念表述的數(shù)學(xué)表示式,這個(gè)表示式能夠與自然語(yǔ)言的詞語(yǔ)建立起語(yǔ)義映射關(guān)系,同時(shí)它是高度數(shù)字化的,每一個(gè)符號(hào)基元(字母或數(shù)字)都具有確定的意義,可充當(dāng)概念聯(lián)想的激活因子。語(yǔ)義網(wǎng)絡(luò)是樹狀的分層結(jié)構(gòu),每一層的若干節(jié)點(diǎn)分別用數(shù)字來(lái)表示,網(wǎng)絡(luò)中的任何一個(gè)節(jié)點(diǎn)都可以通過(guò)從最高層開始到該節(jié)點(diǎn)結(jié)束的一串?dāng)?shù)字唯一確定。HNC通過(guò)概念符號(hào)基元體系把自然語(yǔ)言映射到概念空間,數(shù)字化的概念表達(dá)式可以樹形展開,這樣才能充分利用概念符號(hào)化帶來(lái)的優(yōu)點(diǎn)對(duì)概念進(jìn)行各種運(yùn)算和操作。
3.決策樹方法
決策樹是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程,其表現(xiàn)形式是類似于樹形結(jié)構(gòu)的流程圖。首先,以信息論中的信息增益原理為基礎(chǔ),尋找數(shù)據(jù)庫(kù)中最大信息量的字段,建立決策樹的根節(jié)點(diǎn);然后根據(jù)字段的不同屬性值建立樹的分枝,再在每個(gè)分枝子集中遞歸建立樹的下層分枝和節(jié)點(diǎn),非葉子節(jié)點(diǎn)表示屬性,最下層的葉子節(jié)點(diǎn)表示數(shù)據(jù)集的子類類別,這樣便生成一棵決策樹;最后對(duì)決策樹進(jìn)行剪枝處理,通過(guò)樹形結(jié)構(gòu)產(chǎn)生一組規(guī)則,依照規(guī)則將數(shù)據(jù)集分類。它著眼于從一組無(wú)序、沒(méi)有規(guī)則的數(shù)據(jù)中推理出決策樹表示形式的分類規(guī)則。決策樹方法的優(yōu)點(diǎn)是決策制定的過(guò)程可見,不需要長(zhǎng)時(shí)間構(gòu)造過(guò)程,描述簡(jiǎn)單、易于理解、分類速度快;缺點(diǎn)是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則。決策樹方法擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),而且特別適合大規(guī)模的數(shù)據(jù)處理。常用的決策樹算法有 CLS算法、ID3 算法、C4.5 算法等。
4.聚類分析方法
聚類分析方法是根據(jù)數(shù)據(jù)特征,按一定的距離或相似性系統(tǒng),將數(shù)據(jù)分成一系列相互區(qū)分的類,劃分的標(biāo)準(zhǔn)是類內(nèi)差別最小、類間差別最大。即將實(shí)體對(duì)象或抽象對(duì)象的集合分組,這個(gè)由類似的對(duì)象組成的多個(gè)類的過(guò)程稱為聚類。通過(guò)聚類以后,數(shù)據(jù)集就轉(zhuǎn)化為類集,同類數(shù)據(jù)具有相似的變量值,不同類數(shù)據(jù)的變量值不具有相似性。在知識(shí)模式類型無(wú)法得知的情況下,可以運(yùn)用聚類分析法進(jìn)行分類、識(shí)別。按照模式間的相似程度進(jìn)行自動(dòng)分類的聚類分析法,能夠?qū)⑾嗨贫却蟮哪J綒w為一類。按聚類過(guò)程分,聚類分析法有凝聚算法、分裂算法、增量聚類和劃分聚類。按相似性系統(tǒng),聚類算法可以分成基于距離的方法、基于層次的方法、基于密度的方法以及基于網(wǎng)格的方法。例如,層次方法就是按照一定的層次分解給定的數(shù)據(jù)對(duì)象集合,可以分為分裂層次方法和凝聚層次方法。聚類分析法適用于分析樣本之間的內(nèi)部關(guān)系,合理的評(píng)價(jià)樣本結(jié)構(gòu)。此外,孤立點(diǎn)的檢測(cè)也可以應(yīng)用聚類分析。聚類是為了將某個(gè)對(duì)象從大量的數(shù)據(jù)中分離出來(lái),而不是簡(jiǎn)單地將數(shù)據(jù)集合在一起。目前,聚類分析法已廣泛應(yīng)用于圖像處理、模式識(shí)別、經(jīng)濟(jì)分析等多個(gè)研究領(lǐng)域。
5.人工神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)法是一種模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)(Nerual Net)指由大量的神經(jīng)元(PE)互連而成的網(wǎng)絡(luò),神經(jīng)網(wǎng)路模型通常由輸入層、中間層(亦稱隱層)和輸出層組成。在每個(gè)神經(jīng)元求得輸入值后,再匯總計(jì)算總輸入值;由過(guò)濾機(jī)制比較總輸入值,確定網(wǎng)絡(luò)的輸出值。可以通過(guò)連接一組神經(jīng)元來(lái)模擬復(fù)雜行為,當(dāng)修改連接層的“接度”或權(quán)值時(shí),神經(jīng)網(wǎng)絡(luò)就進(jìn)行了學(xué)習(xí)或“訓(xùn)練”。
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在上述權(quán)值的修改過(guò)程上。這種方法模擬了人腦神經(jīng)元結(jié)構(gòu),通過(guò)大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)自適應(yīng)的非線性動(dòng)態(tài)系統(tǒng),具有對(duì)非線性數(shù)據(jù)快速建模的能力,通過(guò)對(duì)訓(xùn)練集的反復(fù)學(xué)習(xí)來(lái)調(diào)節(jié)自身的網(wǎng)絡(luò)結(jié)構(gòu)和連接權(quán)值,并對(duì)未知的數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)。其優(yōu)點(diǎn)是具有自學(xué)習(xí)、自組織、自適應(yīng)、抗干擾、分布存儲(chǔ)、聯(lián)想記憶、非線性學(xué)習(xí)、大規(guī)模并行處理等功能,對(duì)復(fù)雜情況能得到精確的預(yù)測(cè)結(jié)果;缺點(diǎn)是不適合處理高維度變量,具有“黑箱”性,人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過(guò)程,輸出結(jié)果也難以解釋。目前,神經(jīng)網(wǎng)絡(luò)法主要用于數(shù)據(jù)挖掘的分類、聚類知識(shí)以及特征的挖掘過(guò)程。
篇6
內(nèi)容摘要:本文根據(jù)現(xiàn)實(shí)情況指出國(guó)內(nèi)中小企業(yè)營(yíng)銷面對(duì)的四個(gè)基本問(wèn)題,并據(jù)此提出一個(gè)基于會(huì)員制的數(shù)據(jù)挖掘系統(tǒng)解決方案。此方案由Logistic模型、RFM聚類分析、事件觸發(fā)模型和關(guān)聯(lián)規(guī)則這四種數(shù)據(jù)挖掘技術(shù)構(gòu)成。在介紹其中各技術(shù)的基本原理和建模方法的同時(shí),給出一個(gè)應(yīng)用事例。通過(guò)運(yùn)用會(huì)員制策略收集顧客相關(guān)資料并利用數(shù)據(jù)挖掘技術(shù)加以分析,制定具有目標(biāo)指向性的營(yíng)銷活動(dòng),以提高企業(yè)的營(yíng)銷水平。
關(guān)鍵詞:會(huì)員制 數(shù)據(jù)挖掘 RFM聚類分析 關(guān)聯(lián)規(guī)則
現(xiàn)階段,國(guó)內(nèi)廣大中小型企業(yè)正面臨著自身發(fā)展的瓶頸。在圍繞增加銷售收入所設(shè)計(jì)的營(yíng)銷策略中,企業(yè)傾向于把重點(diǎn)放在開發(fā)新客戶方面,而忽略了對(duì)舊客戶的維護(hù)。這種情況導(dǎo)致企業(yè)難以培養(yǎng)有忠誠(chéng)度的顧客,大量流失潛在的優(yōu)質(zhì)客戶,從而陷入對(duì)客戶不斷開發(fā)、不斷流失的惡性循環(huán)。部分企業(yè)借鑒外國(guó)同行經(jīng)驗(yàn),采取會(huì)員制策略,但其數(shù)據(jù)庫(kù)只收集最基本的會(huì)員資料,營(yíng)銷手段單一,如分發(fā)廣告信息、消費(fèi)打折等活動(dòng),而忽略了對(duì)會(huì)員本身的分析,如人口和心理特征、消費(fèi)行為等,造成了浪費(fèi)企業(yè)執(zhí)行成本、不恰當(dāng)?shù)男畔⒘铑櫩团c企業(yè)關(guān)系惡化等后果。同樣利用會(huì)員制收集信息的便利性,在北美和歐洲,基于數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)庫(kù)營(yíng)銷已經(jīng)發(fā)展日趨成熟,大小企業(yè)都先后加入到這一行列中(羅茂初等,2007)。
本文提出一套基于會(huì)員制的數(shù)據(jù)挖掘系統(tǒng)解決方案,通過(guò)運(yùn)用相應(yīng)的數(shù)據(jù)挖掘技術(shù)解決營(yíng)銷活動(dòng)中的四個(gè)基本問(wèn)題,加深企業(yè)對(duì)顧客的認(rèn)識(shí),從而有針對(duì)性地制定營(yíng)銷策略。
會(huì)員制信息的數(shù)據(jù)挖掘方案
(一)營(yíng)銷活動(dòng)的四個(gè)基本問(wèn)題
在為會(huì)員制定營(yíng)銷手段的過(guò)程中,必須回答以下四個(gè)基本問(wèn)題:
一是什么是影響會(huì)員對(duì)營(yíng)銷手段做出回應(yīng)的顯著因子?如何尋找出最可能對(duì)營(yíng)銷手段做出回應(yīng)的會(huì)員?二是企業(yè)所擁有的會(huì)員可以分為哪幾類?每個(gè)種類的會(huì)員的特征有什么不同?三是哪些事件(或日子)能聯(lián)系會(huì)員與企業(yè)的產(chǎn)品,成為營(yíng)銷活動(dòng)開始的契機(jī)?四是會(huì)員的消費(fèi)習(xí)慣和購(gòu)物次序如何?
只有完整回答以上問(wèn)題,企業(yè)才算得上了解自己的會(huì)員,營(yíng)銷手段才能做到有的放矢,切實(shí)地提高企業(yè)的營(yíng)銷能力。
(二)系統(tǒng)實(shí)現(xiàn)框架
為了解決上述問(wèn)題,系統(tǒng)由四種數(shù)據(jù)挖掘技術(shù)構(gòu)成。其中Logistic回歸模型用于尋找影響回應(yīng)率的顯著因子。RFM聚類分析通過(guò)提取會(huì)員新鮮度、消費(fèi)頻率和消費(fèi)金額三個(gè)指標(biāo)值進(jìn)行聚類分析,劃分會(huì)員種類。而事件觸發(fā)模型是企業(yè)尋找特殊營(yíng)銷事件開展的重要工具。關(guān)聯(lián)規(guī)則挖掘通過(guò)分析會(huì)員的購(gòu)物籃尋找出各商品之間潛在的關(guān)系。企業(yè)可以據(jù)此決定商品的擺設(shè)、捆綁銷售策略和優(yōu)惠銷售策略等營(yíng)銷手段等。系統(tǒng)框架結(jié)構(gòu)如圖1所示。
(三)建模方法
1.Logistic回歸模型。由于Logistic回歸分析所建立的預(yù)測(cè)模型是根據(jù)過(guò)去的營(yíng)銷數(shù)據(jù)記錄計(jì)算獲得,因此有一定的滯后性。具體做法是:從上一次營(yíng)銷活動(dòng)記錄中選取出所有可能影響會(huì)員做出回應(yīng)的變量為自變量,用會(huì)員是否回應(yīng)的結(jié)果作為因變量,用0表示沒(méi)有回應(yīng),1表示有回應(yīng)。這樣通過(guò)Logistic回歸計(jì)算所得的結(jié)果是一個(gè)會(huì)員對(duì)于營(yíng)銷活動(dòng)做出回應(yīng)的概率。篩選出通過(guò)顯著性檢驗(yàn)的變量,所獲得的預(yù)測(cè)模型則可用于實(shí)踐。
2.RFM聚類分析。RFM具體定義:R―新鮮度,指會(huì)員最近一次交易是在多久以前。時(shí)間距離越近,企業(yè)和會(huì)員的關(guān)系就越“新鮮”。通常按天數(shù)劃分最近一次交易時(shí)間。F―消費(fèi)頻率,指會(huì)員在一定時(shí)間間隔內(nèi)和企業(yè)交易次數(shù)。時(shí)間間隔一般取半年或一年。M―消費(fèi)金額,指會(huì)員每次平均消費(fèi)金額。
RFM的指標(biāo)各項(xiàng)數(shù)據(jù)通過(guò)營(yíng)銷記錄表定期(如每半年)自動(dòng)生成。然后應(yīng)用于聚類分析。此處選擇K-Mean clustering,即直接聚類,該聚類分析算法如下(辛愛(ài)莉、衣龍海、張林,2008):
設(shè)要把數(shù)據(jù)庫(kù)中所有會(huì)員分為K組。
第一步為任意選擇K位成員,以他們指標(biāo)下的各項(xiàng)數(shù)據(jù)作為每一組的中心;第二步為計(jì)算其他成員指標(biāo)下的各項(xiàng)數(shù)據(jù)與每個(gè)組的中心的合成距離。合成距離的計(jì)算取幾何距離公式:,一個(gè)會(huì)員離Ki組的中心越近,他就屬于該組。第三步為將所有成員根據(jù)距離分配到各個(gè)組后,重新計(jì)算各組的中心。方法為取每個(gè)組所有成員的特征平均值。重復(fù)第二步。重復(fù)第三步。
循環(huán)以上步驟,一直到計(jì)算出的中心與上一次計(jì)算的中心完全相等,則循環(huán)結(jié)束。所獲得的結(jié)果就是最后分類,每組的中心代表這個(gè)組的特點(diǎn)。
3.事件觸發(fā)模型。該模型主要作用是增進(jìn)會(huì)員對(duì)企業(yè)的感情和提醒會(huì)員于特殊時(shí)間購(gòu)買本企業(yè)相關(guān)產(chǎn)品。
事件分成兩類:常規(guī)事件和突發(fā)事件。常規(guī)事件包括會(huì)員生日和有營(yíng)銷機(jī)會(huì)的節(jié)日。突發(fā)事件是指事前無(wú)法預(yù)料的,能為企業(yè)進(jìn)行營(yíng)銷所用的特殊事件。
部分參考節(jié)日:元旦,農(nóng)歷新年,情人節(jié),三八婦女節(jié),清明節(jié),勞動(dòng)節(jié),兒童節(jié),端午節(jié),父親節(jié),母親節(jié),七夕,中秋節(jié),國(guó)慶,重陽(yáng),冬至,圣誕節(jié)等。
部分參考事件:開學(xué),企業(yè)新品推薦,運(yùn)動(dòng)會(huì)或重大比賽,商業(yè)演出,募捐活動(dòng)等。
實(shí)施方法:為根據(jù)RFM聚類分析所劃分的會(huì)員群設(shè)計(jì)各自對(duì)應(yīng)的宣傳文案和營(yíng)銷策略,在事件發(fā)生的倒數(shù)第三日通過(guò)電子郵件發(fā)送,倒數(shù)第二日通過(guò)手機(jī)短信發(fā)送,以確保有效到達(dá)率。適當(dāng)環(huán)境可考慮使用直郵。統(tǒng)計(jì)回應(yīng)記錄及會(huì)員的反饋意見。事后分析,作為本次營(yíng)銷活動(dòng)的總結(jié)和下次策劃的參考。
此外,特定行業(yè)應(yīng)針對(duì)其顧客的消費(fèi)和行為的規(guī)律事先制訂相應(yīng)的觸發(fā)模型。
4.關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)規(guī)則的挖掘算法中,以Agrawal等人提出的Apriori算法最具有影響力和最為常用。Apriori算法利用了頻繁項(xiàng)集的基本原理:若項(xiàng)集X是頻繁項(xiàng)集,則X的任意子集也必定是頻繁項(xiàng)集;反之,若X有一子集不是頻繁項(xiàng)集,則X也必然不是頻繁項(xiàng)集。
設(shè)產(chǎn)品集C={Cj,j=1,2,……,n},每次交易事件Ti=i1C1+i2C2+……+inCn,其中ij取值為0或1。此處的加號(hào)是和的意思,并非直接相加。
交易集為U={Ti|i=1,2,……,m},所以可抽象出矩陣:
設(shè)support(Cj)=/m,若support(Cj)≥min_support_1,將Cj加入到集合Z中。重復(fù)上述步驟,直到Z包含所有符合條件的Cj。假設(shè)共有k個(gè)符合條件,重新編號(hào)為D1,D2……Dk。其對(duì)應(yīng)的ij亦同時(shí)跟隨變化。兩兩交叉組合,共計(jì)k(k-1)/2個(gè)。
設(shè)support(DpDq)=ipiq/m,若support(DpDq)min_support_2,令Mpq=DpDq,輸出到關(guān)聯(lián)候選集A和集合Z中。
重復(fù)上述步驟,直到Z包含所有符合條件的Mpq,并刪除集合中所有的Cj。把Z內(nèi)的項(xiàng)兩兩交叉組合,并循環(huán)以上方法,直到集合Z為空集。
此時(shí)開始用置信度排除出重要的關(guān)聯(lián)規(guī)則:由A,B兩個(gè)項(xiàng)生成的關(guān)聯(lián)規(guī)則有兩個(gè):AB和BA ;由A,B和C三個(gè)項(xiàng)生成的關(guān)聯(lián)規(guī)則有三個(gè):A,BC;B,CA和C,AB。如此類推,N個(gè)項(xiàng)可以生成N個(gè)關(guān)聯(lián)規(guī)則。當(dāng)檢驗(yàn)只有兩個(gè)項(xiàng)DpDq的關(guān)聯(lián)規(guī)則時(shí),設(shè)confidence(DpDq)=iqip/iq,confidence(DqDp)=iqip/ip,若confidence()≥min_confidence,則把該關(guān)聯(lián)規(guī)則輸出,否則刪除。
為簡(jiǎn)化計(jì),可把min_support和min_confidence先設(shè)定為一固定值。特殊情況下再作調(diào)整。同理檢驗(yàn)由更多項(xiàng)生成的關(guān)聯(lián)規(guī)則。其中confidence(AB)=P(AB)/P(B),此時(shí)A為由一個(gè)以上的單項(xiàng)組成的復(fù)合項(xiàng)目,B依然為單項(xiàng)。
若需要進(jìn)行多層關(guān)聯(lián)規(guī)則分析,只需擴(kuò)充C集,其他仍然按以上步驟分析。多層關(guān)聯(lián)規(guī)則(孫景、李峰,2008)有助于發(fā)掘出特定商品與品類之間的潛在關(guān)系。
應(yīng)用示例
設(shè)某運(yùn)動(dòng)用品店收集到26位會(huì)員的消費(fèi)記錄。其中性別是1代表男性,0代表女性的虛擬變量,回應(yīng)項(xiàng)中1代表有回應(yīng),0代表沒(méi)有回應(yīng)?,F(xiàn)抽取性別、新鮮度、消費(fèi)頻率和消費(fèi)金額作Logistic回歸,結(jié)果如表1所示。
由表1可知,消費(fèi)頻率是影響會(huì)員是否做出回應(yīng)的重要因子,消費(fèi)頻率越高,回應(yīng)的可能性越大。因此,應(yīng)該按此思路設(shè)計(jì)營(yíng)銷手段,爭(zhēng)取顧客多次回頭,如積分升級(jí)計(jì)劃,每周(月)的優(yōu)惠活動(dòng)等,務(wù)求通過(guò)增加顧客的消費(fèi)頻率提高銷售收入。
提取新鮮度、消費(fèi)頻率和消費(fèi)金額三個(gè)變量項(xiàng)作直接聚類分析,在置信度為90%的條件下,獲得表2。
以消費(fèi)頻率和消費(fèi)金額為主要?jiǎng)澐謽?biāo)準(zhǔn),把26位會(huì)員分成普通組和重點(diǎn)組。普通組成員的特征是消費(fèi)頻率較低,消費(fèi)金額較小,因此營(yíng)銷的主要目的是增加此組人群對(duì)企業(yè)的好感以及依賴,培養(yǎng)忠誠(chéng)度,使其轉(zhuǎn)為重點(diǎn)組成員;重點(diǎn)組成員的特征是消費(fèi)頻率較高,消費(fèi)金額是普通組的2倍以上。因此,提供最優(yōu)質(zhì)的服務(wù)與適當(dāng)?shù)淖尷麅?yōu)惠是維系此組成員必不可少的手段。
會(huì)員生日、學(xué)生假期、重大比賽或者明星活動(dòng)是有利于運(yùn)動(dòng)店啟動(dòng)事件營(yíng)銷的契機(jī)。
產(chǎn)品集={球服,籃球,球襪,紀(jì)念品,其他裝備},又收集到如下的會(huì)員交易集
U=T
根據(jù)前部分的計(jì)算公式,假設(shè)min_Support_1=30%,則A={(球服,籃球),(球服,球襪),(球服,紀(jì)念品),(籃球,其他裝備)},同時(shí)生成Z={(球服,籃球,球襪),(球服,籃球,其他裝備),(球服,籃球,紀(jì)念品),(球服,球襪,紀(jì)念品)}。繼續(xù)計(jì)算,假設(shè)min_Support_2=20%,則(球服,球襪,紀(jì)念品)加入到A集中。此時(shí)A={(球服,籃球),(球服,球襪),(球服,紀(jì)念品),(籃球,其他裝備),(球服,球襪,紀(jì)念品)}。
通過(guò)置信度篩選出強(qiáng)關(guān)聯(lián)規(guī)則。假設(shè)min_Confidence_1=60%,保留(球服球襪),(球服紀(jì)念品),(籃球其他裝備),(其他裝備籃球)為強(qiáng)關(guān)聯(lián)規(guī)則。綜上所述,我們發(fā)現(xiàn)了六個(gè)可供使用的強(qiáng)關(guān)聯(lián)規(guī)則:A={(球服球襪),(球服紀(jì)念品),(籃球其他裝備),(其他裝備籃球),(球服,球襪紀(jì)念品),(球服,紀(jì)念品球襪)}。
針對(duì)這些關(guān)聯(lián)規(guī)則,可以設(shè)計(jì)如下營(yíng)銷手段:球服擺放于顯眼處,球襪擺放在其相近位置,并且可用優(yōu)惠價(jià)購(gòu)買球服與相對(duì)應(yīng)的球襪;開發(fā)對(duì)應(yīng)球服的紀(jì)念品,如運(yùn)動(dòng)手表、背包、水壺及相應(yīng)隊(duì)伍的明星人物模型等;籃球與其他裝備打包搭配銷售。
討論與結(jié)語(yǔ)
針對(duì)各個(gè)企業(yè)的特殊性,在本解決方案基礎(chǔ)上應(yīng)相應(yīng)增加原始數(shù)據(jù)庫(kù)的資料,以確保企業(yè)可以掌握足夠多的信息進(jìn)行數(shù)據(jù)挖掘。同時(shí)要及時(shí)做事后測(cè)評(píng)和總結(jié),不斷累積應(yīng)用數(shù)據(jù)挖掘技術(shù)的經(jīng)驗(yàn)。此外,必須結(jié)合過(guò)往經(jīng)營(yíng)活動(dòng)的經(jīng)驗(yàn),以篩選不合理的挖掘結(jié)果。最后,在企業(yè)有一定條件時(shí),應(yīng)該增加本系統(tǒng)的挖掘功能,通過(guò)建立更多不同種類的數(shù)學(xué)模型來(lái)更深入了解顧客群的情況。
本文從現(xiàn)實(shí)的可行性出發(fā),提出了一套基于會(huì)員制的數(shù)據(jù)挖掘系統(tǒng)解決方案,希望能有助于中小企業(yè)合理地運(yùn)用會(huì)員制進(jìn)行數(shù)據(jù)挖掘。本方案以四種數(shù)據(jù)挖掘技術(shù)為核心,通過(guò)對(duì)四個(gè)基本問(wèn)題的解答獲取有效的數(shù)據(jù)挖掘信息,設(shè)計(jì)有針對(duì)性的營(yíng)銷手段,從而切實(shí)地提升企業(yè)的營(yíng)銷水平。
參考文獻(xiàn):
1.羅茂初等.數(shù)據(jù)庫(kù)營(yíng)銷[M].經(jīng)濟(jì)管理出版社,2007
2.辛愛(ài)莉,衣龍海,張林.聚類算法在電子商務(wù)客戶細(xì)分中的應(yīng)用[J].商場(chǎng)現(xiàn)代化,2008(530)
3.AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Databases[M].Washington DC:Proc.ACMSIGMOD Int.Conf.,1993
篇7
【關(guān)鍵詞】主成分分析法;系統(tǒng)聚類分析法;逐步回歸法
【Abstract】In order to evaluate the accuracy of the wine tasters’, we first calculate the quadratic sum of difference between the mean score and the score given by that wine taster, then classify the grape wine. Using principal components analysis and systematical clustering method, we classify the grape. At last, we apply the stepwise regression method to build a model, indicating that the quality of the grape wine can be evaluated by the physical and chemical indexes of the grape and the wine.
【Key words】Principal components analysis;Systematical clustering method;Stepwise regression method
0 引言
葡萄酒的質(zhì)量一般利用對(duì)評(píng)酒員對(duì)其各項(xiàng)指標(biāo)的打分求和進(jìn)行評(píng)價(jià),而釀酒葡萄的好壞與葡萄酒的質(zhì)量有很大的關(guān)系[1]。本文利用所給數(shù)據(jù),采用多元統(tǒng)計(jì)分析的方法,完成了對(duì)釀酒葡萄的分級(jí),并建立了釀酒葡萄與葡萄酒的理化指標(biāo)的聯(lián)系模型和葡萄和葡萄酒的理化指標(biāo)對(duì)葡萄酒質(zhì)量的影響模型。
1 數(shù)據(jù)來(lái)源與模型假設(shè)
本文數(shù)據(jù)來(lái)源于2012年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽A題[2],根據(jù)所給數(shù)據(jù),做出以下假設(shè):(1)假設(shè)葡萄酒的生產(chǎn)加工流程相同且固定,即葡萄酒的質(zhì)量只與葡萄有關(guān);(2)假設(shè)評(píng)酒員均有一定資歷,打分情況可以反映葡萄酒質(zhì)量的真實(shí)水平;(3)假設(shè)評(píng)酒員打分相互獨(dú)立,且各組評(píng)酒員的打分服從正態(tài)分布。
2 符號(hào)系統(tǒng)
N1――紅葡萄酒的樣品總數(shù);N2――白葡萄酒的樣品總數(shù);N――各組評(píng)酒員的人數(shù);x1ij――第m組評(píng)酒員號(hào)i對(duì)紅葡萄酒樣品j的評(píng)分;ti――葡萄樣本n個(gè)一級(jí)理化指標(biāo)中的第i個(gè)指標(biāo)。
3 釀酒葡萄分級(jí)模型
3.1 數(shù)據(jù)處理
為了對(duì)葡萄進(jìn)行分級(jí),首先對(duì)各理化指標(biāo)進(jìn)行歸一化處理,再確定其所對(duì)應(yīng)的葡萄酒的質(zhì)量,而質(zhì)量是由評(píng)酒員對(duì)其分類指標(biāo)打分求和而確定的,故評(píng)酒員的打分直接關(guān)系到對(duì)葡萄酒的分級(jí),由于存在個(gè)人喜好導(dǎo)致的偏差,通過(guò)計(jì)算各評(píng)酒員在所有葡萄酒樣品打分與均值差的平方和來(lái)確定該評(píng)酒員的準(zhǔn)確度,結(jié)果見表1。本文選取平方和最小的前十位評(píng)酒員的評(píng)分作為分級(jí)的依據(jù),分別為:第一組的評(píng)酒員1、5、10,以及第二組的評(píng)酒員1、2、3、4、5、7、9。
表1 評(píng)酒員的準(zhǔn)確度測(cè)評(píng)表
3.2 釀酒葡萄理化指標(biāo)的主成分分析模型
釀酒葡萄的理化指標(biāo)在不同程度上反映了研究對(duì)象的某些信息,但不同理化指標(biāo)之間會(huì)有一些相關(guān)性,而且由于變量過(guò)多,在某種程度上使問(wèn)題的研究變得復(fù)雜,因此,本文用主成分分析法對(duì)所研究問(wèn)題進(jìn)行簡(jiǎn)化處理[4]。
對(duì)于27個(gè)紅葡萄樣本的30個(gè)一級(jí)理化指標(biāo)組成的向量依次設(shè)為t1,t2,…,tn,取它們的線性組合指標(biāo)為F1,F(xiàn)2,…,F(xiàn)s(s≤m),即
F1=z11t1+z12t2+…+z1ntn,F(xiàn)2=z21t1+z22t2+…+z2ntn, ……Fs=zs1t1+zs2t2+…+zsntn.(1)
式(1)中的Fi,F(xiàn)j(i≠j,j=1,2,…,s)相互無(wú)關(guān),且Fs是與F1,F(xiàn)2,…,F(xiàn)s-1都不相關(guān)的t1,t2,…,tn的所有線性組合中方差最大者。Fs稱為t1,t2,…,tn的第s主成分。設(shè)t1,t2,…,tn各向量的數(shù)據(jù)為tij(i,j=1,2,…,n),計(jì)算出相關(guān)系數(shù)矩陣:R=(rij)n×n,求其特征值λi(i=1,2,…,n),并由大到小排序,并分別求出對(duì)應(yīng)的單位特征向量ei=(ei1,ei2,…,ein)(i=1,2,…,n),繼而求出主成分Fi的貢獻(xiàn)率hi和累計(jì)貢獻(xiàn)率Hi,取累計(jì)貢獻(xiàn)率為85%~95%的s(s≤n)所對(duì)應(yīng)的前s個(gè)主成分。計(jì)算主成分載荷zij=ρ(Fi,tj)=■(i=1,2,…,s;j=1,2,…,n),繼而的相互各主成分的得分矩陣Z=(zij)n×n,部分結(jié)果見表2。白葡萄樣品的理化指標(biāo)的處理方法同上。通過(guò)累計(jì)貢獻(xiàn)率表知,紅葡萄樣品和白葡萄樣品的前三個(gè)主成分累計(jì)貢獻(xiàn)率已經(jīng)超過(guò)95%,因此均取s=3;將得分矩陣中的各數(shù)據(jù)值帶入式(1),即可得到紅葡萄樣品和白葡萄樣品的主成分。
表2 紅葡萄樣品協(xié)方差矩陣特征值,特征貢獻(xiàn)率和累計(jì)貢獻(xiàn)率表(部分)
3.3 釀酒葡萄理化指標(biāo)的聚類分析模型
篇8
關(guān)鍵詞:Excel 審計(jì) 數(shù)據(jù)挖掘 方法
一、引言
隨著信息技術(shù)的廣泛應(yīng)用,審計(jì)數(shù)據(jù)變得越來(lái)越龐大和復(fù)雜,審計(jì)線索被日益復(fù)雜的信息系統(tǒng)和海量的業(yè)務(wù)數(shù)據(jù)所掩蓋,審計(jì)人員面對(duì)各種以不同形式存儲(chǔ)的數(shù)據(jù)資料進(jìn)行分析,僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索查詢和統(tǒng)計(jì)分析方法是難以實(shí)現(xiàn)審計(jì)目標(biāo)的。隨著計(jì)算機(jī)技術(shù)在審計(jì)中的應(yīng)用,計(jì)算機(jī)輔助審計(jì)技術(shù)得到了快速的發(fā)展。計(jì)算機(jī)輔助審計(jì)技術(shù)( Computer- aided Auditing Technique)是現(xiàn)代審計(jì)人員完成審計(jì)任務(wù)所不可缺少的工具。審計(jì)人員可以利用計(jì)算機(jī)編制審計(jì)計(jì)劃、審計(jì)工作底稿,進(jìn)行審計(jì)分析,查詢有關(guān)法規(guī)條例,分析審計(jì)資料,并對(duì)計(jì)算機(jī)會(huì)計(jì)系統(tǒng)進(jìn)行測(cè)試等。從計(jì)算機(jī)輔助審計(jì)的實(shí)踐來(lái)看,雖然已由概念發(fā)展為一系列的可操作性實(shí)踐,但由于審計(jì)工作對(duì)于審計(jì)人員素質(zhì)的依賴性較強(qiáng),計(jì)算機(jī)輔助功能的發(fā)揮尚且有限,特別是在以實(shí)質(zhì)性分析為核心的審計(jì)證據(jù)查找工作中,尚缺乏有效的輔助工具。而在計(jì)算機(jī)應(yīng)用研究中,面對(duì)“數(shù)據(jù)豐富,知識(shí)貧乏”的挑戰(zhàn), 數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)等面向分析決策的計(jì)算機(jī)技術(shù)應(yīng)運(yùn)而生。這些技術(shù)無(wú)疑為現(xiàn)代審計(jì)提供了新的思路和方法,也為審計(jì)信息化的發(fā)展提供了新的途徑。
二、審計(jì)中數(shù)據(jù)挖掘技術(shù)應(yīng)用現(xiàn)狀及Excel數(shù)據(jù)挖掘工具的功能
數(shù)據(jù)挖掘(Date Mining)是通過(guò)仔細(xì)分析大量數(shù)據(jù)來(lái)提示有意義的新的關(guān)系,一般采取排除人為因素而通過(guò)自動(dòng)的方式來(lái)發(fā)現(xiàn)數(shù)據(jù)中新的、隱藏的或不可預(yù)見的模式。數(shù)據(jù)挖掘是在對(duì)數(shù)據(jù)集全面而深刻認(rèn)識(shí)的基礎(chǔ)上,對(duì)數(shù)據(jù)內(nèi)在和本質(zhì)的高度抽象與概括。
( 一 )審計(jì)中數(shù)據(jù)挖掘技術(shù)應(yīng)用現(xiàn)狀隨著計(jì)算機(jī)硬件和軟件的飛速發(fā)展,尤其是數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用的日益普及,人們面臨著快速擴(kuò)張的大量數(shù)據(jù),由于分析工具的有限,形成了一種獨(dú)特的現(xiàn)象“豐富的數(shù)據(jù),貧乏的知識(shí)”。為有效解決這一問(wèn)題,自20世紀(jì)90年代開始,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來(lái),數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,得益于目前巨大數(shù)據(jù)資源以及對(duì)將這些數(shù)據(jù)資源轉(zhuǎn)換為信息和知識(shí)資源的巨大需求。數(shù)據(jù)挖掘技術(shù)從產(chǎn)生起就是面向應(yīng)用的。目前,數(shù)據(jù)挖掘已在銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng))等領(lǐng)域中成為決策支持的有效工具。數(shù)據(jù)挖掘的典型應(yīng)用包括數(shù)據(jù)庫(kù)營(yíng)銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場(chǎng)分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等。這些應(yīng)用都是擺脫了原有行業(yè)的理論框架,從數(shù)據(jù)或者交易記錄的自身規(guī)律出發(fā),按照各自的目標(biāo),完成知識(shí)發(fā)現(xiàn)過(guò)程,從而為決策者提供有價(jià)值的信息。利用數(shù)據(jù)挖掘技術(shù)對(duì)被審計(jì)單位的海量數(shù)據(jù)進(jìn)行發(fā)掘式審計(jì),是現(xiàn)代審計(jì)技術(shù)方法一大突破,這一思路在審計(jì)研究和實(shí)踐中已并不陌生。根據(jù)數(shù)據(jù)挖掘原理,基于數(shù)據(jù)控制的審計(jì)流程可分為以下階段:數(shù)據(jù)預(yù)處理、發(fā)現(xiàn)規(guī)律、規(guī)律庫(kù)的數(shù)據(jù)更新、審計(jì)系統(tǒng)的訓(xùn)練與測(cè)試,以及對(duì)形成的可疑數(shù)據(jù)進(jìn)行審計(jì)判斷。鑒于數(shù)據(jù)挖掘在其他領(lǐng)域的成功應(yīng)用,學(xué)者們認(rèn)為在理論上,數(shù)據(jù)挖掘有助于降低審計(jì)風(fēng)險(xiǎn),提高審計(jì)質(zhì)量。同時(shí),在審計(jì)實(shí)踐中的已出現(xiàn)了一些數(shù)據(jù)挖掘應(yīng)用的典型案例,如基于關(guān)聯(lián)規(guī)則的海關(guān)審單商品分類審計(jì)、基于孤立點(diǎn)挖掘的職工工資分析審計(jì)、利用聚類技術(shù)審計(jì)交易記錄等,這些實(shí)踐取得了不錯(cuò)的效果。由此可見,數(shù)據(jù)挖掘作為一種成熟的數(shù)據(jù)分析手段能夠有效地從海量數(shù)據(jù)中提取有價(jià)值的信息,并已在審計(jì)工作中得到了初步應(yīng)用。但由于數(shù)據(jù)挖掘技術(shù)包括大量的統(tǒng)計(jì)技術(shù)和數(shù)學(xué)建模技術(shù),審計(jì)人員很難在短時(shí)間內(nèi)掌握,多樣性及復(fù)雜性使得這一應(yīng)用還沒(méi)有達(dá)到“落地”效果,尋找一種易于理解的數(shù)據(jù)挖掘工具顯得十分必要的。
( 二 )Excel數(shù)據(jù)挖掘工具的功能當(dāng)前數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具和通用的數(shù)據(jù)挖掘工具。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)特定領(lǐng)域的問(wèn)題提供解決方案。這類工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用,而且往往采用特殊的算法,可以處理特殊的數(shù)據(jù),發(fā)現(xiàn)的知識(shí)可靠度也比較高。如IBM公司的Advanced Scout系統(tǒng)就是針對(duì)NBA的數(shù)據(jù),幫助教練進(jìn)行優(yōu)化戰(zhàn)術(shù)組合的工具。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型,如IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng)、SGI公司開發(fā)的MineSet、加拿大SimonFrase大學(xué)開發(fā)的DBMiner系統(tǒng)等。目前很多大型數(shù)據(jù)庫(kù)和聯(lián)機(jī)分析系統(tǒng)本身也集成了數(shù)據(jù)挖掘技術(shù),使人們利用數(shù)據(jù)挖掘更為方便和快捷。然而對(duì)于一般的審計(jì)工作人員而言,這些工具都較為陌生,很難直接應(yīng)用于工作之中。從當(dāng)前計(jì)算機(jī)輔助審計(jì)的發(fā)展來(lái)看,Excel是最為審計(jì)人員熟悉和接受的軟件,具有簡(jiǎn)單易于操作的特點(diǎn)。特別是Microsoft公司為Excel 2007以后版本提供了一個(gè)免費(fèi)的數(shù)據(jù)挖掘外接程序SQLServer2005_DMAddin.msi,安裝完SQL Server 2005后再安裝該外接程序,在Excel中出現(xiàn)“數(shù)據(jù)挖掘”選項(xiàng)卡,這一模塊包括九大模型:決策樹、貝葉斯概率分類、關(guān)聯(lián)分析、聚類分析、時(shí)序聚類、線性回歸、Logistic回歸、類神經(jīng)網(wǎng)絡(luò)和時(shí)間序列分析,基本涵蓋了主要的數(shù)據(jù)挖掘技術(shù)方法。Excel2007數(shù)據(jù)挖掘功能分成七大區(qū)塊的工具:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、準(zhǔn)確性和驗(yàn)證、模型用法、管理、連接和幫助。數(shù)據(jù)準(zhǔn)備是指在開始數(shù)據(jù)挖掘之前,對(duì)數(shù)據(jù)進(jìn)行清除整理;數(shù)據(jù)建模是指開始進(jìn)行數(shù)據(jù)挖掘步驟,可以建立挖掘模型、預(yù)測(cè)分析等。其中數(shù)據(jù)模型化的方法有分類、估計(jì)、關(guān)聯(lián)、預(yù)測(cè)等。準(zhǔn)確性和驗(yàn)證是指通過(guò)圖型來(lái)查看挖掘模型;模型用法是指對(duì)已構(gòu)建好的挖掘模型條件式查詢其結(jié)果;管理是對(duì)已構(gòu)建好的挖掘模型管理其挖掘結(jié)構(gòu);連接是設(shè)定與追蹤Analysis Services的連接;幫助是指可取得數(shù)據(jù)挖掘加載項(xiàng)的使用說(shuō)明。
三、基于Excel的審計(jì)數(shù)據(jù)挖掘的技術(shù)方法
查錯(cuò)糾弊是審計(jì)的基本作用之一,這使得尋找異常數(shù)據(jù)成為重要審計(jì)線索的發(fā)現(xiàn)途徑,運(yùn)用數(shù)據(jù)挖掘技術(shù)可以獲得蘊(yùn)涵在審計(jì)數(shù)據(jù)內(nèi)部的模式、規(guī)律,審計(jì)人員能夠有效發(fā)現(xiàn)經(jīng)濟(jì)業(yè)務(wù)的異常。結(jié)合Excel所提供的數(shù)據(jù)挖掘工具中的九個(gè)模型進(jìn)行審計(jì)分析,其審計(jì)數(shù)據(jù)挖掘框架如(圖1)所示。審計(jì)中所發(fā)現(xiàn)的異常情況反映在數(shù)據(jù)上,通常是離群點(diǎn)和孤立點(diǎn)。離群點(diǎn)是偏離一般規(guī)律和趨勢(shì)的也數(shù)據(jù),其分析通常是建立在估計(jì)預(yù)測(cè)分析基礎(chǔ)之上的。孤立點(diǎn)是數(shù)據(jù)源中顯著不同于其他數(shù)據(jù)的對(duì)象,其分析是建立在分類分析基礎(chǔ)上。就Excel數(shù)據(jù)挖掘工具所提供的九種模型而言,可以有效實(shí)現(xiàn)估計(jì)預(yù)測(cè)分析和分類分析,進(jìn)而用于離群點(diǎn)和孤立點(diǎn)的挖掘。
( 一 )離群點(diǎn)分析 離群點(diǎn)挖掘是過(guò)發(fā)現(xiàn)和分析明顯偏離其他數(shù)據(jù)、不滿足一般模式或規(guī)律數(shù)據(jù)的離群數(shù)據(jù),找到有價(jià)值審計(jì)信息的一種技術(shù)方法。離群點(diǎn)是針對(duì)估計(jì)預(yù)測(cè)分析所得出的數(shù)據(jù)規(guī)律和趨勢(shì)而言的。在Excel數(shù)據(jù)挖掘工具,估計(jì)預(yù)測(cè)分析工具包括線性回歸、Logistic回歸、類神經(jīng)網(wǎng)絡(luò)、時(shí)間序列分析和關(guān)聯(lián)分析。線性回歸主要用于了解自變量與因變量關(guān)系的方向及強(qiáng)度,以便用自變量建立模型對(duì)因變量做出預(yù)測(cè);Logistic回歸是對(duì)類別數(shù)據(jù)進(jìn)行的回歸分析,可以用于討論定性變量和數(shù)值變量對(duì)同一類別變量的影響和關(guān)系;類神經(jīng)網(wǎng)絡(luò)是模仿人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模型,它可以根據(jù)輸入變量與目標(biāo)變量進(jìn)行自主學(xué)習(xí),并根據(jù)學(xué)習(xí)提到的知識(shí)不斷調(diào)整參數(shù)來(lái)建立數(shù)學(xué)模型,它多用于數(shù)據(jù)具有高度非純屬且變量中具有相當(dāng)程度的交互效應(yīng)的情形,使用類神經(jīng)網(wǎng)絡(luò)無(wú)須了解系統(tǒng)的數(shù)學(xué)模型的具體形式,而直接用神經(jīng)網(wǎng)絡(luò)取代系統(tǒng)模型,得到輸入與輸出之間的對(duì)應(yīng)關(guān)系;時(shí)間序列分析用于探索與時(shí)間相關(guān)數(shù)據(jù)的變化規(guī)律,進(jìn)行趨勢(shì)預(yù)測(cè);關(guān)聯(lián)分析是分析發(fā)現(xiàn)不同變量或個(gè)體間的關(guān)系程度。通過(guò)這些估計(jì)預(yù)測(cè)分析模型,審計(jì)人員可以發(fā)現(xiàn)不符合規(guī)律的離群點(diǎn)數(shù)據(jù),進(jìn)行著重對(duì)這些數(shù)據(jù)進(jìn)行審查。如在銷售收入審計(jì)中,可以通過(guò)時(shí)間序列分析探討銷售業(yè)務(wù)的基本規(guī)律,進(jìn)行采用回歸分析方法探討過(guò)高收入或過(guò)低收入點(diǎn)的原因與合理性,從而將偏離正常業(yè)務(wù)范圍的異常數(shù)據(jù)進(jìn)行割離, 并對(duì)其進(jìn)行仔細(xì)審核, 這樣就大大節(jié)省了審計(jì)資源。在成本審計(jì)時(shí),審計(jì)人員面對(duì)大量料、工、費(fèi)相關(guān)數(shù)據(jù)常常無(wú)從入手,此時(shí)可利用關(guān)聯(lián)規(guī)則技術(shù)發(fā)現(xiàn)其各成本項(xiàng)目與生產(chǎn)數(shù)量之間的關(guān)聯(lián)性, 再根據(jù)存貨倉(cāng)庫(kù)盤點(diǎn)數(shù)據(jù)及相關(guān)出、入庫(kù)記錄, 確定其產(chǎn)量, 根據(jù)關(guān)聯(lián)規(guī)則確定的關(guān)聯(lián)性,可以確定該被審計(jì)成本合理與否。
( 二 )孤立點(diǎn)分析 分類技術(shù)亦是一種重要的審計(jì)方法,在審計(jì)過(guò)程中對(duì)各類數(shù)據(jù)按一定規(guī)則和特質(zhì)分為不同類別,進(jìn)而根據(jù)不同類別采用適合的審計(jì)策略。分類可將事件分為正常和異常兩種事件,通過(guò)分類所發(fā)現(xiàn)的異常事件即是孤立點(diǎn)。孤立點(diǎn)是數(shù)據(jù)源中與眾不同的數(shù)據(jù),審計(jì)人員通常認(rèn)為這些數(shù)據(jù)并非隨機(jī)偏差, 而是產(chǎn)生于完全不同的機(jī)制。審計(jì)中的可疑數(shù)據(jù)往往表現(xiàn)為孤立點(diǎn),這使得基于分類技術(shù)的孤立點(diǎn)分析亦成為一項(xiàng)發(fā)現(xiàn)審計(jì)線索的有效手段。Excel所提供的模型中決策樹、貝葉斯概率分類、時(shí)序聚類、聚類分析即是有效的分類分析技術(shù),可用于孤立點(diǎn)的控制。決策樹是用樹型結(jié)構(gòu)展現(xiàn)數(shù)據(jù)在受各類變量影響的情況下得到的預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量的狀態(tài)不同而建立分類規(guī)則;貝葉斯概率分類是在先知道總體中不同類別比例構(gòu)成的基礎(chǔ)上,通過(guò)訓(xùn)練樣本,學(xué)習(xí)并產(chǎn)生這些訓(xùn)練樣本的分類規(guī)則,再用這些規(guī)則對(duì)其他個(gè)體進(jìn)行分類預(yù)測(cè);時(shí)序聚類可根據(jù)用戶瀏覽順序?qū)ζ溥M(jìn)行分組,分析用戶行為;聚類分析是對(duì)樣本進(jìn)行分類,尋找多變量個(gè)體之間的差異。在審計(jì)過(guò)程中,可以通過(guò)這些分類方法發(fā)現(xiàn)孤立點(diǎn),找到數(shù)據(jù)的極端值。例如在救災(zāi)資金審計(jì)中,審計(jì)人員很難在短時(shí)間內(nèi)對(duì)多個(gè)市縣進(jìn)行全面調(diào)查,只能選取重點(diǎn)地區(qū)進(jìn)行詳細(xì)分析。此時(shí)可能通過(guò)受災(zāi)地區(qū)的“受災(zāi)人口”、“緊急轉(zhuǎn)移安置人口”、“受災(zāi)面積”等數(shù)據(jù)屬性進(jìn)行聚類分析,找出受災(zāi)因子與救災(zāi)因子不匹配的孤立點(diǎn),進(jìn)而進(jìn)行詳細(xì)審計(jì)。由于被審計(jì)對(duì)象復(fù)雜多樣,根據(jù)審計(jì)目標(biāo),實(shí)質(zhì)性分析程序是其重要的審計(jì)手段,離群點(diǎn)和孤立點(diǎn)是其重要的審計(jì)線索,鑒于Excel數(shù)據(jù)挖掘工具所能提供的各種估計(jì)預(yù)測(cè)技術(shù)和分類分析技術(shù),Excel數(shù)據(jù)挖掘工具能夠?yàn)閷徲?jì)人員提供一種有效的輔助工具,解決審計(jì)工作中數(shù)據(jù)分析的難題,提高審計(jì)效率和質(zhì)量。
四、基于Excel審計(jì)數(shù)據(jù)挖掘的操作路徑
采用Excel作為挖掘工具在審計(jì)中應(yīng)用數(shù)據(jù)挖掘技術(shù)是最為切實(shí)可行的。(圖2)是基于Excel的審計(jì)數(shù)據(jù)挖掘工作流程圖。
( 一 )采集被審計(jì)單位電子數(shù)據(jù) 根據(jù)審計(jì)的目標(biāo)和內(nèi)容要求,獲取被審計(jì)單位審計(jì)期間的數(shù)據(jù)庫(kù)資料。接采集電子數(shù)據(jù)要從接受被審計(jì)單位的數(shù)據(jù)日志開始,按統(tǒng)一格式收集足夠的信息系統(tǒng)提供的賬務(wù)數(shù)據(jù)和對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)運(yùn)用的第一步就是要獲取大量的數(shù)據(jù),這是審計(jì)數(shù)據(jù)挖掘工作的起點(diǎn)。
( 二 )原始數(shù)據(jù)的預(yù)處理 原始數(shù)據(jù)的預(yù)處理同時(shí)也是Excel數(shù)據(jù)挖掘程序中的數(shù)據(jù)準(zhǔn)備階段。從被審計(jì)單位采集的原始數(shù)據(jù),其數(shù)據(jù)結(jié)構(gòu)可能不完全符合數(shù)據(jù)挖掘的要求,不利于審計(jì)人員從中發(fā)現(xiàn)問(wèn)題。因此, 審計(jì)人員要從被審計(jì)數(shù)據(jù)信息集中選擇適用于數(shù)據(jù)挖掘的數(shù)據(jù),將原始數(shù)據(jù)轉(zhuǎn)換成審計(jì)人員可識(shí)別的格式,并剔除數(shù)據(jù)結(jié)構(gòu)中的干擾項(xiàng)目,使財(cái)務(wù)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)更能直接地反映對(duì)應(yīng)的經(jīng)濟(jì)業(yè)務(wù),以便控制數(shù)據(jù)挖掘的準(zhǔn)確性。Excel數(shù)據(jù)挖掘程序?qū)υ紨?shù)據(jù)的預(yù)處理,包括瀏覽數(shù)據(jù)、清除數(shù)據(jù)和為數(shù)據(jù)分區(qū)三大模塊。瀏覽數(shù)據(jù)允許審計(jì)人員創(chuàng)建基于Excel表或Excel區(qū)域數(shù)據(jù)的基本統(tǒng)計(jì)信息,還可以生成相應(yīng)的直方圖進(jìn)行分析。清除數(shù)據(jù)分為離群值和重新標(biāo)記兩部分,離群值允許審計(jì)人員從Excel區(qū)域的一列中刪除罕見的值、或者高于或低于指定閾值的值;重新標(biāo)記允許審計(jì)人員更改Excel區(qū)域一整列中的離散標(biāo)簽,這樣做可以合并標(biāo)簽或消除無(wú)意義的數(shù)據(jù)標(biāo)簽。數(shù)據(jù)分區(qū)允許審計(jì)人員在現(xiàn)有數(shù)據(jù)結(jié)構(gòu)內(nèi)創(chuàng)建分區(qū),現(xiàn)有數(shù)據(jù)可以是Excel表內(nèi)的數(shù)據(jù),也可以是Analysis Services查詢。
( 三 )數(shù)據(jù)建模針對(duì)準(zhǔn)備好的審計(jì)數(shù)據(jù),按審計(jì)任務(wù)的所屬類別,確定將要進(jìn)行的挖掘操作類型或模型。Excel提供了分類、估計(jì)、聚類分析、關(guān)聯(lián)和預(yù)測(cè)等工具,審計(jì)人員可以直接根據(jù)操作向?qū)Р僮?,選擇有效的數(shù)據(jù)挖掘算法,產(chǎn)生一些數(shù)學(xué)分析模型并加以實(shí)現(xiàn)。除了提供的這些工具外,審計(jì)人員還可以根據(jù)審計(jì)業(yè)務(wù)的特別需求,在高級(jí)功能中選擇創(chuàng)建挖掘模型向?qū)В撓驅(qū)г试S審計(jì)人員選擇用于挖掘模型的算法,制定算法使用的參數(shù),以及指定輸入數(shù)據(jù)中要使用的列。審計(jì)人員還可以利用向?qū)⑿陆ǖ臄?shù)據(jù)挖掘模型添加到現(xiàn)有的挖掘結(jié)構(gòu)中,這樣新創(chuàng)建的模型與挖掘結(jié)構(gòu)中的其他模型相同。
( 四 )準(zhǔn)確性驗(yàn)證進(jìn)行模型評(píng)價(jià),解釋并評(píng)估挖掘結(jié)果,測(cè)試模型的準(zhǔn)確性。模型的建立是一個(gè)迭代循環(huán)過(guò)程,根據(jù)模型對(duì)數(shù)據(jù)的分析結(jié)果,對(duì)模型進(jìn)行準(zhǔn)確性驗(yàn)證,如果模型的效果不令人滿意,可利用反饋機(jī)制重新運(yùn)用挖掘工具進(jìn)行建模、分析,直到模型可以把每一次的分析結(jié)果清晰、準(zhǔn)確、明了地表述給有關(guān)審計(jì)人員為止。Excel數(shù)據(jù)挖掘程序提供了準(zhǔn)確性圖表、分類矩陣和利潤(rùn)圖三個(gè)檢驗(yàn)方法。準(zhǔn)確性圖表允許審計(jì)人員根據(jù)測(cè)試的數(shù)據(jù)評(píng)估現(xiàn)有模型的性能,如果模型是分類模型,該向?qū)⑸梢粋€(gè)提升圖,顯示與假設(shè)的理想模型相比的模型性能,如果模型是估計(jì)模型,將生成一個(gè)散點(diǎn)圖,顯示測(cè)試數(shù)據(jù)的模型估計(jì)值和實(shí)際值。分類矩陣將模型應(yīng)用于測(cè)試數(shù)據(jù)的結(jié)果和測(cè)試數(shù)據(jù)的實(shí)際值進(jìn)行比較,然后生成同時(shí)顯示正確分類和錯(cuò)誤分類的矩陣。利潤(rùn)圖顯示與挖掘模型的使用相關(guān)聯(lián)的估計(jì)利潤(rùn)增長(zhǎng)情況,以確定在商業(yè)應(yīng)用場(chǎng)景中公司應(yīng)該與那些客戶聯(lián)系。
( 五 )發(fā)現(xiàn)規(guī)律審計(jì)人員運(yùn)用合適的數(shù)據(jù)挖掘算法對(duì)審計(jì)數(shù)據(jù)進(jìn)行處理,發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,并尋找異常數(shù)據(jù)(離群點(diǎn)、孤立點(diǎn)),審計(jì)人員可根據(jù)不同被審計(jì)單位的行業(yè)背景、業(yè)務(wù)特點(diǎn)和數(shù)據(jù)模式,運(yùn)用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式挖掘等不同數(shù)據(jù)挖掘技術(shù)方法,獲得被審計(jì)單位的數(shù)據(jù)規(guī)律,以檢測(cè)是否存在異常。
( 六 )審計(jì)職業(yè)判斷統(tǒng)計(jì)的信息包括業(yè)務(wù)規(guī)模、異常數(shù)據(jù)和業(yè)務(wù)流程違規(guī)等情況,這既是審計(jì)工作的核心,也是數(shù)據(jù)挖掘技術(shù)在審計(jì)中運(yùn)用的主要成果的體現(xiàn)。 審計(jì)人員可以根據(jù)統(tǒng)計(jì)結(jié)果進(jìn)行審計(jì)職業(yè)判斷,對(duì)發(fā)現(xiàn)的問(wèn)題進(jìn)行綜合分析并進(jìn)行改進(jìn)。
隨著信息化的不斷推進(jìn),企業(yè)ERP系統(tǒng)的普及,以及被審計(jì)單位的數(shù)據(jù)倉(cāng)庫(kù)日趨成熟完善,審計(jì)人員面對(duì)被審計(jì)單位的龐大財(cái)務(wù)數(shù)據(jù)和海量業(yè)務(wù)數(shù)據(jù),必須探索和創(chuàng)新審計(jì)技術(shù)和方法,應(yīng)用有效的數(shù)據(jù)分析工具。Excel是審計(jì)人員最為熟悉的數(shù)據(jù)分析軟件,最新版本所提供的數(shù)據(jù)挖掘功能,能夠有效地進(jìn)行估計(jì)預(yù)測(cè)分析和分類分析,從而有助于離群點(diǎn)和孤立點(diǎn)的發(fā)現(xiàn),是審計(jì)人員能夠掌握和便于操作使用的審計(jì)數(shù)據(jù)挖掘軟件包。運(yùn)用基于Excel的審計(jì)分析技術(shù)和方法,對(duì)被審計(jì)單位的海量數(shù)據(jù)進(jìn)行分析,獲得審計(jì)線索,發(fā)現(xiàn)審計(jì)疑點(diǎn),提高審計(jì)效率和效果,有效控制審計(jì)風(fēng)險(xiǎn)提供了一種有效的工具,也為審計(jì)信息化的深入發(fā)展和普及應(yīng)用奠定了基礎(chǔ)。
參考文獻(xiàn):
[1]李立成:《智能審計(jì)決策支持系統(tǒng)淺探》,《財(cái)會(huì)通訊》2009年第10期。
[2]:《電子數(shù)據(jù)質(zhì)量在審計(jì)中的作用分析》,《財(cái)會(huì)通訊(綜合)》2007年第5期。
[3]陳丹萍:《數(shù)據(jù)挖掘技術(shù)在現(xiàn)代審計(jì)中的運(yùn)用研究》,《南京審計(jì)學(xué)院學(xué)報(bào)》2009年第4期。
[4]陳大峰等:《基于離群數(shù)據(jù)挖掘的計(jì)算機(jī)審計(jì)》,《南京審計(jì)學(xué)院學(xué)報(bào)》2009年第2期。
篇9
模糊數(shù)學(xué)是運(yùn)用數(shù)學(xué)方法研究和處理模糊性現(xiàn)象的一門新興學(xué)科,有著很強(qiáng)實(shí)際應(yīng)用價(jià)值。模糊數(shù)學(xué)是由美國(guó)控制論專家L.A.扎德(L.A.Zadeh)教授所創(chuàng)立,它廣泛應(yīng)用于計(jì)算機(jī)科學(xué)、信息科學(xué)、自動(dòng)控制、管理決策等眾多自然科學(xué)與社會(huì)科學(xué)的眾多領(lǐng)域,是數(shù)學(xué)專業(yè)學(xué)生必備的數(shù)學(xué)修養(yǎng),更是等眾多非數(shù)學(xué)專業(yè)學(xué)生的特色選修課程,許多高校將其作為本科生、研究生的公共選修課甚至是必修課?!赌:龜?shù)學(xué)》的教學(xué),不僅是讓學(xué)生掌握模糊數(shù)學(xué)的基本知識(shí)和基本理論方法,更重要的是培養(yǎng)學(xué)生運(yùn)用這些知識(shí)和理論方法解決實(shí)際問(wèn)題的能力。
如何有針對(duì)性地將CDIO工程教育模式引入到《模糊數(shù)學(xué)》的教學(xué)理論與實(shí)踐中,提高教育教學(xué)效果,提升學(xué)生的創(chuàng)造性解決問(wèn)題的能力,成為我們教育工作者亟待解決的問(wèn)題。
二、將CDIO 工程教育模式引入到《模糊數(shù)學(xué)》教學(xué)中的實(shí)施方案
筆者根據(jù)《模糊數(shù)學(xué)》課程的特點(diǎn),將CDIO工程教育模式引入到《模糊數(shù)學(xué)》教學(xué)中,對(duì)《模糊數(shù)學(xué)》的教學(xué)方法進(jìn)行了以下方面的探討。
第一,打好基本的《模糊數(shù)學(xué)》課程理論基礎(chǔ),為引入CDIO 工程教育模式做好鋪墊。作為理工類的二本院校,學(xué)生的理論知識(shí)掌握能力沒(méi)有重點(diǎn)本科的理工類學(xué)生強(qiáng),在教學(xué)中有針對(duì)性的介紹關(guān)鍵的理論知識(shí),適當(dāng)弱化理論教學(xué)過(guò)程。根據(jù)學(xué)生的實(shí)際情況,將模糊數(shù)學(xué)中的理論知識(shí)與經(jīng)典數(shù)學(xué)中的相對(duì)應(yīng)的理論知識(shí)對(duì)比介紹,使學(xué)生既分清了兩者的區(qū)別,也明確了《模糊數(shù)學(xué)》的理論知識(shí),為在《模糊數(shù)學(xué)》的教學(xué)中引入CDIO 工程教育模式做好充分的知識(shí)儲(chǔ)備。
第二,在教學(xué)中重視理論聯(lián)系實(shí)際,讓學(xué)生在課堂上能接觸到大量的實(shí)際問(wèn)題,即通過(guò)典型實(shí)際案例,讓學(xué)生學(xué)會(huì)CDIO理念中的構(gòu)思和設(shè)計(jì)過(guò)程。模糊數(shù)學(xué)是因?qū)嶋H的需要而產(chǎn)生的一門應(yīng)用性學(xué)科,它來(lái)源于實(shí)際又服務(wù)于實(shí)際。例如,在講授“模糊模式識(shí)別”時(shí),可設(shè)計(jì)“學(xué)生成績(jī)優(yōu)劣的識(shí)別”、“茶葉等級(jí)評(píng)定問(wèn)題”、“超市商品條碼的模糊識(shí)別問(wèn)題”、“手紋的識(shí)別”、“疾病的識(shí)別”等問(wèn)題的案例,組織學(xué)生應(yīng)用“最大隸屬原則”和“擇近原則”來(lái)解決這類實(shí)際問(wèn)題;在講授“模糊聚類分析方法”時(shí),可結(jié)合“2000年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽A題―DNA序列分類”、“高校碩士研究生的招生排序”等案例引導(dǎo)學(xué)生從提出問(wèn)題到分析問(wèn)題,如何應(yīng)用模糊聚類分析方法來(lái)解決問(wèn)題;在講授“模糊綜合評(píng)判”時(shí),可結(jié)合“大學(xué)生綜合素質(zhì)的多級(jí)模糊綜合評(píng)判”、“高校學(xué)風(fēng)的多級(jí)模糊綜合評(píng)判”、“教師教學(xué)水平的模糊綜合評(píng)判”等案例進(jìn)行講解模糊綜合評(píng)判的方法和步驟。通過(guò)典型案例教學(xué),使學(xué)生經(jīng)歷較系統(tǒng)的數(shù)據(jù)處理全過(guò)程,在此過(guò)程中讓學(xué)生學(xué)會(huì)CDIO理念中的構(gòu)思和設(shè)計(jì)的技巧。
第三,學(xué)生自愿組成學(xué)習(xí)小組合作完成特定的模塊任務(wù),以實(shí)現(xiàn)CDIO理念中的實(shí)現(xiàn)和運(yùn)作過(guò)程。將全班分為多個(gè)討論小組,3 到5 人一組,可以學(xué)生自己組合,也可以由老師指定,但最好每組有一位成績(jī)較好的學(xué)生。將課程內(nèi)容涉及到的多個(gè)實(shí)際應(yīng)用的問(wèn)題,由所有學(xué)生自行選擇一到兩個(gè),或者可以由學(xué)生自行選擇相關(guān)問(wèn)題,比如解決“高校教學(xué)評(píng)估的多級(jí)模糊綜合評(píng)判”等問(wèn)題。每個(gè)小組先圍繞所選問(wèn)題找到解決方案,以小論文的形式呈現(xiàn)出來(lái),然后以小組為單位再就某一個(gè)問(wèn)題展開討論,以最優(yōu)的解決方案呈現(xiàn)出來(lái)。以小組為單位向全班同學(xué)做10-15分鐘的展示答辯,形式類似畢業(yè)答辯,但可以全班集體參與討論某個(gè)未解決的問(wèn)題。組內(nèi)所有成員一起參與答辯(以每個(gè)人完成的不同任務(wù)分別展示,如:收集整理資料、模型建立過(guò)程、計(jì)算機(jī)實(shí)現(xiàn)過(guò)程等),也可以派一名代表做展示?蟾妗⒋鴇紜?
通過(guò)以上過(guò)程,讓學(xué)生踐行CDIO教育理念,實(shí)現(xiàn)了學(xué)生是學(xué)習(xí)主體這一教學(xué)目標(biāo),且在此過(guò)程中充分調(diào)動(dòng)了學(xué)生學(xué)習(xí)的主觀能動(dòng)性,取得了較好的學(xué)習(xí)效果。
篇10
關(guān)鍵詞:金銀花;山銀花;揮發(fā)油;傅立葉變換紅外光譜法;特征圖譜;模式識(shí)別;鑒別
DOI:10.3969/j.issn.1005-5304.2013.11.024
中圖分類號(hào):R284.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1005-5304(2013)11-0063-03
2010年版《中華人民共和國(guó)藥典(一部)》(以下簡(jiǎn)稱《中國(guó)藥典》)收載成方制劑“金銀花露”,規(guī)定以金銀花藥材揮發(fā)油為主要藥效成分,但收載的藥材金銀花、山銀花品種沒(méi)有揮發(fā)油質(zhì)量控制項(xiàng)目[1]。因此,有必要研究合適的質(zhì)量控制方法來(lái)鑒別金銀花、山銀花的揮發(fā)油成分。紅外光譜鑒別法是一種專屬性強(qiáng)的鑒別方法,多用于化學(xué)藥的鑒別。中藥提取物是混合物,紅外光譜信息復(fù)雜,但采用化學(xué)計(jì)量學(xué)方法分析對(duì)其進(jìn)行化學(xué)模式識(shí)別,可用于中藥的鑒別[2-5]。本試驗(yàn)研究金銀花、山銀花揮發(fā)油的提取、紅外制樣、傅立葉變換紅外光譜前處理和分析,用于建立金銀花揮發(fā)油的鑒別方法,為鑒別金銀花、山銀花揮發(fā)油及用傅立葉變換紅外光譜法進(jìn)行中藥鑒別提供參考。
1 儀器與試藥
IRAffinity-1傅立葉紅外光譜儀、溴化鉀窗片來(lái)自日本
基金項(xiàng)目:廣東省中醫(yī)藥局課題(20122071)
通訊作者:吳美珠,E-mail:
島津公司。無(wú)水硫酸鈉、氯化鈉、乙酸乙酯、乙醚、正己烷為分析純,溴化鉀為光譜純。蒸餾水為實(shí)驗(yàn)室制備。自編的數(shù)據(jù)處理程序在NetBeans IDE 6.9.1(美國(guó)甲骨文公司)軟件下用Java語(yǔ)言開發(fā)。相似度計(jì)算和聚類分析使用SPSS20.0軟件(美國(guó)IBM公司)。
金銀花樣品包括:1號(hào)樣品購(gòu)自河南新鄉(xiāng),2號(hào)樣品購(gòu)自山東菏澤,3、4號(hào)樣品購(gòu)自山東平邑;山銀花樣品包括:5號(hào)樣品購(gòu)自湖南郴州(灰氈毛忍冬),6號(hào)樣品購(gòu)自廣西桂林(黃褐毛忍冬),7號(hào)樣品購(gòu)自廣東廣州(華南忍冬),8號(hào)樣品購(gòu)自廣東肇慶(紅腺忍冬)。上述樣品經(jīng)唐鐵鑫鑒定,標(biāo)本存于肇慶醫(yī)學(xué)高等??茖W(xué)校。
2 方法與結(jié)果
2.1 樣品制備方法
參考《中國(guó)藥典》中“金銀花露”項(xiàng)下樣品處理方法[1],稱取20 g 樣品粗粉,置250 mL圓底燒瓶中,加水100 mL、氯化鈉20 g,并加入數(shù)粒玻璃珠。將燒瓶放入電熱套中,連接揮發(fā)油測(cè)定器,自連接回流冷凝管處加水至溢流入燒瓶,再加入正己烷2 mL,連接回流冷凝管。開啟電熱套加熱,從形成回流起計(jì)時(shí),保持微沸2 h。停止加熱,撤去回流管,分取有機(jī)層溶液至具塞離心管中,加入1 g無(wú)水硫酸鈉,強(qiáng)烈振搖,放置備用。用前于5000 r/min離心5 min,取上清液測(cè)定。
2.2 傅立葉變換紅外光譜測(cè)定方法
將經(jīng)正己烷、無(wú)水乙醇洗滌干凈并干燥好的空白溴化鉀窗片放入紅外光譜儀,掃描空白光譜圖。將得到的含揮發(fā)油的有機(jī)溶液滴在溴化鉀窗片上,每滴下1滴后待溶劑揮發(fā)后再滴,重復(fù)多次至形成一層油膜。將載有樣品揮發(fā)油的溴化鉀窗片放入紅外光譜儀,掃描樣品光譜圖。掃描范圍為4000~400 cm﹣1,掃描次數(shù)為20次。間隔3 min后重復(fù)測(cè)定1次。
2.3 傅立葉變換紅外光譜數(shù)據(jù)分析方法
將光譜圖數(shù)據(jù)(橫坐標(biāo)為波數(shù)cm-1,縱坐標(biāo)為透光率T%)從IRSolution軟件導(dǎo)出成文本數(shù)據(jù)。用自編軟件進(jìn)行數(shù)據(jù)處理,去除基線趨勢(shì)并對(duì)曲線進(jìn)行平滑?;€趨勢(shì)去除算法為:用最小二乘法對(duì)樣品的光譜數(shù)據(jù)進(jìn)行二次曲線方程擬合[6],將樣品的光譜數(shù)據(jù)與相應(yīng)波數(shù)代入擬合的曲線方程計(jì)算出來(lái)的數(shù)值比較,計(jì)算平均偏差,將各點(diǎn)的偏差與平均偏差比較,剔除偏差大于3倍平均偏差的點(diǎn),將余下的數(shù)據(jù)點(diǎn)再擬合和剔除數(shù)據(jù)一次,將余下數(shù)據(jù)擬合成最終的基線趨勢(shì)二次曲線方程,然后將原來(lái)的光譜數(shù)據(jù)減去相應(yīng)波數(shù)代入擬合的曲線方程再次計(jì)算,從而得到新的光譜數(shù)據(jù)。曲線平滑算法采用窗口長(zhǎng)度為11個(gè)數(shù)據(jù)點(diǎn)的中值濾波算法[7]。
各樣品的紅外光譜經(jīng)過(guò)基線趨勢(shì)去除和曲線平滑處理后,選取1800~850 cm-1范圍的數(shù)據(jù)作為一維有序變量數(shù)組輸入SPSS20.0軟件,以Pearson相關(guān)性(相關(guān)系數(shù)法)作為區(qū)間,進(jìn)行系統(tǒng)聚類分析,輸出相似度矩陣和樹狀圖結(jié)果,通過(guò)聚類分析結(jié)果鑒別金銀花揮發(fā)油。
2.4 影響因素考察
2.4.1 萃取溶劑的比較 分別將乙醚、乙酸乙酯和正己烷用于萃取,測(cè)得的相應(yīng)傅立葉變換紅外光譜見圖1。其中正己烷重復(fù)性最好,因此選用正己烷用于揮發(fā)油的萃取。
2.4.2 紅外光譜的基線趨勢(shì)去除和曲線平滑處理 基線趨勢(shì)去除處理的效果見圖2。圖1C中2次測(cè)定得到的原始光譜圖基線趨勢(shì)有較大差別,處理后的圖譜見圖2??梢钥吹?,經(jīng)過(guò)處理后,2個(gè)圖譜基本重疊在一起,表明所采用的算法是有效的。用中值濾波算法對(duì)紅外光譜進(jìn)行曲線平滑的效果見圖3。參考文獻(xiàn)[7]比較了不同的曲線平滑算法,選用了中值濾波算法。嘗試了不同長(zhǎng)度的數(shù)字濾波窗口,以11個(gè)點(diǎn)的效果最佳,可以在濾除噪音的同時(shí)較好地保留峰信息。
2.4.3 特征波數(shù)范圍選擇 將8個(gè)樣本的光譜圖疊加,如圖4所示,3000 cm-1以上區(qū)域受到較大的干擾而且沒(méi)有特征性,3000 cm-1由于-OH伸縮振動(dòng)峰的重疊,特征性差。1800~2800 cm-1主要呈現(xiàn)為較平坦的基線,特征性不強(qiáng)。通過(guò)選取1800~400 cm-1范圍內(nèi)的光譜進(jìn)行分析,發(fā)現(xiàn)如果將850 cm-1以下的數(shù)據(jù)包括進(jìn)來(lái),結(jié)果不理想。最終確定特征波數(shù)范圍為1800~850 cm-1,8個(gè)樣本的特征范圍內(nèi)的光譜圖見圖5。
3 討論
色譜或光譜特征圖譜是控制中藥質(zhì)量的有效方法,能反映中藥的整體化學(xué)特征,成為鑒別中藥真?zhèn)蔚膰?guó)際公認(rèn)方法[8]。2010年版《中國(guó)藥典》首次收載了多個(gè)藥材、飲片、提取物及制劑的特征圖譜。紅外光譜反映分子中所有主要功能基的吸收信號(hào),任何藥物分子的紅外光譜都具有唯一性,所以,化學(xué)原料藥普遍采用紅外光譜來(lái)鑒別真?zhèn)?。因?yàn)榧t外光譜都具有加和性,中藥粉末或提取物是混合物,使用紅外光譜法鑒別中藥材存在專屬性差、分辨率低的問(wèn)題。但利用計(jì)算機(jī)技術(shù)和數(shù)學(xué)方法進(jìn)行處理,并通過(guò)化學(xué)計(jì)量學(xué)方法進(jìn)行化學(xué)模式識(shí)別,紅外光譜法也可用于中藥鑒別,而且與色譜特征圖譜以相對(duì)保留時(shí)間為縱坐標(biāo)相比,紅外光譜特征圖譜的縱坐標(biāo)為光頻率,重現(xiàn)性更好,更容易建立圖譜數(shù)據(jù)庫(kù)進(jìn)行分析比較。因此,選擇采用紅外光譜技術(shù)結(jié)合特征圖譜的模式識(shí)別進(jìn)行金銀花揮發(fā)油的鑒別。
金銀花揮發(fā)油含量很低,通常的揮發(fā)油提取法收集揮發(fā)油進(jìn)行涂膜制樣需要大量金銀花藥材。為了減少取樣量,本研究在揮發(fā)油測(cè)定器側(cè)管加入有機(jī)溶劑進(jìn)行連續(xù)萃取制備揮發(fā)油的溶液[1],用于紅外光譜測(cè)定。結(jié)果表明該制備方法是有效的。
本研究中獲得的樣品原始紅外光譜基線變化大,噪音干擾大,因此需要進(jìn)行基線趨勢(shì)去除和曲線平滑處理,結(jié)果表明,基線趨勢(shì)去除和曲線平滑處理能有效去除基線變化和噪音造成的干擾。由于揮發(fā)油的紅外圖譜是多種化學(xué)成分的混合圖譜,各種信號(hào)疊加,而使用共有峰的峰面積或峰高作為矢量計(jì)算相似度無(wú)法體現(xiàn)峰型變化的差異,也就很難代表樣品的差異。因此,本研究采用將特征波數(shù)范圍內(nèi)全譜數(shù)據(jù)作為向量用于聚類分析的方法?;瘜W(xué)模式識(shí)別方法很多,系統(tǒng)聚類分析是一種非監(jiān)督模式識(shí)別方法,不需要通過(guò)樣品培訓(xùn)建模,普遍用于化學(xué)計(jì)量學(xué)研究中,因此本試驗(yàn)采用該法。在實(shí)際應(yīng)用中,可以用正品和偽品金銀花樣品測(cè)定結(jié)果建立數(shù)據(jù)庫(kù),將待鑒別樣品測(cè)定數(shù)據(jù)與數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行聚類分析,根據(jù)是否先與正品樣品數(shù)據(jù)聚類來(lái)確定真?zhèn)巍?/p>
本研究的金銀花和山銀花揮發(fā)油傅立葉變換紅外光譜鑒別方法包括樣品提取、紅外制樣和傅立葉變換紅外光譜測(cè)定、光譜前處理、特征范圍內(nèi)光譜聚類分析等步驟。通過(guò)8個(gè)樣品的實(shí)際測(cè)定,能區(qū)別金銀花和山銀花揮發(fā)油,可用于鑒別金銀花揮發(fā)油,對(duì)其他藥材傅立葉變換紅外光譜分析研究也具有參考價(jià)值。
參考文獻(xiàn):
[1] 國(guó)家藥典委員會(huì).中華人民共和國(guó)藥典:一部[S].北京:中國(guó)醫(yī)藥科技出版社,2010:28-29,208-209,830-831,附錄63.
[2] 陳亞,江濱,曾元兒.紅外光譜在中藥鑒別中的應(yīng)用[J].廣州中醫(yī)藥大學(xué)學(xué)報(bào),2004,21(3):237-240.
[3] 張石楠,張桂芝,張立.中藥飲片揮發(fā)油的紅外指紋圖譜研究[J].現(xiàn)代中藥研究與實(shí)踐,2009,23(1):25-27.
[4] Cheng C, Liu J, Wang H, et al. Infrared spectroscopic studies of Chinese medicines[J]. Applied Spectroscopy Reviews,2010,45:165-178.
[5] 袁玉峰,陶站華,劉軍,等.紅外光譜結(jié)合主成分分析鑒別不同產(chǎn)地黃柏[J].光譜學(xué)與光譜分析,2011,31(5):1258-1261.
[6] Kiusalaas J. Numerical methods in engineering with python[M]. Cambridge,UK:Cambridge University Press,2005:103-141.
[7] Vaseghi SV. Advanced digital signal processing and noise reduction [M]. 3rd Edition. West Sussex,UK:John Wiley & Sons Ltd, 2006:319-336.
熱門標(biāo)簽
數(shù)學(xué)論文 數(shù)學(xué)建模論文 數(shù)學(xué)論文 數(shù)學(xué)教學(xué)論文 數(shù)學(xué)畢業(yè)論文 數(shù)學(xué)教育論文 數(shù)學(xué)教學(xué)案例 數(shù)學(xué)文化論文 數(shù)學(xué)初二論文 數(shù)學(xué)教案 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
2初中數(shù)學(xué)導(dǎo)學(xué)互動(dòng)教學(xué)模式探討
3初中數(shù)學(xué)導(dǎo)學(xué)案教學(xué)研究