數(shù)據(jù)分析的方法范文
時(shí)間:2023-05-30 16:10:44
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇數(shù)據(jù)分析的方法,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
關(guān)鍵詞:數(shù)據(jù)分析應(yīng)用率;分析應(yīng)用點(diǎn);四個(gè)層次;數(shù)據(jù)中心;儀表盤(pán)
中圖分類號(hào):N37 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):1009-9166(2009)02(c)-0063-02
現(xiàn)代企業(yè)的決策往往是在整合大量信息資料的基礎(chǔ)上制定出來(lái)的,對(duì)數(shù)據(jù)的理解和應(yīng)用將是企業(yè)決策的基石。與傳統(tǒng)的操作型應(yīng)用相比,數(shù)據(jù)利用的應(yīng)用建設(shè)難度更大,它是隨著管理水平而發(fā)展,同時(shí)又取決于業(yè)務(wù)人員的主觀意識(shí),這就決定了以數(shù)據(jù)利用為核心的應(yīng)用建設(shè)不可能一蹴而就,而是一個(gè)長(zhǎng)期迭展的建設(shè)過(guò)程。從2003年起工廠開(kāi)始全面推進(jìn)數(shù)據(jù)分析應(yīng)用工作,經(jīng)歷過(guò)曲折,同時(shí)也有收獲。經(jīng)過(guò)多年的努力,工廠的數(shù)據(jù)分析應(yīng)用工作開(kāi)始進(jìn)入良性發(fā)展階段,筆者認(rèn)為有必要對(duì)工廠目前數(shù)據(jù)分析應(yīng)用工作作一總結(jié)和思考。
一、工廠數(shù)據(jù)分析應(yīng)用工作開(kāi)展現(xiàn)狀
工廠數(shù)據(jù)分析應(yīng)用工作推進(jìn)至今已有四五年的時(shí)間,從最初全面調(diào)研工廠數(shù)據(jù)量和數(shù)據(jù)分析應(yīng)用狀況,將數(shù)據(jù)分析應(yīng)用率指標(biāo)作為方針目標(biāo)定量指標(biāo)來(lái)考核,到后來(lái)將數(shù)據(jù)分析應(yīng)用工作的推進(jìn)重心從量向質(zhì)轉(zhuǎn)移,采用以項(xiàng)目為載體進(jìn)行管理,著重體現(xiàn)數(shù)據(jù)分析應(yīng)用的實(shí)效性,再到目前以分析應(yīng)用的需求為導(dǎo)向,以分析應(yīng)用點(diǎn)為載體,分層次進(jìn)行策劃。經(jīng)過(guò)上述三個(gè)階段,工廠數(shù)據(jù)分析應(yīng)用工作推進(jìn)機(jī)制得到了逐步的完善,形成了廣度深度協(xié)同發(fā)展的信息資源利用管理框架。截止到目前,工廠數(shù)據(jù)分析應(yīng)用率達(dá)到96%,四個(gè)層次的分析應(yīng)用點(diǎn)共計(jì)100多個(gè),數(shù)據(jù)分析應(yīng)用工作在生產(chǎn)、質(zhì)量、成本、物耗、能源等條線得到廣泛開(kāi)展,有效推動(dòng)了工廠管理數(shù)字化和精細(xì)化。2007年,工廠開(kāi)始探索細(xì)化四個(gè)應(yīng)用層次的推進(jìn)脈絡(luò),進(jìn)一步豐富工廠信息資源利用框架,形成層次清晰、脈絡(luò)鮮明、職責(zé)分明的信息資源利用立體化的推進(jìn)思路。
1、第一層次現(xiàn)場(chǎng)監(jiān)控層。第一層次現(xiàn)場(chǎng)監(jiān)控層,應(yīng)用主體是一線工人和三班管理干部,應(yīng)用對(duì)象是生產(chǎn)過(guò)程實(shí)時(shí)數(shù)據(jù),應(yīng)用目標(biāo)是通過(guò)加強(qiáng)生產(chǎn)過(guò)程控制,輔助一線及時(shí)發(fā)現(xiàn)生產(chǎn)過(guò)程中的異常情況,提高生產(chǎn)穩(wěn)定性。例如制絲車(chē)間摻配工段的生產(chǎn)報(bào)警,通過(guò)對(duì)生產(chǎn)過(guò)程中葉絲配比、膨絲配比、梗絲配比、薄片配比、加香配比等信息進(jìn)行判異操作,對(duì)異常情況通過(guò)語(yǔ)音報(bào)警方式提醒擋車(chē)工進(jìn)行異常處理;例如卷包車(chē)間通過(guò)在機(jī)臺(tái)電腦上對(duì)各生產(chǎn)機(jī)組的工藝、設(shè)備參數(shù)、實(shí)時(shí)產(chǎn)量、質(zhì)量、損耗數(shù)據(jù)的監(jiān)控,提高對(duì)產(chǎn)品質(zhì)量的過(guò)程控制能力。第一層次應(yīng)用以上位機(jī)和機(jī)臺(tái)電腦上固化的監(jiān)控模型為主,制絲車(chē)間每個(gè)工序、卷包車(chē)間每種機(jī)型的應(yīng)用點(diǎn)都有所不同,為此我們建立了制絲車(chē)間以工序?yàn)槊}絡(luò),卷包車(chē)間以機(jī)種為脈絡(luò)的應(yīng)用點(diǎn)列表,圍繞脈絡(luò)對(duì)第一層次應(yīng)用點(diǎn)進(jìn)行梳理,形成第一層次應(yīng)用的規(guī)范化模板。制絲車(chē)間第一層次應(yīng)用點(diǎn)模板包括工序名稱、應(yīng)用點(diǎn)名稱、應(yīng)用模型描述、應(yīng)用對(duì)象、應(yīng)用平臺(tái)、異常處置路徑等基本要素。卷包車(chē)間應(yīng)用點(diǎn)模板橫向根據(jù)機(jī)種分,縱向按上班及交接班、上班生產(chǎn)過(guò)程中、下班及交接班三個(gè)時(shí)間段分,通過(guò)調(diào)研分別列出擋車(chē)工針對(duì)每個(gè)機(jī)種在三個(gè)時(shí)間段分別要查看的數(shù)據(jù)和進(jìn)行的操作。隨著模板的擴(kuò)充和完善,一線職工的知識(shí)、經(jīng)驗(yàn)不斷充實(shí)其中,第一層次應(yīng)用點(diǎn)模板將成為一線工人和三班管理干部日常應(yīng)用監(jiān)控的標(biāo)準(zhǔn),同時(shí)可以規(guī)避人員退休或調(diào)動(dòng)帶來(lái)的經(jīng)驗(yàn)、知識(shí)流失的風(fēng)險(xiǎn)。2、第二層次日常管理分析層。第二層次日常管理分析層,應(yīng)用主體是一般管理干部,應(yīng)用對(duì)象是產(chǎn)質(zhì)損、設(shè)備、動(dòng)能等指標(biāo),應(yīng)用目標(biāo)是通過(guò)加強(qiáng)對(duì)各類考核指標(biāo)的監(jiān)控和分析,提高工廠整體的關(guān)鍵績(jī)效指標(biāo)水平。例如制絲車(chē)間的劣質(zhì)成本數(shù)據(jù)匯總和分析,通過(guò)對(duì)車(chē)間內(nèi)各類廢物料、劣質(zhì)成本的數(shù)據(jù)進(jìn)行匯總、對(duì)比和分析,尋找其中規(guī)律及薄弱環(huán)節(jié),并尋根溯源,采取措施,降低劣質(zhì)成本。例如卷包車(chē)間的產(chǎn)量分析,通過(guò)對(duì)產(chǎn)量數(shù)據(jù)、工作日安排、計(jì)劃產(chǎn)量進(jìn)行統(tǒng)計(jì)和匯總,結(jié)合車(chē)間定額計(jì)劃、作業(yè)計(jì)劃和實(shí)際產(chǎn)量進(jìn)行分析,尋找實(shí)際生產(chǎn)情況與計(jì)劃間的差異,并分析原因。第二層次應(yīng)用以管理人員個(gè)性化的分析為主,呈現(xiàn)出分析方法多樣化、應(yīng)用工具多樣化的特點(diǎn)。但是萬(wàn)變不離其中的是每個(gè)管理崗位的管理目標(biāo)以及圍繞管理目標(biāo)開(kāi)展的分析應(yīng)用是相對(duì)固定的,至少在短期內(nèi)不會(huì)有太大的變化。為此我們建立了一份以重點(diǎn)崗位為脈絡(luò)的應(yīng)用點(diǎn)列表,圍繞脈絡(luò)對(duì)第二層次應(yīng)用點(diǎn)進(jìn)行梳理,形成第二層次應(yīng)用的規(guī)范化模板。模板包括崗位名稱、管理目標(biāo)、應(yīng)用點(diǎn)名稱、應(yīng)用描述、涉及主要考核指標(biāo)、應(yīng)用平臺(tái)、應(yīng)用頻次、分析去向等基本要素。通過(guò)構(gòu)建第二層次應(yīng)用點(diǎn)模板,明確了每個(gè)管理崗位應(yīng)用信息資源支撐管理目標(biāo)的內(nèi)容和職責(zé)。隨著新的管理目標(biāo)的不斷提出以及應(yīng)用的逐步深入,模板每年都會(huì)有更新和擴(kuò)充。3、第三層次針對(duì)性分析應(yīng)用層。第三層次針對(duì)性分析應(yīng)用層,應(yīng)用主體是項(xiàng)目實(shí)施者,應(yīng)用對(duì)象是各類項(xiàng)目的實(shí)施過(guò)程,例如QC項(xiàng)目、六西格瑪項(xiàng)目、質(zhì)量改進(jìn)項(xiàng)目,或針對(duì)生產(chǎn)中的特定事件進(jìn)行的分析和研究。應(yīng)用目標(biāo)是通過(guò)應(yīng)用數(shù)據(jù)資源和統(tǒng)計(jì)方法開(kāi)展現(xiàn)狀調(diào)查、因果分析、效果驗(yàn)證等工作,提高各類項(xiàng)目實(shí)施的嚴(yán)密性和科學(xué)性。第三層次的應(yīng)用工具在使用初級(jí)統(tǒng)計(jì)方法的基礎(chǔ)上會(huì)大量應(yīng)用包括方差分析、回歸分析、正交試驗(yàn)、假設(shè)檢驗(yàn)、流程圖等在內(nèi)的中級(jí)統(tǒng)計(jì)方法。以QC活動(dòng)為例,我們可以看出其實(shí)施過(guò)程無(wú)一不與數(shù)據(jù)應(yīng)用之間有密切的聯(lián)系[1]。近年來(lái),在質(zhì)量改進(jìn)項(xiàng)目和QC項(xiàng)目的評(píng)審工作中已逐步將“應(yīng)用數(shù)據(jù)說(shuō)話、運(yùn)用用正確合理的統(tǒng)計(jì)方法,提高解決問(wèn)題的科學(xué)性”作為項(xiàng)目質(zhì)量考核標(biāo)準(zhǔn)之一。而六西格瑪項(xiàng)目實(shí)施的核心思想更是強(qiáng)調(diào)“以數(shù)據(jù)和事實(shí)驅(qū)動(dòng)管理”,其五個(gè)階段[2]D(定義)、M(測(cè)量)、A(分析)、I(改善)、C(控制),每個(gè)階段都要求結(jié)合如FMEA(失效模式后果分析),SPC(統(tǒng)計(jì)流程控制),MSA(測(cè)量系統(tǒng)分析),ANOVE(方差分析),DOE(實(shí)驗(yàn)設(shè)計(jì))等統(tǒng)計(jì)方法和統(tǒng)計(jì)工具的應(yīng)用。4、第四層次主題性應(yīng)用層。第四層次主題性應(yīng)用層,應(yīng)用主體是中層管理者,應(yīng)用對(duì)象是專業(yè)性或綜合性的分析主題,應(yīng)用目標(biāo)是通過(guò)專業(yè)科室設(shè)計(jì)的專題性分析模型或綜合性分析模型,為中層管理層提供決策依據(jù)。工廠在實(shí)施了業(yè)務(wù)流程“自動(dòng)化”之后,產(chǎn)生了大量的數(shù)據(jù)和報(bào)表。如何將工廠的業(yè)務(wù)信息及時(shí)、精煉、明確地陳述給中層管理層,以此來(lái)正確地判斷工廠的生產(chǎn)經(jīng)營(yíng)狀況,是擺在我們眼前的一個(gè)突出問(wèn)題。大家都有開(kāi)車(chē)的經(jīng)驗(yàn),司機(jī)在駕駛車(chē)輛的時(shí)候,他所掌握的車(chē)況基本上是來(lái)自汽車(chē)的儀表盤(pán),在車(chē)輛行使的過(guò)程中,儀表盤(pán)指針的變化,告知汽車(chē)的車(chē)速、油料、水溫等的狀況,駕駛員只要有效地控制這些指標(biāo)在安全范圍之內(nèi),車(chē)子就能正常地運(yùn)行。我們不妨將儀表盤(pán)的理念移植于工廠,建立工廠關(guān)鍵指標(biāo)及運(yùn)行管理儀表盤(pán),將工廠的關(guān)鍵信息直觀地列在上面,及時(shí)提醒各級(jí)管理人員工廠生產(chǎn)運(yùn)營(yíng)是否正常。
⑴關(guān)鍵績(jī)效指標(biāo)監(jiān)控系統(tǒng)。對(duì)分布在各處的當(dāng)前及歷史數(shù)據(jù)進(jìn)行統(tǒng)一展示,以工廠關(guān)鍵績(jī)效指標(biāo)為中心,支持統(tǒng)計(jì)分析和挖掘,可為中層管理者提供工廠關(guān)鍵績(jī)效指標(biāo)一門(mén)式的查詢服務(wù),使各業(yè)務(wù)部門(mén)尋找、闡釋問(wèn)題產(chǎn)生的原因,以有效監(jiān)控各類關(guān)鍵績(jī)效指標(biāo),及時(shí)采取改進(jìn)措施,提高生產(chǎn)經(jīng)營(yíng)目標(biāo)完成質(zhì)量。⑵系統(tǒng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)。通過(guò)數(shù)據(jù)采集、手工錄入等各種渠道收集各類系統(tǒng)的運(yùn)行狀態(tài),及時(shí)掌握故障情況,采取措施加以閉環(huán),將因系統(tǒng)故障造成對(duì)用戶的影響減至最小,確保各類系統(tǒng)的穩(wěn)定運(yùn)行和有效應(yīng)用。通過(guò)建立系統(tǒng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng),中層管理人員上班一打開(kāi)電腦進(jìn)入系統(tǒng),就能了解到當(dāng)天及上一天各類系統(tǒng)的運(yùn)轉(zhuǎn)情況,發(fā)生了什么異常,哪些故障已經(jīng)得到解決,哪些故障還未解決。⑶第四層次主題性分析應(yīng)用。在展示關(guān)鍵績(jī)效指標(biāo)和系統(tǒng)運(yùn)行狀態(tài)的基礎(chǔ)上,由各專業(yè)科室思考專業(yè)條線上的分析主題,采用先進(jìn)科學(xué)的理念和方法對(duì)數(shù)據(jù)進(jìn)行分析和挖掘。近兩年來(lái),工廠充分發(fā)揮專業(yè)科室的優(yōu)勢(shì)和力量,相繼設(shè)計(jì)和開(kāi)發(fā)了工藝質(zhì)量條線的六西格瑪測(cè)評(píng)系統(tǒng),設(shè)備條線的設(shè)備效能分析系統(tǒng),還有質(zhì)量成本核算與分析系統(tǒng)。通過(guò)這些分析主題的支持,工廠管理人員可以更方便快捷地了解質(zhì)量、設(shè)備、成本等條線上的關(guān)鍵信息,及時(shí)采取相應(yīng)措施,從而提升管理效率。
二、數(shù)據(jù)分析應(yīng)用工作存在的不足及思考
工廠數(shù)據(jù)分析應(yīng)用工作的推進(jìn)方法從最初的采用數(shù)據(jù)分析應(yīng)用率單個(gè)指標(biāo)進(jìn)行推進(jìn)發(fā)展到目前按上文所述的四個(gè)層次進(jìn)行推進(jìn),每個(gè)層次的推進(jìn)脈絡(luò)已經(jīng)逐步清晰和明朗,但事物發(fā)展到一定的階段總會(huì)達(dá)到一個(gè)瓶頸口,目前工廠數(shù)據(jù)分析應(yīng)用工作存在的問(wèn)題及措施思考如下:
1、從推進(jìn)手段上要突破信息條線,充分發(fā)揮專業(yè)條線的力量。信息條線作為推進(jìn)工廠數(shù)據(jù)分析應(yīng)用的主管條線,其作用往往局限在技術(shù)層面上的支撐。雖然信息條線每年都會(huì)規(guī)劃形成工廠數(shù)據(jù)分析應(yīng)用整體的工作思路和具體的實(shí)施計(jì)劃,但是無(wú)論從工廠層面還是從車(chē)間層面來(lái)講,單純依靠信息條線從側(cè)面加以引導(dǎo)和推進(jìn),使得數(shù)據(jù)分析應(yīng)用工作始終在業(yè)務(wù)條線的邊緣徘徊,與產(chǎn)量、質(zhì)量、設(shè)備、消耗、成本、動(dòng)能等各個(gè)條線本身工作的結(jié)合度有一定的距離。所以工廠要進(jìn)一步推進(jìn)數(shù)據(jù)分析應(yīng)用工作,調(diào)動(dòng)起業(yè)務(wù)人員的積極性和主動(dòng)性,突破現(xiàn)有的瓶頸,應(yīng)該考慮如何調(diào)動(dòng)起專業(yè)條線的力量。一是可以在年初策劃應(yīng)用點(diǎn)的時(shí)候要加強(qiáng)專業(yè)條線對(duì)車(chē)間業(yè)務(wù)自上而下的指導(dǎo),引導(dǎo)管理人員加強(qiáng)對(duì)缺少數(shù)據(jù)分析支撐的工序、崗位/管理目標(biāo)的思考;二是建立平臺(tái)加強(qiáng)各車(chē)間同性質(zhì)崗位之間的溝通與交流,均衡各個(gè)車(chē)間的數(shù)據(jù)分析應(yīng)用水平和能力;三是對(duì)車(chē)間提交的分析報(bào)告給出專業(yè)性的指導(dǎo)意見(jiàn)。2、要加強(qiáng)對(duì)數(shù)據(jù)中心的應(yīng)用。數(shù)據(jù)中心的建立可以使業(yè)務(wù)系統(tǒng)從報(bào)表制作、數(shù)據(jù)導(dǎo)出等功能中解放出來(lái),專注于事務(wù)處理,將數(shù)據(jù)應(yīng)用方面的功能完全交給數(shù)據(jù)中心來(lái)解決。目前,數(shù)據(jù)中心已建立了涉及產(chǎn)量、質(zhì)量、消耗等各個(gè)條線的Universe模型,并對(duì)全廠管理干部進(jìn)行了普及性的培訓(xùn)。但是從目前應(yīng)用情況來(lái)看,還比較局限于個(gè)別管理人員,追尋原因如下:一是業(yè)務(wù)系統(tǒng)開(kāi)發(fā)根據(jù)用戶需求定制開(kāi)發(fā)報(bào)表,業(yè)務(wù)人員通常習(xí)慣于從現(xiàn)成的報(bào)表中獲取信息。如果要求業(yè)務(wù)人員使用數(shù)據(jù)中心工具自行制作報(bào)表模板,甚至可能需要將其導(dǎo)出再作二次處理,那么業(yè)務(wù)人員一定更傾向于選擇第一種方式。二是近幾年來(lái)人員更替較多,新進(jìn)管理人員不熟悉數(shù)據(jù)中心應(yīng)用,導(dǎo)致數(shù)據(jù)中心應(yīng)用面受到限制。隨著今后MES的建設(shè),業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)、報(bào)表、臺(tái)帳和分析功能將有可能由業(yè)務(wù)用戶自行通過(guò)集成在MES中的數(shù)據(jù)中心前端開(kāi)發(fā)工具來(lái)訪問(wèn)和靈活定制。因此,要盡快培養(yǎng)工廠業(yè)務(wù)人員數(shù)據(jù)中心的應(yīng)用能力,包括數(shù)據(jù)獲取以及報(bào)表定制方面的技能。筆者認(rèn)為應(yīng)對(duì)方法如下:一是對(duì)于崗位人員變更做好新老人員之間一傳一的交接和培訓(xùn);二是適時(shí)針對(duì)新進(jìn)管理人員開(kāi)展集中培訓(xùn);三是通過(guò)采用一定的考核方法。3、提高新增應(yīng)用點(diǎn)的質(zhì)量。工廠每年都會(huì)組織各部門(mén)審視第一、第二層次應(yīng)用點(diǎn)列表,圍繞重點(diǎn)工序和重點(diǎn)管理崗位調(diào)研有哪些應(yīng)用上的空白點(diǎn)是需要重點(diǎn)思考的,以新增分析應(yīng)用點(diǎn)的方式進(jìn)行申報(bào)和實(shí)施。同時(shí)針對(duì)第三層次針對(duì)性分析應(yīng)用,工廠也會(huì)要求部門(mén)以新增分析應(yīng)用點(diǎn)的方式將需要數(shù)據(jù)支撐的項(xiàng)目進(jìn)行申報(bào)。作為一項(xiàng)常規(guī)性工作,工廠每年都會(huì)組織部門(mén)進(jìn)行應(yīng)用點(diǎn)的申報(bào),并按項(xiàng)目管理的思想和方法實(shí)施,事先確立各個(gè)應(yīng)用點(diǎn)的應(yīng)用層次、數(shù)據(jù)獲取方式、實(shí)現(xiàn)平臺(tái),并對(duì)其實(shí)施計(jì)劃進(jìn)行事先的思考和分解,確定每一個(gè)階段的活動(dòng)目標(biāo)、時(shí)間節(jié)點(diǎn)以及負(fù)責(zé)人員,每個(gè)季度對(duì)實(shí)施情況予以總結(jié),并動(dòng)態(tài)更新下一階段的實(shí)施計(jì)劃。該項(xiàng)工作從2005年起已經(jīng)連續(xù)開(kāi)展了三年,部門(mén)可供挖掘的應(yīng)用點(diǎn)越來(lái)越少,如何調(diào)動(dòng)部門(mén)的積極性,保持并提高應(yīng)用點(diǎn)的實(shí)效性,我們有必要對(duì)新增分析應(yīng)用點(diǎn)的質(zhì)量和實(shí)施情況進(jìn)行考評(píng),考評(píng)標(biāo)準(zhǔn)為:一是新增分析應(yīng)用點(diǎn)是否能體現(xiàn)數(shù)據(jù)應(yīng)用開(kāi)展的進(jìn)取性、開(kāi)拓性和創(chuàng)新性;二是新增分析應(yīng)用點(diǎn)是否能切實(shí)提高管理的精細(xì)化和科學(xué)化水平;三是新增分析應(yīng)用點(diǎn)是否能采用項(xiàng)目管理的思想和方法實(shí)施,按時(shí)間節(jié)點(diǎn)完成各項(xiàng)預(yù)定計(jì)劃。
三、結(jié)束語(yǔ)。隨著近幾年來(lái)技術(shù)平臺(tái)的相繼成熟以及管理手段的逐步推進(jìn),工廠業(yè)務(wù)人員用數(shù)據(jù)說(shuō)話的意識(shí)已經(jīng)越來(lái)越強(qiáng),但是要真正使工廠管理達(dá)到“三分技術(shù)、七分管理、十二分?jǐn)?shù)據(jù)”的水平,還有很長(zhǎng)的路要走,這既需要我們的業(yè)務(wù)人員從自身出發(fā)提高應(yīng)用數(shù)據(jù)的水平和能力,同時(shí)也需要工廠從管理手段和管理方法上不斷拓寬思路、創(chuàng)新手段,真正實(shí)現(xiàn)數(shù)據(jù)分析應(yīng)用成為工廠管理的重要支撐手段。
作者單位:上海卷煙廠
參考文獻(xiàn):
篇2
[關(guān)鍵詞]財(cái)政收入;GDP;面板數(shù)據(jù)
中圖分類號(hào):F01 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-0278(2013)02-024-01
在計(jì)量經(jīng)濟(jì)學(xué)中,我們一般應(yīng)用的最多的數(shù)據(jù)分析是截面數(shù)據(jù)回歸分析和時(shí)間序列分析,但截面數(shù)據(jù)分析和時(shí)間序列分析都有著一定的局限性。在實(shí)際經(jīng)濟(jì)研究當(dāng)中,截面數(shù)據(jù)回歸分析會(huì)遺漏掉數(shù)據(jù)的時(shí)間序列特征,例如在分析某年中國(guó)各省的GDP增長(zhǎng)數(shù)據(jù)時(shí),單純的截面數(shù)據(jù)回歸分析無(wú)法找出各省GDP隨時(shí)間變化的特征,使得分析結(jié)果沒(méi)有深度。而如果只用時(shí)間序列分析,則會(huì)遺漏掉不同截面間的聯(lián)系與區(qū)別,例如在分析中國(guó)單個(gè)省市的GDP隨時(shí)間增長(zhǎng)的數(shù)據(jù)時(shí),無(wú)法找出各個(gè)省市之間經(jīng)濟(jì)增長(zhǎng)的聯(lián)系與區(qū)別,因而同樣無(wú)法滿足我們的需要。而面板數(shù)據(jù),是一種既包括了時(shí)間序列數(shù)據(jù),也包括了相關(guān)截面數(shù)據(jù)的復(fù)合數(shù)據(jù),是近年來(lái)用得較多的一種數(shù)據(jù)類型。
下面我們將基于2000-2009年中國(guó)各省GDP和財(cái)政收入的面板數(shù)據(jù)的實(shí)例來(lái)詳細(xì)闡述面板數(shù)據(jù)的分析方法。
一、GDP與財(cái)政收入關(guān)系的經(jīng)濟(jì)學(xué)模型
財(cái)政收入是保證國(guó)家有效運(yùn)轉(zhuǎn)的經(jīng)濟(jì)基礎(chǔ),在一國(guó)經(jīng)濟(jì)建設(shè)中發(fā)揮著重要作用。隨著中國(guó)經(jīng)濟(jì)發(fā)展速度的日益加快,財(cái)政收入不斷擴(kuò)大,而擴(kuò)大的財(cái)政收入又以政府支出來(lái)調(diào)節(jié)和推動(dòng)國(guó)民經(jīng)濟(jì)發(fā)展。正確認(rèn)識(shí)財(cái)政收入與經(jīng)濟(jì)增長(zhǎng)之間的長(zhǎng)期關(guān)系,把握財(cái)政收入與經(jīng)濟(jì)增長(zhǎng)之間的相互影響,發(fā)揮財(cái)政收入對(duì)經(jīng)濟(jì)發(fā)展的調(diào)節(jié)和促進(jìn)功能,對(duì)于完善財(cái)稅政策,深化財(cái)稅體制改革,實(shí)現(xiàn)財(cái)政與經(jīng)濟(jì)之間的良性互動(dòng),具有重要的現(xiàn)實(shí)意義。文章就將從中國(guó)各省的面板數(shù)據(jù)出發(fā)研究,中國(guó)不同地域間財(cái)政收入和GDP之間的關(guān)系。
二、實(shí)證分析
(一)單位根檢驗(yàn)
Eviews有兩種單位根檢驗(yàn)方法,一種在相同根的假設(shè)下的檢驗(yàn),包括LLC、Breintung、Hadri。另一種則是在不同根下的假設(shè)前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗(yàn)結(jié)果表明所有檢驗(yàn)都拒絕原假設(shè),因此序列GDP和CZSR均為一個(gè)2階單整序列。
(二)協(xié)整檢驗(yàn)
如果基于單位根檢驗(yàn)的結(jié)果發(fā)現(xiàn)變量之間是同階單整的,那么我們可以進(jìn)行協(xié)整檢驗(yàn)。協(xié)整檢驗(yàn)是考察變量間長(zhǎng)期均衡關(guān)系的方法。所謂的協(xié)整是指若兩個(gè)或多個(gè)非平穩(wěn)的變量序列,其某個(gè)線性組合后的序列呈平穩(wěn)性。此時(shí)我們稱這些變量序列間有協(xié)整關(guān)系存在。
在最終的結(jié)果中,Pedroni方法中除了rho-Statistic、PP-Statistic項(xiàng)目外都拒絕GDP和CZSR不存在協(xié)整關(guān)系的原假設(shè),同樣Kao和Johansen檢驗(yàn)方法也都拒絕原假設(shè),因此,上述檢驗(yàn)結(jié)果表明,我國(guó)各省2000-20009年的GDP和財(cái)政收入面板數(shù)據(jù)間存在著協(xié)整關(guān)系。既然通過(guò)了協(xié)整檢驗(yàn),說(shuō)明變量之間存在著長(zhǎng)期穩(wěn)定的均衡關(guān)系,其方程回歸殘差是平穩(wěn)的,因此可以在此基礎(chǔ)上直接對(duì)進(jìn)行回歸分析,此時(shí)假設(shè)方程的回歸結(jié)果是較精確的。
三、建立模型
混合模型:如果從時(shí)間上看,不同個(gè)體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數(shù)據(jù)混合在一起用普通最小二乘法(OLS)估計(jì)參數(shù)。
我們根據(jù)混合模型的回歸結(jié)果,得到財(cái)政收入和GDP之間的回歸方程為:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
顯然從模型的回歸結(jié)構(gòu)來(lái)看,R2的值達(dá)到了0.81,有了比較好的回歸解釋力,同時(shí),GDP的回歸系數(shù)為0.103224,表明各省的財(cái)政收入平均占到了國(guó)民收入的10.3%左右。
變系數(shù)模型:顯然,在中國(guó)各省之間由于處在不同的地區(qū),因而擁有不同的區(qū)位優(yōu)勢(shì),那么各省的發(fā)展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會(huì)導(dǎo)致經(jīng)濟(jì)變量間出現(xiàn)一些關(guān)聯(lián)性的變化,此時(shí)在進(jìn)行模型回歸的時(shí)候,我們就有必要考慮變系數(shù)模型。
在回歸結(jié)果中,R2的值達(dá)到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數(shù)模型回歸結(jié)果中,GDP的回歸系數(shù)大于0.5的只有、青海、寧夏三個(gè)省份,也就是說(shuō)這三個(gè)省份的財(cái)政收入占到了GDP的50%以上,他們同處于經(jīng)濟(jì)并不是很發(fā)達(dá)的西部地區(qū),由此可以看出,處在經(jīng)濟(jì)發(fā)達(dá)地區(qū)的財(cái)政收入占GDP的比重要低,而不發(fā)達(dá)地區(qū)則要高。
四、結(jié)論
通過(guò)以上的分析檢驗(yàn),我們發(fā)現(xiàn)針對(duì)于中國(guó)財(cái)政收入和GDP的面板數(shù)據(jù),我們應(yīng)建立起變系數(shù)模型,并通過(guò)模型分析,我們可以得出這樣的結(jié)論,中國(guó)各省間由于存在著地域經(jīng)濟(jì)發(fā)展水平不同、管理水平不同以及國(guó)家的相關(guān)政策等諸多不同,造成了各省之間在財(cái)政收入以及國(guó)民收入上面存在著一定的差異。而回歸結(jié)果也告訴我們,我國(guó)西部地區(qū)的財(cái)政收入占GDP的比例要明顯高于東部地區(qū),地區(qū)發(fā)展落后地區(qū)的財(cái)政收入占GDP的比例也要明顯高于東部地區(qū)。因此,這為我們改善我國(guó)落后地區(qū)的經(jīng)濟(jì)發(fā)展提供了一定的新思路,就是對(duì)一地區(qū)的稅收征收可以適當(dāng)放緩,而將GDP中以前政府占用的部分歸還于民眾和企業(yè),因?yàn)?,按照發(fā)達(dá)地區(qū)的經(jīng)驗(yàn)表明,財(cái)政收入所占比重過(guò)高,經(jīng)濟(jì)發(fā)展的活力或者就不會(huì)很高,對(duì)于進(jìn)一步刺激財(cái)政收入的增加也沒(méi)有任何幫助。因此,我們應(yīng)該適度降低財(cái)政收入占GDP的比重,從而增加經(jīng)濟(jì)活力,使西部地區(qū)以及落后地區(qū)及早的跟上東部發(fā)達(dá)地區(qū)的發(fā)展步伐,從而消除我國(guó)經(jīng)濟(jì)發(fā)展的地域不平衡。
參考文獻(xiàn):
[1]謝識(shí)予,朱洪鑫.高級(jí)計(jì)量經(jīng)濟(jì)學(xué)[M].復(fù)旦大學(xué)出版社,2005.
[2]張曉峒.Eviews使用指南(第二版)[M].南開(kāi)大學(xué)出版社,2004.
篇3
相關(guān)熱搜:統(tǒng)計(jì)學(xué) 統(tǒng)計(jì)學(xué)原理
一、數(shù)據(jù)統(tǒng)計(jì)分析的內(nèi)涵
數(shù)據(jù)分析是指運(yùn)用一定的分析方法對(duì)數(shù)據(jù)進(jìn)行處理,從而獲得解決管理決策或營(yíng)銷研究問(wèn)題所需信息的過(guò)程。所謂的數(shù)據(jù)統(tǒng)計(jì)分析就是運(yùn)用統(tǒng)計(jì)學(xué)的方法對(duì)數(shù)據(jù)進(jìn)行處理。在實(shí)際的市場(chǎng)調(diào)研工作中,數(shù)據(jù)統(tǒng)計(jì)分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當(dāng)?shù)男问奖憩F(xiàn)出來(lái),并最終指導(dǎo)決策的制定。
二、數(shù)據(jù)統(tǒng)計(jì)分析的原則
(1)科學(xué)性??茖W(xué)方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計(jì)分析作為市場(chǎng)調(diào)研的重要組成部分也要具有同其他科學(xué)方法一樣的客觀標(biāo)準(zhǔn)。(2)系統(tǒng)性。市場(chǎng)調(diào)研是一個(gè)周密策劃、精心組織、科學(xué)實(shí)施,并由一系列工作環(huán)節(jié)、步驟、活動(dòng)和成果組成的過(guò)程,而不是單個(gè)資料的記錄、整理或分析活動(dòng)。(3)針對(duì)性。就不同的數(shù)據(jù)統(tǒng)計(jì)分析方法而言,無(wú)論是基礎(chǔ)的分析方法還是高級(jí)的分析方法,都會(huì)有它的適用領(lǐng)域和局限性。(4)趨勢(shì)性。市場(chǎng)所處的環(huán)境是在不斷的變化過(guò)程中的,我們要以一種發(fā)展的眼光看待問(wèn)題。(5)實(shí)用性。市場(chǎng)調(diào)研說(shuō)到底是為企業(yè)決策服務(wù)的,而數(shù)據(jù)統(tǒng)計(jì)分析也同樣服務(wù)于此,在保證其專業(yè)性和科學(xué)性的同時(shí)也不能忽略其現(xiàn)實(shí)意義。
三、推論性統(tǒng)計(jì)分析方法
(1)方差分析。方差分析是檢驗(yàn)多個(gè)總體均值是否相等的一種統(tǒng)計(jì)方法,它可以看作是t檢驗(yàn)的一種擴(kuò)展。它所研究的是分類型自變量對(duì)數(shù)值型因變量的影響,比如它們之間有沒(méi)有關(guān)聯(lián)性、關(guān)聯(lián)性的程度等,所采用的方法就是通過(guò)檢驗(yàn)各個(gè)總體的均值是否相等來(lái)判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計(jì)分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對(duì)應(yīng)的因果變化往往無(wú)法用精確的數(shù)學(xué)公式來(lái)描述,只有通過(guò)大量觀察數(shù)據(jù)的統(tǒng)計(jì)工作才能找到他們之間的關(guān)系和規(guī)律,解決這一問(wèn)題的常用方法是回歸分析?;貧w分析是從定量的角度對(duì)觀察數(shù)據(jù)進(jìn)行分析、計(jì)算和歸納。
四、多元統(tǒng)計(jì)分析方法
篇4
【關(guān)鍵詞】教師 大數(shù)據(jù) 數(shù)學(xué)模型 matlab 最小二乘法
【中圖分類號(hào)】G64 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2015)06-0155-02
大數(shù)據(jù),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)[2]。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)那些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。本文將以東北地區(qū)數(shù)學(xué)專業(yè)教師大數(shù)據(jù)為基礎(chǔ),通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”,使其為決策與預(yù)測(cè)服務(wù)。
一、東北地區(qū)數(shù)學(xué)專業(yè)教師大數(shù)據(jù)來(lái)源及準(zhǔn)備
通過(guò)查閱資料與調(diào)查,收集到東北三省各高校數(shù)學(xué)教師相關(guān)大數(shù)據(jù),包括教師教齡(?S年)、收入(?S元)、稅收(?S元)和職業(yè)病情況等方面的實(shí)際數(shù)據(jù)。由于得到的數(shù)據(jù)信息量大,輕重各異,所以首先需要進(jìn)行數(shù)據(jù)預(yù)處理,即清除異常數(shù)據(jù)、錯(cuò)誤糾正、格式標(biāo)準(zhǔn)化等,再通過(guò)數(shù)據(jù)挖掘技術(shù),利用一系列相關(guān)算法和數(shù)據(jù)處理技術(shù)從大量的數(shù)據(jù)中提取人們所需要的重要信息,也就是上面所提到的實(shí)現(xiàn)信息的“增值”,同時(shí)大大提高數(shù)據(jù)處理效率,下面具體介紹本項(xiàng)目所采用的模型和計(jì)算方法。
二、東北地區(qū)數(shù)學(xué)專業(yè)教師大數(shù)據(jù)分析與結(jié)果
收集并處理好教師教齡、收入、稅收和職業(yè)病情況等方面的數(shù)據(jù)后,本文主要針對(duì)三個(gè)方面進(jìn)行了詳細(xì)的分析:
1.教師收入隨年份的變化
(1)數(shù)據(jù)范圍:1994年-2014年?yáng)|三省各高校數(shù)學(xué)教師收入(單位:元);
(2)計(jì)算條件:matlab軟件,最小二乘回歸分析,高性能計(jì)算工作站;
(3)求解過(guò)程:年份作為自變量x,收入為因變量y,從總體上看,二者統(tǒng)計(jì)關(guān)系大致符合一元線性的正態(tài)誤差模型[3],即對(duì)給定xi的有最小二乘一元線性回歸公式y(tǒng)i=b0+b1xi+εi,其中:
b■=■, ■=■■x■b0=■-b■■, ■ =■■y■
其中εi是由變量可能的內(nèi)在隨機(jī)性、未知影響因素等隨機(jī)擾動(dòng)造成的誤差??傊?,它可看成是眾多細(xì)小影響因素的綜合代表。最后,由Matlab提供polyfit函數(shù)實(shí)現(xiàn)回歸函數(shù)擬合[4];
(4)結(jié)果分析:計(jì)算結(jié)果表明,隨著年份的增加,教師收入也在不斷增加。估計(jì)的因變量的系數(shù)b1約為191,也就是說(shuō),每過(guò)一年,教師收入大致可增加近191元。
2.教師職業(yè)病情況與教齡的關(guān)系
(1)數(shù)據(jù)范圍:1994年―2014年?yáng)|三省各高校數(shù)學(xué)教師教齡(單位:年)、職業(yè)病情況;
(2)結(jié)果分析:首先利用matlab軟件,以橫軸為某年?yáng)|三省數(shù)學(xué)教師教齡,縱軸反映相應(yīng)教齡的平均職業(yè)病情況(為方便,規(guī)定越接近縱軸正方向,職業(yè)病越嚴(yán)重)利用matlab軟件繪制圖形[5],發(fā)現(xiàn)教師教齡越長(zhǎng),職業(yè)病也愈加嚴(yán)重。每一年的教師職業(yè)病情況均可繪制一張圖表,通過(guò)將這11張圖表的最高值(即每一年職業(yè)病的最高值)做比較,發(fā)現(xiàn)其趨勢(shì)是先逐年下降,最后趨于穩(wěn)定。
3.對(duì)教師專業(yè)發(fā)展階段的研究
(1)數(shù)據(jù)范圍:2014年?yáng)|三省各高校數(shù)學(xué)教師收入、教齡、稅收和職業(yè)病大數(shù)據(jù);
(2)計(jì)算條件:IBM處理器、大數(shù)據(jù)挖掘分類算法;
(3)求解過(guò)程:用神經(jīng)網(wǎng)絡(luò)研究方法(即模擬生物上神經(jīng)元工作的方法)。圖中每個(gè)橢圓形節(jié)點(diǎn)接受輸入數(shù)據(jù),將數(shù)據(jù)處理后輸出,輸入層節(jié)點(diǎn)接受教師信息的輸入,然后將數(shù)據(jù)傳遞給隱藏層,隱藏層將數(shù)據(jù)傳給輸出層,輸出層輸出教師專業(yè)發(fā)展處于哪一專業(yè)成熟階段;
(4)結(jié)果分析:若將教師專業(yè)成熟過(guò)程分為三個(gè)階段:形成期、發(fā)展期和成熟期。那么利用IBM處理器和以上算法,在所調(diào)查的教師中,約70%處于發(fā)展時(shí)期,是其基本適應(yīng)教育教學(xué)工作的時(shí)期;約20%處于形成期,是形成良好心理素質(zhì)和正確教育思想的關(guān)鍵時(shí)期;約10%處于成熟期,是掌握教學(xué)主動(dòng)權(quán),成為學(xué)校教學(xué)骨干的時(shí)期;
(5)研究意義:研究東三省高校數(shù)學(xué)教師專業(yè)發(fā)展成熟階段,可以基本掌握教師資源結(jié)構(gòu),從而能夠遵循不同發(fā)展階段的不同特征、觀念、心理、發(fā)展需求,制定相應(yīng)教研活動(dòng)、政策和制度,促進(jìn)教師全面持續(xù)發(fā)展[6]。
三、結(jié)果討論
1.數(shù)據(jù)呈現(xiàn)以上結(jié)果的原因
(1)隨著國(guó)家科教興國(guó)戰(zhàn)略的深入實(shí)施,教師的工資和待遇將被逐步納入國(guó)家工作人員統(tǒng)一管理,教師的收入將得到很大的提高。另一方面,數(shù)學(xué)能力的培養(yǎng)是學(xué)習(xí)各專業(yè)、走入各行業(yè)的基礎(chǔ),國(guó)家將加大數(shù)學(xué)知識(shí)的教育力度,進(jìn)而數(shù)學(xué)專業(yè)教師所付出的辛苦也更加不可小覷,綜合以上幾個(gè)重要原因,教師收入隨年份增加而增加也是符合經(jīng)濟(jì)理論的。
(2)教齡越長(zhǎng),職業(yè)病也越嚴(yán)重的依存關(guān)系,我們?nèi)菀桌斫?。但隨著時(shí)間的推移,職業(yè)病的嚴(yán)重性呈現(xiàn)下降趨勢(shì)正是反映了我國(guó)科技的革新:環(huán)境的改變、教學(xué)設(shè)備和教學(xué)技術(shù)的更新使得教師的課堂教學(xué)更加高效和輕松便捷,如多媒體、電子白板使得課堂不再“塵土飛揚(yáng)”。
(3)在對(duì)教師專業(yè)發(fā)展階段的研究中,處于專業(yè)發(fā)展時(shí)期的教師所占比例最高,達(dá)到近70%。實(shí)際上,他們多數(shù)處于青壯年的人生階段,是社會(huì)的中堅(jiān)力量,又曾在高等教育多樣化與綜合化的背景下受到過(guò)良好的教育,并具有較豐富的教學(xué)經(jīng)驗(yàn)和緊跟新時(shí)代的創(chuàng)新思想,自然在專業(yè)發(fā)展的角度也占有較大比例。
2.合理的相關(guān)預(yù)測(cè)
大數(shù)據(jù)最有價(jià)值的特點(diǎn)就是其“預(yù)見(jiàn)性”。上述數(shù)值結(jié)果表明,在經(jīng)濟(jì)平穩(wěn)發(fā)展和社會(huì)穩(wěn)定的前提下,東三省數(shù)學(xué)專業(yè)教師的收入在未來(lái)的幾十年依舊處于增長(zhǎng)趨勢(shì),教師職業(yè)病總體減輕,專業(yè)發(fā)展越來(lái)越成熟,使得教師隊(duì)伍整體素質(zhì)越來(lái)越高,而未來(lái)教師的考核獎(jiǎng)勵(lì)制度也會(huì)變得更加嚴(yán)格和全面。
3.建議
(1)無(wú)論是對(duì)教師行業(yè)還是其他行業(yè)感興趣,都要關(guān)注其變化,分析其形勢(shì)及趨勢(shì),以便對(duì)此行業(yè)的認(rèn)知更加科學(xué)合理。
(2)本文采用的大數(shù)據(jù)處理所用模型和方法,可以進(jìn)一步推廣到其它相關(guān)領(lǐng)域,使之成為研究大數(shù)據(jù)的更通用的工具。
本文利用matlab軟件、最小二乘法模型及IBM處理器分析了東北地區(qū)數(shù)學(xué)專業(yè)教師大數(shù)據(jù),得出的結(jié)果對(duì)于掌握該地區(qū)數(shù)學(xué)教師基本情況并預(yù)測(cè)其發(fā)展趨勢(shì)有著重要的作用,還為熱心同類問(wèn)題的研究者提供高效的方法和技術(shù)。當(dāng)我們不能有效處理所獲取的大數(shù)據(jù),它們就是一些平凡的數(shù)字和符號(hào)。如果我們能夠很好地駕馭大數(shù)據(jù),它們必定會(huì)為我們帶來(lái)諸多的方便。
最小二乘法模型在處理大數(shù)據(jù)時(shí)有一定的優(yōu)勢(shì)[7],統(tǒng)計(jì)分析,神經(jīng)網(wǎng)絡(luò)算法和遺傳算法都是處理大數(shù)據(jù)的有效方法,如果能將這些方法有機(jī)的結(jié)合起來(lái),將更能獲得許多滿意的數(shù)值分析結(jié)果。當(dāng)大數(shù)據(jù)超過(guò)計(jì)算條件的時(shí)空允許時(shí),不僅耗時(shí)費(fèi)力,甚至使得計(jì)算成為不可能,通常需要采用并行算法等高效計(jì)算手段。在高性能計(jì)算方面,我們并沒(méi)有用到并行算法,如果能利用并行算法,所處理的數(shù)值結(jié)果容量會(huì)更大更有參考價(jià)值。
參考文獻(xiàn):
[1]蔡鎖章主編.數(shù)學(xué)建模:原理與方法.北京:海洋出版社,2000.
[2]維克托邁爾舍恩伯格.大數(shù)據(jù)時(shí)代.浙江:浙江人民出版社,2012.
[3]吳翊,吳孟達(dá),成禮智編著.數(shù)學(xué)建模的理論與實(shí)踐.長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1999.
[4]張德豐編著.Matlab數(shù)值分析與仿真案例.北京:清華大學(xué)出版社,2011.10(21世紀(jì)高等學(xué)校規(guī)劃教材計(jì)算機(jī)應(yīng)用)IBSN 978―7―302―26254―1.
[5]楊德平等編著.Matlab基礎(chǔ)教程.北京:機(jī)械工業(yè)出版社,2013.221世紀(jì)高等院校計(jì)算機(jī)輔助設(shè)計(jì)規(guī)劃教材 ISBN 978―7―111―41023―2.
篇5
【關(guān)鍵詞】靶場(chǎng)遙測(cè) 數(shù)據(jù)處理 處理方法
數(shù)據(jù)處理的周期直接受到遙測(cè)數(shù)據(jù)參數(shù)提取和處理素的影響,這也是在靶場(chǎng)遙測(cè)數(shù)據(jù)領(lǐng)域一項(xiàng)重要的研究?jī)?nèi)容。本文將就此論題進(jìn)行探討,以求得到高效的處理方法。
1 遙測(cè)復(fù)雜數(shù)據(jù)幀的描述
遙測(cè)數(shù)據(jù)是二進(jìn)制數(shù)據(jù)流,主要通過(guò)幀結(jié)構(gòu)形式將多路數(shù)據(jù)進(jìn)行記錄,固定字節(jié)長(zhǎng)度的文件信息是文件頭。子幀中有專門(mén)的一路用于副幀和數(shù)字量,子幀參數(shù)字節(jié)和副幀有著相同的數(shù)據(jù)類型,但是有著不同的數(shù)字量參數(shù)字節(jié),有著繁多的參數(shù)種類。如果數(shù)字量結(jié)構(gòu)中相對(duì)導(dǎo)彈每個(gè)特征飛行時(shí)段都需要有一個(gè)分幀記錄數(shù)據(jù),一般分幀有四個(gè),每個(gè)分幀可以分為A、B區(qū),在A區(qū)不同分幀有著相同的記錄參數(shù),在B區(qū)記錄參數(shù)各不相同,這種數(shù)字量則為遙測(cè)復(fù)雜數(shù)據(jù)幀。
2 大數(shù)據(jù)量處理
2.1 基于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的數(shù)據(jù)處理模式
遙測(cè)數(shù)據(jù)綜合處理系統(tǒng)有多個(gè)設(shè)備組成,包括專用數(shù)據(jù)導(dǎo)入計(jì)算機(jī)、數(shù)據(jù)存儲(chǔ)陣列、高性能客戶機(jī)、交換機(jī)、高性能服務(wù)器。其中服務(wù)器需要配備兩臺(tái),一臺(tái)用于中心處理服務(wù)器,一臺(tái)用于做數(shù)據(jù)存儲(chǔ)服務(wù)器。中心服務(wù)器同時(shí)為多個(gè)用戶提供計(jì)算服務(wù),可以充分利用服務(wù)器硬件資源提高數(shù)據(jù)的處理速度。
遙測(cè)數(shù)據(jù)綜合處理系統(tǒng)通過(guò)將C/S與B/S結(jié)合的方式方實(shí)現(xiàn)。C/S主要用于處理日常試驗(yàn)任務(wù)的數(shù)據(jù)、數(shù)據(jù)檔案的歸檔和記錄、數(shù)據(jù)的查詢等工作;B/S架構(gòu)主要用于管理任務(wù)、查詢統(tǒng)計(jì)歷史數(shù)據(jù)、上傳下載打包的數(shù)據(jù)。
按照變化頻率,可以將遙測(cè)參數(shù)分為速變參數(shù)和緩變參數(shù)。緩變參數(shù)有著復(fù)雜的記錄格式,包括子幀、副幀、數(shù)字量等幀結(jié)構(gòu)中都有所分布,如果導(dǎo)彈的型號(hào)不同,那么其參數(shù)信息表單也存在差異,所以更改頻繁、使用單一是其主要的特點(diǎn)。所以,可以采用客戶端軟件對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行檢查和分錄,由中心處理服務(wù)器實(shí)現(xiàn)分錄數(shù)據(jù)的對(duì)接、平滑濾波和剔除野值。緩變參數(shù)處理操作步驟一般如下:
(1)用戶通過(guò)客戶端提供的數(shù)據(jù)下載功能將項(xiàng)目試驗(yàn)任務(wù)遙測(cè)數(shù)據(jù)下載到本地。
(2)對(duì)項(xiàng)目任務(wù)參數(shù)信息進(jìn)行審核,如果該參數(shù)信息表單已經(jīng)存在那么需要重新配置參數(shù)信息表單。
(3)在緩變參數(shù)處理軟件中輸入遙測(cè)數(shù)據(jù)及參數(shù)信息表單路徑,然后上傳到中心處理服務(wù)器,完成數(shù)據(jù)的對(duì)接,剔除野值,生成參數(shù)數(shù)據(jù)文件。
(4)上傳生成的參數(shù)數(shù)據(jù)文件和參數(shù)信息表單,由數(shù)據(jù)存儲(chǔ)中心進(jìn)行保存。
(5)生成處理結(jié)果
用戶通過(guò)客戶端軟件對(duì)測(cè)量數(shù)據(jù)質(zhì)量檢驗(yàn)報(bào)告進(jìn)行預(yù)覽,合格后可以打印。
在測(cè)量數(shù)據(jù)的子幀結(jié)構(gòu)中,速變參數(shù)記錄數(shù)據(jù)有著相對(duì)固定的格式,型號(hào)不同的導(dǎo)彈任務(wù)參數(shù)信息表單基本沒(méi)有太大的差別,所以可以采用客戶端軟件實(shí)現(xiàn)數(shù)據(jù)的驗(yàn)證和截取。速變參數(shù)記錄數(shù)據(jù)的處理步驟如下:
(1)上傳參數(shù)信息表單,將數(shù)據(jù)分路指令發(fā)送給速變參數(shù)處理軟件服務(wù)器。
(2)下載遙測(cè)數(shù)據(jù)文件,根據(jù)要求執(zhí)行遙測(cè)數(shù)據(jù)文件質(zhì)量檢查等操作,并且保存到存儲(chǔ)中心,將執(zhí)行完畢的指令發(fā)送給客戶端軟件。
(3)用戶通過(guò)客戶端軟件查看測(cè)量數(shù)據(jù)質(zhì)量檢查情況,如果不符合質(zhì)量評(píng)定要求,發(fā)送數(shù)據(jù)對(duì)接信令,將不同測(cè)量數(shù)據(jù)的分路數(shù)據(jù)進(jìn)行對(duì)接,生成參數(shù)數(shù)據(jù)文件并上傳存儲(chǔ)中心。
(4)用戶通過(guò)客戶端軟件從存儲(chǔ)中心下載相應(yīng)的參數(shù)數(shù)據(jù)文件,進(jìn)行選段采樣、譜分析,生成譜圖。
(5)用戶通過(guò)客戶端軟件將最終參數(shù)數(shù)據(jù)文件保存到存儲(chǔ)中心,發(fā)送報(bào)告生成指令,報(bào)告生成服務(wù)軟件自動(dòng)生成數(shù)據(jù)處理結(jié)果報(bào)告和測(cè)量數(shù)據(jù)質(zhì)量檢查報(bào)告,用戶審閱通過(guò)后即可打印。
2.2 數(shù)據(jù)選取
隨著遙測(cè)測(cè)量數(shù)據(jù)量的不斷增加,數(shù)據(jù)的冗余性也逐漸加大。因此,將數(shù)據(jù)壓縮技術(shù)應(yīng)用于遙測(cè)數(shù)據(jù)處理中,在保持參數(shù)波形不失真的情況下降低數(shù)據(jù)處理量,從而達(dá)到提高數(shù)據(jù)處理效率的目的。目前,數(shù)據(jù)壓縮方法很多,常用的主要有相對(duì)插值法、二次采樣法、拋物線法和一階扇形內(nèi)插法,但從壓縮比和參數(shù)波形保持兩方面綜合來(lái)看,一階扇形內(nèi)插法更具優(yōu)勢(shì),具體內(nèi)容在此不詳細(xì)敘述,可參考《靶場(chǎng)遙測(cè)數(shù)據(jù)選取方法的比較分析》。
3 結(jié)束語(yǔ)
通過(guò)改變數(shù)據(jù)處理模式以及降低數(shù)據(jù)冗余性,掌握遙測(cè)數(shù)據(jù)記錄特點(diǎn)和變化規(guī)律,將遙測(cè)大數(shù)據(jù)量處理問(wèn)題予以解決,這對(duì)于靶場(chǎng)遙測(cè)數(shù)據(jù)處理上有著重要的意義。未來(lái)應(yīng)當(dāng)構(gòu)建遙測(cè)綜合處理系統(tǒng),盡量滿足大數(shù)據(jù)量處理的要求。希望本文提出的觀點(diǎn)具有一定的參考價(jià)值。
參考文獻(xiàn)
篇6
本文主要講述了工程研究中缺損數(shù)據(jù)的主要的簡(jiǎn)單填補(bǔ)方法,涉及了人工填補(bǔ)、特殊值填補(bǔ)、回歸填補(bǔ)、信息擴(kuò)散填補(bǔ)以及多重填補(bǔ),并淺析了各種填補(bǔ)方法的優(yōu)缺點(diǎn)。但在實(shí)際問(wèn)題中,仍需要考慮各方面的因素,結(jié)合實(shí)際情況,對(duì)填補(bǔ)的數(shù)據(jù)進(jìn)行最優(yōu)化處理。
關(guān)鍵詞:
缺損數(shù)據(jù) ; 信息擴(kuò)散; 多重填補(bǔ)
前言
隨著工程技術(shù)的發(fā)展越來(lái)越迅速,人們所掌握的各種工程手段也更加的成熟,但工程研究主要是以大量的數(shù)據(jù)處理為基礎(chǔ)的,這就使得工程數(shù)據(jù)的分析與處理顯得尤為重要。然而,在現(xiàn)實(shí)的數(shù)據(jù)采集與發(fā)掘的過(guò)程中,由于數(shù)據(jù)采集技術(shù)和偶然的原因,使得某些重要的數(shù)據(jù)丟失或無(wú)法測(cè)得,致使這些工程研究與應(yīng)用的難度增加,且研究所得結(jié)論也會(huì)或多或少地受到影響。在現(xiàn)實(shí)情況下,缺損數(shù)據(jù)所造成的影響主要有以下幾點(diǎn):1.含有缺損數(shù)據(jù),導(dǎo)致獲得的信息量減少,使統(tǒng)計(jì)精度降低;2.數(shù)據(jù)處理中的許多假設(shè)都是建立在無(wú)缺損數(shù)據(jù)的前提下,致使處理的結(jié)果不正確;3.缺損數(shù)據(jù)本身就是重要的數(shù)據(jù)源,使得后續(xù)計(jì)算與處理無(wú)法繼續(xù)。由此可知,對(duì)這些缺損數(shù)據(jù)或不完備數(shù)據(jù)的處理將成為工程研究上一大重要問(wèn)題。
工程上缺損數(shù)據(jù)產(chǎn)生的原因以及主要的處理方法
缺損數(shù)據(jù)產(chǎn)生的原因是多樣的,主要分為由于器械精度不夠而導(dǎo)致測(cè)得錯(cuò)誤的數(shù)據(jù)或者無(wú)法測(cè)得的數(shù)據(jù)和由于人為的原因?qū)е聰?shù)據(jù)記錄錯(cuò)誤或數(shù)據(jù)丟失。而在工程研究上,由人的失誤等主觀因素導(dǎo)致的缺損數(shù)據(jù)是可以避免的,這些缺損數(shù)據(jù)大多數(shù)是由于器械等客觀因素導(dǎo)致的。例如在地震研究中,許多數(shù)據(jù)都不可能準(zhǔn)確地測(cè)得;再例如在古建筑研究方面,如何根據(jù)現(xiàn)測(cè)得的古建筑材料性能參數(shù)估計(jì)該古建筑在不做人工處理的條件下仍能保存的時(shí)間……缺損數(shù)據(jù)可謂無(wú)處不在,缺損數(shù)據(jù)的處理或許將成為工程師的一大難題。
目前,工程上處理這些缺損數(shù)據(jù)的方法主要是刪除、填補(bǔ)和忽略?,F(xiàn)階段最常用的處理方法就是刪除了,甚至一些統(tǒng)計(jì)軟件也常用這一依據(jù),在所刪除的元組相對(duì)于整個(gè)數(shù)據(jù)系統(tǒng)相對(duì)比較小的情況下,該處理方法非常有用,且簡(jiǎn)單易行。然而很多時(shí)候,缺損的數(shù)據(jù)本來(lái)就是很重要的數(shù)據(jù),必須要獲得該缺損值,這種方法就不可行了;同時(shí),在所挖掘的數(shù)據(jù)本來(lái)就少的情況下,這種以犧牲現(xiàn)有數(shù)據(jù)來(lái)得到完整的數(shù)據(jù)系統(tǒng)也是不明智的,該方法的局限性就在于此。對(duì)于填補(bǔ)缺損數(shù)據(jù),無(wú)疑是一種比較實(shí)用的處理方法。在填補(bǔ)恰當(dāng)?shù)那闆r下,對(duì)數(shù)據(jù)的后續(xù)研究與處理將起到非常重要的作用。本文主要就是討論缺損數(shù)據(jù)的最優(yōu)填補(bǔ)方法。再者,就是忽略這些缺損的數(shù)據(jù),也即不處理這些數(shù)據(jù)。相比于刪除和填補(bǔ)誤差較大的情況,直接在含有缺損數(shù)據(jù)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)分析與處理也不失為一種較好的處理方法。
缺損數(shù)據(jù)的填補(bǔ)方法分析比較
填補(bǔ)缺損數(shù)據(jù),也即將缺損的數(shù)據(jù)用合適的值代替。如何使代替值與真實(shí)值接近則成為填補(bǔ)的關(guān)鍵,若填補(bǔ)合適,則將對(duì)數(shù)據(jù)的進(jìn)一步處理起至關(guān)重要的作用;相反,填補(bǔ)出現(xiàn)較大的失誤則將對(duì)后續(xù)的分析帶來(lái)困惑,甚至得到錯(cuò)誤的結(jié)果。一般情況,缺損的數(shù)據(jù)不外乎兩種,一種就是缺損的數(shù)據(jù)是具有離散性質(zhì)的,例如決策表中的屬性;另一種則是具有連續(xù)性的,例如高聳建筑某時(shí)刻的沉降值。
人們通常觀測(cè)到的數(shù)據(jù)不可能是連續(xù)的,往往是測(cè)定需要的數(shù)值或者通過(guò)觀測(cè)某些特定點(diǎn)的值來(lái)近似估計(jì)所需要的值。對(duì)于具有連續(xù)屬性的數(shù)據(jù),需要將其離散化,變?yōu)榫哂须x散特性的數(shù)據(jù),需要某些特定值時(shí),則可以用離散缺損數(shù)據(jù)填補(bǔ)的方法將其進(jìn)行填補(bǔ),這大大減少了數(shù)據(jù)觀測(cè)的復(fù)雜程度。而連續(xù)屬性離散化,就是在連續(xù)屬性的特定范圍內(nèi)劃定若干個(gè)離散點(diǎn),將連續(xù)屬性分為若干個(gè)離散區(qū)間,若區(qū)間劃分較小的情況下,則可以用該區(qū)間某一屬性值代替該區(qū)間的屬性值。目前國(guó)內(nèi)外連續(xù)屬性離散化的方法主要有等寬區(qū)間法、等頻區(qū)間法、K一means算法、ChiMerge算法、StatDise算法等。對(duì)于不同的連續(xù)屬性,應(yīng)采用相應(yīng)的方法將其離散化,繼而用離散型缺損數(shù)據(jù)的填補(bǔ)方法將其填補(bǔ)。由此,數(shù)據(jù)填補(bǔ)最終都可歸為填補(bǔ)離散型缺損數(shù)據(jù)。而對(duì)于離散型缺損數(shù)據(jù)(以下簡(jiǎn)稱為缺損數(shù)據(jù)),主要的填補(bǔ)方法有以下幾種:
人工填補(bǔ)
人工填補(bǔ),顧名思義,就是由人直接將缺損的數(shù)據(jù)填補(bǔ)完整。由于最了解數(shù)據(jù)的還是數(shù)據(jù)獲得者,因此這個(gè)方法得到的數(shù)據(jù)與真實(shí)值也較為接近。同時(shí)人工填補(bǔ)也是現(xiàn)階段為數(shù)不多的不以現(xiàn)有數(shù)據(jù)為依據(jù)的填補(bǔ)方法。但當(dāng)需填補(bǔ)的數(shù)據(jù)規(guī)模較大時(shí),這個(gè)方法明顯不合適,工作量大,費(fèi)時(shí)費(fèi)力。
可能值填補(bǔ)
所謂可能值填補(bǔ),就是利用現(xiàn)有數(shù)據(jù)填補(bǔ)缺損值,它是以最大概率的可能取值來(lái)補(bǔ)充所缺的值。以下介紹的可能值填補(bǔ)主要有平均值填補(bǔ)、眾數(shù)填補(bǔ)、中位數(shù)填補(bǔ)、期望最大填補(bǔ)、相似對(duì)象值填補(bǔ)等。
2.1 平均值填補(bǔ)
平均值填補(bǔ),就是取該屬性其他對(duì)象取值的平均數(shù)作為該屬性的取值。平均值填補(bǔ)分為總平均值填補(bǔ)和條件平均值填補(bǔ)??偲骄堤钛a(bǔ)是取將該屬性集的所有屬性的平均值作為填補(bǔ)值,若同一屬性存在多個(gè)缺失值,則這些填補(bǔ)值將完全相同,不符合變量之間的波動(dòng)規(guī)律。相反,條件平均值填補(bǔ)是將這個(gè)屬性計(jì)劃分為若干個(gè)范圍,取缺損值所屬范圍的屬性集的平均值作為填補(bǔ)數(shù),這顯然對(duì)變量的波動(dòng)程度的估計(jì)有所提高。平均值填補(bǔ)也存在一定的缺陷,首先均值填補(bǔ)已經(jīng)降低了整個(gè)屬性集的方差;其次,若填補(bǔ)的變量所在的屬性集不符合正態(tài)分布或與正態(tài)分布相差較大,則平均值填補(bǔ)就不合理了;最后,當(dāng)缺損值的屬性集是非數(shù)值型的時(shí)候,平均值填補(bǔ)則不能進(jìn)行。
眾數(shù)填補(bǔ)
眾數(shù)填補(bǔ),就是取該屬性其他對(duì)象取值的眾數(shù)作為該屬性填補(bǔ)值。對(duì)于具有較高重復(fù)性的屬性集,眾數(shù)填補(bǔ)比平均值填補(bǔ)顯得更加符合屬性集的變化規(guī)律。而對(duì)于非數(shù)值型的缺損值,有時(shí)也可考慮采用眾數(shù)填補(bǔ)。
中位數(shù)填補(bǔ)
相比于平均值填補(bǔ)和眾數(shù)填補(bǔ),中位數(shù)填補(bǔ)就是取屬性集的中位數(shù)作為填補(bǔ)值。對(duì)于變量分布是偏態(tài)的屬性集,中位數(shù)填補(bǔ)比平均值填補(bǔ)要更加準(zhǔn)確。中位數(shù)填補(bǔ)同樣可以應(yīng)用于非數(shù)值型的屬性集。
期望值最大填補(bǔ)(EM算法)
EM算法就是這樣,假設(shè)我們估計(jì)知道A和B兩個(gè)參數(shù),在開(kāi)始狀態(tài)下二者都是未知的,并且知道了A的信息就可以得到B的信息,反過(guò)來(lái)知道了B也就得到了A??梢钥紤]首先賦予A某種初值,以此得到B的估計(jì)值,然后從B的當(dāng)前值出發(fā),重新估計(jì)A的取值,這個(gè)過(guò)程一直持續(xù)到收斂為止。這種方法強(qiáng)調(diào)先對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì),最大化是在忽略缺失數(shù)據(jù)的前提下進(jìn)行最大似然估計(jì)的。當(dāng)具備缺失數(shù)據(jù)的估計(jì)值和給定的觀測(cè)值時(shí),就可以進(jìn)行期望計(jì)算,求出缺失數(shù)據(jù)的條件期望,用期望值代替缺失值,進(jìn)行循環(huán)計(jì)算,直到最大似然估計(jì)收斂為止。這種方法的最大優(yōu)點(diǎn)源自于在大樣本條件下,它能非常簡(jiǎn)單地執(zhí)行并且能通過(guò)穩(wěn)定、上升的步驟可靠地找到全局最優(yōu)值。
相似對(duì)象值填補(bǔ)(熱卡填補(bǔ))
相似對(duì)象值填補(bǔ),也即熱卡填補(bǔ),它要求在現(xiàn)有的數(shù)據(jù)里找到與缺失對(duì)象最相似的對(duì)象,用該對(duì)象相應(yīng)的屬性值代替缺失值。該方法簡(jiǎn)單易行,且能保持填補(bǔ)數(shù)值與變量非常接近。但該法主觀因素較多,沒(méi)有同一的標(biāo)準(zhǔn)衡量相似度,而且耗時(shí)費(fèi)力。
同樣,眾數(shù)填補(bǔ)、中位數(shù)填補(bǔ)、熱卡填補(bǔ)也可以拓展成條件眾數(shù)填補(bǔ)、條件中位數(shù)填補(bǔ)、條件熱卡填補(bǔ)。
回歸填補(bǔ)
回歸填補(bǔ),即是通過(guò)建立變量Y與自變量Xi(i=1,2,…)的回歸模型來(lái)預(yù)測(cè)Y的缺失數(shù)據(jù),也即建立缺損數(shù)據(jù)所在的變量關(guān)于自變量的函數(shù)關(guān)系式,進(jìn)而用該點(diǎn)的函數(shù)值代替缺失值,在現(xiàn)階段主要可以通過(guò)多項(xiàng)式擬合來(lái)填補(bǔ)缺損的數(shù)據(jù)。在數(shù)據(jù)量較小的情況下,該方法明顯有扭曲數(shù)據(jù)分布的缺點(diǎn),并且對(duì)于相同的Xi,如果對(duì)回歸模型不加以處理,就會(huì)得到相同的填補(bǔ)值,這就和總體均值填補(bǔ)一樣,扭曲了變量的變異性質(zhì)。若在回歸填補(bǔ)中增加一個(gè)隨機(jī)成分,將其和作為填補(bǔ)值,這樣就克服了扭曲變量變異性質(zhì)的缺陷。這種方法的關(guān)鍵在于如何確定最優(yōu)的回歸函數(shù)關(guān)系模型,不同的情況要具體而議,而且要考慮許多客觀因素。
信息擴(kuò)散填補(bǔ)
信息擴(kuò)散原理是由黃崇福教授提出的,雖然現(xiàn)在還不是完全很成熟,但在數(shù)據(jù)填補(bǔ)、風(fēng)險(xiǎn)評(píng)估等領(lǐng)域有著很重要的意義。它的原理是將A點(diǎn)的信息或數(shù)據(jù)通過(guò)一定的衰減傳遞到其他點(diǎn),再將這些點(diǎn)得到的信息依次傳遞下去,最后B點(diǎn)肯定能得到一定的信息量。反之,B點(diǎn)得到的信息或數(shù)據(jù)也可傳遞給A點(diǎn)。通過(guò)該方法,我們可將已有的觀測(cè)值通過(guò)一定的擴(kuò)散形式傳遞給需要填補(bǔ)的觀測(cè)點(diǎn),進(jìn)而用這些點(diǎn)最終得到的傳遞值代替其觀測(cè)值。目前該方法存在的不足之處就是如何確定擴(kuò)散函數(shù)以及擴(kuò)散的窗寬,這都需要根據(jù)實(shí)際問(wèn)題進(jìn)行大量的驗(yàn)算,最終確定擴(kuò)散函數(shù)及窗寬。
多重填補(bǔ)
以上介紹的填補(bǔ)方法,填補(bǔ)的數(shù)據(jù)都是唯一的。而多重填補(bǔ)的原理是首先為缺失值產(chǎn)生一系列用來(lái)填補(bǔ)的候選值,把這些候選值填補(bǔ)到缺失值后得到一系列的完整數(shù)據(jù)集合,對(duì)這些完整數(shù)據(jù)集采用相同的處理方法,再綜合分析考慮,選取最合適的缺失數(shù)據(jù)候選值。該方法在確定候選值時(shí)可以應(yīng)用上述的各種填補(bǔ)方法,而且考慮了許多不確定因素,在數(shù)據(jù)分析處理中占有很高的地位,但它不適合數(shù)據(jù)的挖掘,而且計(jì)算也很復(fù)雜。但如果我們已經(jīng)通過(guò)前面所述方法得到了若干候選填補(bǔ)值,就可以用該方法確定最佳的填補(bǔ)值。
總結(jié)
缺損數(shù)據(jù)的填補(bǔ)方法固然有很多種,但針對(duì)不同的情況,如何合理的選取填補(bǔ)方法才是填補(bǔ)的關(guān)鍵。只有弄清缺失數(shù)據(jù)的原因、特性、數(shù)據(jù)類型、數(shù)據(jù)集分布等許多因素,才可以為選取合適的填補(bǔ)方法提供依據(jù)。而且通過(guò)以上的分析,每種方法都有其優(yōu)缺點(diǎn),如果在數(shù)據(jù)填補(bǔ)過(guò)程中能綜合考慮,或者將不同的方法加以融合,可能會(huì)使得填補(bǔ)效果更加理想。除此之外,填補(bǔ)結(jié)束后還有考慮填補(bǔ)的合理性,即先填補(bǔ)后分析其合理性,如此循環(huán)反復(fù),方可取得合理、理想的填補(bǔ)效果。
參考文獻(xiàn):
[1] 鄧銀燕.缺失數(shù)據(jù)的填補(bǔ)方法研究及實(shí)證分析[D].西安:西北大學(xué),2010
[2] 宮悅.基于粗糙集的不完備信息系統(tǒng)數(shù)據(jù)挖掘方法研究[D].大連:大連海事大學(xué),2008
[3] 張昕.不完備信息系統(tǒng)下空缺數(shù)據(jù)處理方法的分析比較[J].湖南師范大學(xué)學(xué)報(bào),2008,21(4):444-447
篇7
句法分析任務(wù)是對(duì)文本進(jìn)行分析,將輸入句子從序列形式變?yōu)闃?shù)狀結(jié)構(gòu),從而刻畫(huà)句子內(nèi)部詞語(yǔ)之間的組合或修飾關(guān)系。這是自然語(yǔ)言處理領(lǐng)域的核心研究課題,已經(jīng)廣泛應(yīng)用到其它自然語(yǔ)言處理任務(wù)中,如機(jī)器翻譯、自動(dòng)問(wèn)答、信息抽取等。和其他句法分析形式如短語(yǔ)結(jié)構(gòu)句法分析相比,依存句法分析具有形式簡(jiǎn)單、易于標(biāo)注、便于學(xué)習(xí)、分析效率更高等優(yōu)點(diǎn)[1,2]。另外,依存句法描述詞和詞之間的關(guān)系,因此更適合于表達(dá)非連續(xù)的、遠(yuǎn)距離的結(jié)構(gòu),這對(duì)于一些語(yǔ)序相對(duì)自由的西方語(yǔ)言非常重要。依存語(yǔ)法歷史悠久,最早可能追溯到公元前幾世紀(jì)Panini提出的梵文語(yǔ)法。依存語(yǔ)法存在一個(gè)共同的基本假設(shè):句法結(jié)構(gòu)本質(zhì)上包含詞和詞之間的關(guān)系。這種關(guān)系稱為依存關(guān)系(Dependency Relations)。一個(gè)依存關(guān)系連接兩個(gè)詞,分別是核心詞(Head)和修飾詞(Dependent)。依存關(guān)系可以細(xì)分為不同的類型,表示兩個(gè)詞之間的句法關(guān)系(Dependency Relation Types)。目前,依存語(yǔ)法標(biāo)注體系已經(jīng)為自然語(yǔ)言處理領(lǐng)域的許多專家和學(xué)者所采用,并應(yīng)用于不同語(yǔ)言中,且對(duì)其不斷地發(fā)展和完善。研究者們提出并實(shí)現(xiàn)了多種不同的依存分析方法,達(dá)到了較好的準(zhǔn)確率。近年來(lái),依存句法分析多已廣泛用于統(tǒng)計(jì)機(jī)器翻譯[3]、自動(dòng)問(wèn)答[4]和信息抽取[5]等任務(wù),并取得了良好的效果。
依存句法分析任務(wù)的輸入是一個(gè)已完成分詞的自然語(yǔ)言句子。形式化地,輸入句子可以表示為:x=W0W2…Wi…Wn,其中,wi表示輸入句子的第i個(gè)詞;W0表示一個(gè)偽詞,指向整個(gè)句子的核心詞,也就是根節(jié)點(diǎn)(ROOT)。圖1表示輸入句子“剛滿19歲的歐文現(xiàn)在效力利物浦隊(duì)?!钡囊来鏄?shù)。
[JZ][HT5”H]圖1 依存樹(shù)示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse
最一般地,一個(gè)依存句法樹(shù)由多個(gè)依存弧構(gòu)成,表示為:d={(h,m,l):0≤h≤n,0
依存句法分析的目標(biāo)是給定輸入句子x,尋找分值(或概率)最大的依存樹(shù)d*,具體公式為:
因此,依存句法分析存在四個(gè)基本問(wèn)題:
(1)如何定義Score(x,d),即采用哪種方式將依存樹(shù)的分值分解為一些子結(jié)構(gòu)的分值。這是模型定義問(wèn)題;
(2)采用哪些特征來(lái)表示每一部分子結(jié)構(gòu),即特征表示問(wèn)題;
(3)如何獲取特征的權(quán)重,即模型訓(xùn)練算法問(wèn)題;
(4)給定模型參數(shù),即已知特征的權(quán)重,如何搜索到分值最大的依存樹(shù)。這是解碼問(wèn)題。
2依存句法分析的方法
數(shù)據(jù)驅(qū)動(dòng)的依存句法分析方法主要有兩種主流的方法:基于圖(Graph-based)的分析方法和基于轉(zhuǎn)移(Transition-based)的分析方法。這兩種方法從不同的角度解決這個(gè)問(wèn)題。CoNLL上的評(píng)測(cè)結(jié)果表明這兩種方法各有所長(zhǎng),并且存在一定的互補(bǔ)性[2,6]。下面對(duì)各類方法展開(kāi)細(xì)致分析。
2.1基于圖的依存句法分析方法
基于圖的依存分析模型將依存句法分析問(wèn)題看成從完全有向圖中尋找最大生成樹(shù)的問(wèn)題。一棵依存樹(shù)的分值由構(gòu)成依存樹(shù)的幾種子樹(shù)的分值累加得到。模型通過(guò)基于動(dòng)態(tài)規(guī)劃的解碼算法從所有可能的依存樹(shù)中搜索出分值最高的依存樹(shù)。相關(guān)的研究工作主要包括:
(1)模型定義。根據(jù)依存樹(shù)分值中包含的子樹(shù)的復(fù)雜度,基于圖的依存分析模型可以簡(jiǎn)單區(qū)分為一階、二階和三階模型。一階模型中,依存樹(shù)的分值由所有依存弧的分值累加得到,即依存弧之間相互獨(dú)立,互不影響[7]。二階模型中,依存樹(shù)的分值中融入了相鄰兄弟?。⊿ibling)和祖孫?。≒arent-child-grandchild)的分值[8,9]。三階模型中,進(jìn)一步增加了祖孫兄弟?。℅randparent-parent-sibling)等三條依存弧構(gòu)成的子樹(shù)信息[10]。
(2)特征表示。在上述模型定義的基礎(chǔ)上,研究人員也提出了相應(yīng)的一階、二階、三階子樹(shù)特征[7-10]。每種子樹(shù)特征考慮句子中的詞語(yǔ)和詞性信息、依存弧的方向和距離信息等。隨著高階子樹(shù)特征的使用,依存句法分析模型的準(zhǔn)確率也有較大幅度的提高。
(3)訓(xùn)練算法?;趫D的依存分析方法通常采用在線訓(xùn)練算法(Online Training),如平均感知器算法(Averaged Perceptron)[11]、被動(dòng)進(jìn)取算法(Passive-Aggressive)[12]和Margin Infused Relaxed算法(MIRA) [13]。在線學(xué)習(xí)算法以迭代的方式訓(xùn)練特征的權(quán)重。一次迭代中遍歷整個(gè)訓(xùn)練數(shù)據(jù)集合,每次根據(jù)一個(gè)訓(xùn)練實(shí)例的分析結(jié)果對(duì)當(dāng)前的權(quán)重向量進(jìn)行調(diào)整。
(4)解碼算法。一階模型對(duì)應(yīng)的解碼算法為Eisner算法[14]。Eisner算法的本質(zhì)是動(dòng)態(tài)規(guī)劃,不斷合并相鄰子串的分析結(jié)果,直到得到整個(gè)句子的結(jié)果,其時(shí)間復(fù)雜度為O(n3)。進(jìn)而,McDonald和Pereira (2006)對(duì)Eisner算法進(jìn)行擴(kuò)展,增加了表示相鄰兄弟節(jié)點(diǎn)的數(shù)據(jù)類型,時(shí)間復(fù)雜度仍為O(n3)。Carreras (2007)同樣對(duì)Eisner算法進(jìn)行擴(kuò)展,得到面向二階模型的基于動(dòng)態(tài)規(guī)劃的解碼算法,時(shí)間復(fù)雜度為O(n4)。Koo和Collins (2010)提出了面向三階模型的解碼算法,時(shí)間復(fù)雜度為O(n4)。一些研究者提出采用基于柱搜索的解碼算法,允許模型方便地融入更高階的解碼算法,同時(shí)保證較低的時(shí)間復(fù)雜度[15,16]。
2.2基于轉(zhuǎn)移的依存句法分析方法
基于轉(zhuǎn)移的依存分析模型將依存樹(shù)的搜索過(guò)程建模為一個(gè)動(dòng)作序列,將依存分析問(wèn)題轉(zhuǎn)化為尋找最優(yōu)動(dòng)作序列的問(wèn)題。模型通過(guò)貪心搜索或者柱搜索的方式找到近似最優(yōu)的依存樹(shù)。其優(yōu)點(diǎn)在于可以充分利用已形成的子樹(shù)信息,從而形成豐富的特征,以指導(dǎo)模型決策下一個(gè)動(dòng)作。相關(guān)的研究工作主要包括:
(1)模型定義?;谵D(zhuǎn)移的依存句法分析方法提出早期,研究者們使用局部分類器(如最大熵分類器)決定下一個(gè)動(dòng)作,選擇概率最大的動(dòng)作[17,18]。這樣,一個(gè)依存樹(shù)的概率由其對(duì)應(yīng)的動(dòng)作序列中每一個(gè)動(dòng)作的概率累乘得到。近年來(lái),研究者們采用線性全局模型來(lái)決定下一個(gè)動(dòng)作,一個(gè)依存樹(shù)的分值為對(duì)應(yīng)動(dòng)作序列中每一個(gè)動(dòng)作的分值的累加[19-21]。
(2)特征表示?;谵D(zhuǎn)移的依存句法分析方法的優(yōu)勢(shì)在于可以充分使用已構(gòu)成的子樹(shù)信息。Zhang和Nivre (2011)在前人工作的基礎(chǔ)上,提出了豐富的特征集合,如三階子樹(shù)特征,詞的配價(jià)信息等[21]。
(3)訓(xùn)練算法。早期,研究者們?cè)谟?xùn)練語(yǔ)料上訓(xùn)練出一個(gè)局部分類器,在解碼過(guò)程中重復(fù)使用,決定下一個(gè)動(dòng)作。通常采用的分類器有基于記憶的分類器、支持向量機(jī)等。近年研究發(fā)現(xiàn)采用全局線性模型可以提高句法分析的準(zhǔn)確率,通常采用平均感知器在線訓(xùn)練算法。
(4)解碼算法。其任務(wù)是找到一個(gè)概率或分值最大的動(dòng)作序列。早期采用貪心解碼算法,即每一步都根據(jù)當(dāng)前狀態(tài),選擇并執(zhí)行概率最大的動(dòng)作,進(jìn)入到下一個(gè)狀態(tài)。如此反復(fù)直至達(dá)到接收狀態(tài),形成一棵合法的依存樹(shù)[17,18]。進(jìn)而,研究者們提出使用柱搜索的解碼方式擴(kuò)大搜索空間,即同時(shí)保留多個(gè)分值最高的狀態(tài),直到搜索結(jié)束時(shí)選擇最優(yōu)的動(dòng)作路徑[22,19]。Huang和Sagae (2010)提出在柱搜索中加入動(dòng)態(tài)規(guī)劃,通過(guò)合并等價(jià)狀態(tài)進(jìn)一步擴(kuò)大搜索空間[20]。隨著搜索空間的增大,依存句法分析的準(zhǔn)確率有顯著提高。
2.3模型融合的方法
基于圖的方法和基于轉(zhuǎn)移的方法從不同的角度解決問(wèn)題,各有優(yōu)勢(shì)?;趫D的模型進(jìn)行全局搜索但只能利用有限的子樹(shù)特征,而基于轉(zhuǎn)移的模型搜索空間有限但可以充分利用已構(gòu)成的子樹(shù)信息構(gòu)成豐富的特征。McDonald和Nivre (2011)通過(guò)詳細(xì)比較發(fā)現(xiàn),這兩種方法存在不同的錯(cuò)誤分布。因此,研究者們使用不同的方法融合兩種模型的優(yōu)勢(shì),常見(jiàn)的方法有:stacked learning [2,23];對(duì)多個(gè)模型的結(jié)果加權(quán)后重新解碼[24,25];從訓(xùn)練語(yǔ)料中多次抽樣訓(xùn)練多個(gè)模型(Bagging)[26,27]。
2.4詞性標(biāo)注和依存句法分析聯(lián)合模型
依存句法分析模型中,詞性是非常重要且有效的特征。如果只使用詞語(yǔ)特征,會(huì)導(dǎo)致嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。自然語(yǔ)言處理中,詞性標(biāo)注和依存句法分析這兩個(gè)問(wèn)題通常被當(dāng)成兩個(gè)獨(dú)立的任務(wù),以級(jí)聯(lián)的方式實(shí)現(xiàn)。即對(duì)于一個(gè)輸入句子,假定其分詞結(jié)果已知,先對(duì)句子進(jìn)行詞性標(biāo)注,然后在詞性標(biāo)注結(jié)果的基礎(chǔ)上進(jìn)行依存句法分析。這種級(jí)聯(lián)的方法會(huì)導(dǎo)致錯(cuò)誤蔓延。也就是說(shuō),詞性標(biāo)注的錯(cuò)誤會(huì)嚴(yán)重影響依存分析的準(zhǔn)確率。由于漢語(yǔ)缺乏詞形變化信息(如英語(yǔ)中的詞后綴變化如-ing,-ed,-es,-ly等),因此漢語(yǔ)的詞性標(biāo)注比其他語(yǔ)言如英語(yǔ)更具挑戰(zhàn)性。近年來(lái),研究者們通過(guò)建立詞性標(biāo)注和依存句法分析聯(lián)合模型,在同一個(gè)模型中解決這兩個(gè)緊密相關(guān)的任務(wù),允許詞性信息和句法結(jié)構(gòu)互相影響和幫助,取得了不錯(cuò)的效果。一方面,聯(lián)合模型中,句法信息可以用來(lái)指導(dǎo)詞性標(biāo)注,從而幫助解決一部分需要句法結(jié)構(gòu)才能夠消解的詞性歧義。另一方面,更準(zhǔn)確的詞性標(biāo)注,也可以反過(guò)來(lái)幫助依存分析。Li等通過(guò)擴(kuò)展基于圖的依存句法分析模型,首次提出漢語(yǔ)詞性標(biāo)注和依存句法分析聯(lián)合模型[28],并且提出了適用于聯(lián)合模型的訓(xùn)練算法[29],顯著提高了詞性標(biāo)注和依存句法分析的準(zhǔn)確率。進(jìn)而,一些研究者們提出基于轉(zhuǎn)移的詞性標(biāo)注和依存句法分析聯(lián)合模型[30,31]。Ma等(2012)嘗試了基于Easy-first的漢語(yǔ)詞性標(biāo)注和依存句法分析聯(lián)合模型[32]。
2.5基于多樹(shù)庫(kù)融合的方法
對(duì)于統(tǒng)計(jì)的數(shù)據(jù)驅(qū)動(dòng)的分析模型而言,標(biāo)注數(shù)據(jù)的規(guī)模很大程度上影響著分析結(jié)果的準(zhǔn)確率。依存句法分析是一種結(jié)構(gòu)化分類問(wèn)題,比二元分類和序列標(biāo)注問(wèn)題更具挑戰(zhàn)性,因此依存句法分析更容易受到數(shù)據(jù)稀疏問(wèn)題的影響,樹(shù)庫(kù)規(guī)模對(duì)依存句法分析的準(zhǔn)確率影響很大。然而,標(biāo)注樹(shù)庫(kù)是一件艱巨的任務(wù),通常需要耗費(fèi)很大的人力和物力。目前的研究結(jié)果表明在一個(gè)樹(shù)庫(kù)上訓(xùn)練出的句法分析的模型似乎很難進(jìn)一步提高句法分析的準(zhǔn)確率。然而,漢語(yǔ)存在多個(gè)樹(shù)庫(kù)。這些樹(shù)庫(kù)由不同的組織或機(jī)構(gòu)標(biāo)注,遵循不同的標(biāo)注規(guī)范,面向不同的應(yīng)用。盡管各個(gè)樹(shù)庫(kù)遵循不同的標(biāo)注規(guī)范,但卻都是根據(jù)人們對(duì)漢語(yǔ)語(yǔ)法的理解而標(biāo)注,因此包含很多共性的標(biāo)注結(jié)構(gòu)。同時(shí),不一致的標(biāo)注結(jié)果應(yīng)該也是有規(guī)律可循的。所以,一些研究者們嘗試同時(shí)利用多個(gè)樹(shù)庫(kù),幫助句法分析的準(zhǔn)確率。李正華等(2008)曾嘗試統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,將短語(yǔ)結(jié)構(gòu)的源樹(shù)庫(kù)CTB轉(zhuǎn)化為符合CDT標(biāo)注規(guī)范的依存結(jié)構(gòu),然后將轉(zhuǎn)化后的樹(shù)庫(kù)和CDT合并,提高訓(xùn)練數(shù)據(jù)的規(guī)模,以提高依存句法分析準(zhǔn)確率[33]。Niu等(2009)提出一種基于統(tǒng)計(jì)的樹(shù)庫(kù)轉(zhuǎn)化方法,將依存結(jié)構(gòu)的CDT樹(shù)庫(kù)轉(zhuǎn)化為滿足CTB標(biāo)注規(guī)范的短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù),進(jìn)而使用語(yǔ)料加權(quán)的方式增大訓(xùn)練樹(shù)庫(kù)的規(guī)模,提高了短語(yǔ)結(jié)構(gòu)句法分析的性能[34]。Li等(2012)提出一種基于準(zhǔn)同步文法的多樹(shù)庫(kù)融合方法,不是直接將轉(zhuǎn)化后的樹(shù)庫(kù)作為額外的訓(xùn)練數(shù)據(jù),而是使用準(zhǔn)同步文法特征增強(qiáng)依存句法分析模型,從而柔和地學(xué)習(xí)標(biāo)注規(guī)范中規(guī)律性的不一致,提高依存句法分析的準(zhǔn)確率[35]。
3依存句法分析面臨的挑戰(zhàn)
自從2006年開(kāi)始,CoNLL國(guó)際評(píng)測(cè)一直關(guān)注依存句法分析,不但提供了多語(yǔ)言、高質(zhì)量的樹(shù)庫(kù),并通過(guò)對(duì)各種方法的比較分析,讓研究者們對(duì)依存分析問(wèn)題的理解更加清晰,極大地促進(jìn)了依存句法分析的發(fā)展。依存分析已經(jīng)成為自然語(yǔ)言處理的一個(gè)熱點(diǎn)問(wèn)題,方法也越來(lái)越成熟,并且在許多領(lǐng)域得到了應(yīng)用。然而,目前依存句法分析還存在很多挑戰(zhàn),這些挑戰(zhàn)也可能是未來(lái)依存分析發(fā)展的趨勢(shì)。具體分析如下:
(1)提高依存分析準(zhǔn)確率。目前主流的兩種依存分析方法都存在一定的缺陷?;趫D的方法很難融入全局特征。而基于轉(zhuǎn)移的方法雖然原理上可以利用豐富的特征,但是實(shí)際使用的特征還是屬于局部特征,另外也還存在錯(cuò)誤級(jí)聯(lián)的問(wèn)題(柱搜索只能緩解這個(gè)問(wèn)題)。融合不同依存分析模型的方法可以提高分析性能,但是提高幅度比較有限。研究可知,只有從新的角度理解這個(gè)問(wèn)題本身,提出新的建模方法,或者應(yīng)用新的機(jī)器學(xué)習(xí)方法,才有望大幅度提高依存分析性能。一些學(xué)者提出的利用未標(biāo)注數(shù)據(jù)幫助依存分析模型是一個(gè)很好的思路,值得深入研究。
(2)提高依存分析效率?;趫D的依存分析方法融入高階特征可以提高性能,但是效率很低,無(wú)法適應(yīng)實(shí)際應(yīng)用的需求。在不明顯降低分析性能的前提下,如何提高依存分析效率也是一個(gè)很有實(shí)際價(jià)值的問(wèn)題。
(3)領(lǐng)域移植問(wèn)題。研究發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)領(lǐng)域與測(cè)試數(shù)據(jù)領(lǐng)域不相同時(shí),即使差距不大,也會(huì)導(dǎo)致句法分析性能下降很大。以英語(yǔ)為例,從華爾街日?qǐng)?bào)樹(shù)庫(kù)移植到Brown語(yǔ)料時(shí),句法分析性能下降近8%。目前依存樹(shù)庫(kù)所覆蓋的領(lǐng)域、規(guī)模都很有限,而標(biāo)注樹(shù)庫(kù)的代價(jià)很大。因此解決領(lǐng)域移植問(wèn)題,對(duì)于依存分析的實(shí)際應(yīng)用至關(guān)重要。
(4)語(yǔ)言相關(guān)的依存分析。目前最主流的兩種依存分析方法都是語(yǔ)言無(wú)關(guān)的,純粹依靠機(jī)器學(xué)習(xí)方法從數(shù)據(jù)中學(xué)習(xí),加入人類知識(shí)只能限于特征選擇。然而,每種語(yǔ)言都有其特點(diǎn)。因此語(yǔ)言相關(guān)的依存分析研究,如針對(duì)每種語(yǔ)言的特點(diǎn)設(shè)計(jì)更有效的模型和算法,利用一些語(yǔ)言特有的資源等,也是很有必要的。近年來(lái),國(guó)內(nèi)學(xué)者已經(jīng)在漢語(yǔ)依存句法分析上做出了很多成績(jī),然而如何利用漢語(yǔ)的特點(diǎn),提高漢語(yǔ)句法分析的準(zhǔn)確率和效率,仍然是一個(gè)開(kāi)放的問(wèn)題。
篇8
UK
Larry Kerschberg George Mason University
USA
Peter J.H.King University of London UK
Alexandra Poulovassilis University of
London UK (Eds.)
The Functional Approach To
Data Management
Modeling, Analyzing And Integrating
Heterogeneous Data
2004,483pp.
Hardcover EUR:69.95
ISBN 9783540003755
數(shù)據(jù)管理的功能方法
建模、分析和綜合異質(zhì)數(shù)據(jù)
彼得M.D格林萊瑞.克斯伯格,
彼得J.H 金, 亞歷山大.波洛瓦斯里斯 著
功能數(shù)據(jù)模型和功能編程語(yǔ)言首次引入到計(jì)算領(lǐng)域已有20多年的歷史了。隨著數(shù)據(jù)庫(kù)技術(shù)在生物信息、國(guó)家安全、犯罪調(diào)查和高級(jí)工程領(lǐng)域的卓越應(yīng)用,數(shù)據(jù)庫(kù)技術(shù)的重要性日漸凸現(xiàn),本書(shū)所提出的更成熟的方法就越顯得重要。
本書(shū)分為五部分。第一部分介紹了如何將數(shù)據(jù)管理與功能語(yǔ)言融合在一起的方法。功能語(yǔ)言是最新發(fā)展起來(lái)的運(yùn)用于計(jì)算和規(guī)范用途的工具,在本書(shū)中主要是數(shù)據(jù)模型和計(jì)算的功能方法,能夠帶來(lái)語(yǔ)義網(wǎng)絡(luò)的新時(shí)代和網(wǎng)絡(luò)世界的資源分流。這比相關(guān)模型更具靈活性,而且很適合半結(jié)構(gòu)數(shù)據(jù)。
第二部分是介紹異質(zhì)數(shù)據(jù)庫(kù)和生物信息學(xué)的一體化數(shù)據(jù)。在這部分中介紹了有關(guān)異質(zhì)數(shù)據(jù)庫(kù)和生物信息學(xué)的一體化數(shù)據(jù)新近的研究成果。至關(guān)重要的觀點(diǎn)就是功能性的提取數(shù)據(jù)創(chuàng)造了獨(dú)特的觀察數(shù)據(jù)的方法,不論這些數(shù)據(jù)是如何被存儲(chǔ)的,這對(duì)于程序員來(lái)講或許有些陌生,主要是因?yàn)樗麄兞?xí)慣了操作數(shù)據(jù)內(nèi)部的特定排列或者憑借記憶中記錄的結(jié)構(gòu)。不過(guò)當(dāng)來(lái)自不同信息源的資料一體化之后,隱藏存儲(chǔ)細(xì)節(jié)并且在一個(gè)更高的概念層次上作業(yè)就變得重要了。
第三部分是理解力表。從計(jì)算的角度講,功能方法允許我們調(diào)定功能然后重新書(shū)寫(xiě)并利用有參考性的圖片轉(zhuǎn)化功能表達(dá)。在這一部分中,將運(yùn)用到設(shè)計(jì)、常規(guī)分析和功能數(shù)據(jù)語(yǔ)言最優(yōu)化,包括了重要的精煉理解,并以數(shù)學(xué)結(jié)構(gòu)為基礎(chǔ),這些原理的應(yīng)用貫穿了全書(shū)。
第四部分介紹關(guān)于管理半結(jié)構(gòu)化的數(shù)據(jù)、信息和知識(shí)的功能方法。本部分各章均采用XML語(yǔ)言來(lái)描述半結(jié)構(gòu)化數(shù)據(jù),或者使用以XML語(yǔ)言為基礎(chǔ)的開(kāi)放標(biāo)準(zhǔn)的描述語(yǔ)言。XML語(yǔ)言能夠?qū)?shù)據(jù)描述語(yǔ)言和數(shù)據(jù)本身放在一起,使描述數(shù)據(jù)的元數(shù)據(jù)成為數(shù)據(jù)自描述的一種形式。本章還強(qiáng)調(diào)了不同來(lái)源的信息源數(shù)據(jù)整合和互操作。當(dāng)來(lái)自不同信息源的異質(zhì)數(shù)據(jù)放到一起時(shí),需要通過(guò)數(shù)據(jù)整合來(lái)構(gòu)建一個(gè)分布式資源的概念模型。這部分內(nèi)容向人們展示了功能方法在建模、執(zhí)行、管理和整合這些系統(tǒng)中的效用。
第五部分為指南。它能夠使讀者將全書(shū)的各部分統(tǒng)觀貫穿起來(lái),并加深對(duì)其他部分的理解和應(yīng)用。
本書(shū)適合于有志鉆研本項(xiàng)目的讀者研讀、學(xué)習(xí)。對(duì)于正在這一領(lǐng)域工作的人來(lái)說(shuō)本書(shū)不啻為有價(jià)值的參考資料。
劉麗,副教授
(中國(guó)農(nóng)業(yè)大學(xué)管理工程學(xué)院)
篇9
【關(guān)鍵詞】高中數(shù)學(xué);舉例方法;抽象
引 言
數(shù)學(xué)課程是我們每一位從學(xué)習(xí)生涯走過(guò)來(lái)的人必須學(xué)習(xí)的一門(mén)基礎(chǔ)課程,數(shù)學(xué)作為一門(mén)基礎(chǔ)課程,又是一門(mén)工具課程,它的學(xué)習(xí)效果不僅關(guān)系著數(shù)學(xué)這門(mén)課程的學(xué)習(xí)成績(jī),而且與其他課程的學(xué)習(xí)也息息相關(guān),學(xué)好數(shù)學(xué)對(duì)于學(xué)生的整個(gè)學(xué)習(xí)生涯以及日后的工作和生活都至關(guān)重要.
一、高中數(shù)學(xué)的特點(diǎn)
小學(xué)數(shù)學(xué)、初中數(shù)學(xué)、高中數(shù)學(xué)、高等數(shù)學(xué)是我們大多數(shù)人都要學(xué)習(xí)的四個(gè)階段的數(shù)學(xué)課程.對(duì)于這四個(gè)階段課程的學(xué)習(xí),每個(gè)階段都有其各自的特點(diǎn),就整體而言,從小學(xué)數(shù)學(xué)到初中數(shù)學(xué)再到高中數(shù)學(xué),它們的難度在一步步遞增,知識(shí)從直觀變得越來(lái)越抽象.下面著重介紹高中數(shù)學(xué)的特點(diǎn).
1.高中數(shù)學(xué)具有明顯的抽象性
相對(duì)于小學(xué)數(shù)學(xué)和初中數(shù)學(xué)來(lái)講,高中數(shù)學(xué)具有明顯的抽象性.我們?cè)趯W(xué)習(xí)小學(xué)數(shù)學(xué)或者初中數(shù)學(xué)的時(shí)候,老師所講的知識(shí)都是可以用圖示直觀地展現(xiàn)出來(lái)的.例如,我們?cè)谛W(xué)數(shù)學(xué)中學(xué)習(xí)數(shù)字的時(shí)候,我們可以直觀地看見(jiàn)每個(gè)阿拉伯?dāng)?shù)字的寫(xiě)法,不需要我們進(jìn)行想象,我們只需要努力將它們的樣子和次序記住,再掌握一定的數(shù)字技巧即可.在初中數(shù)學(xué)階段中,數(shù)學(xué)被分為代數(shù)和幾何兩門(mén)課程學(xué)習(xí),在學(xué)習(xí)幾何課程的時(shí)候,我們會(huì)感覺(jué)非常的直觀.例如在學(xué)習(xí)平行線的時(shí)候,我們可以直觀地看見(jiàn)兩條直線的相互位置關(guān)系,而不需要我們?nèi)魏蔚南胂?,可以說(shuō)抽象性幾乎為零.但是高中數(shù)學(xué)卻不是這樣的,相對(duì)于小初中數(shù)學(xué)來(lái)講,抽象性是高中數(shù)學(xué)最明顯的一個(gè)特征,在高中數(shù)學(xué)知識(shí)的學(xué)習(xí)過(guò)程中,很多知識(shí)我們是不能通過(guò)眼睛的觀察直接得出的,而是必須在腦海里進(jìn)行一定的構(gòu)思和想象,利用自己的空間想象能力來(lái)學(xué)習(xí)高中數(shù)學(xué).例如,在高中數(shù)學(xué)中,我們學(xué)習(xí)立體幾何部分的時(shí)候,以正方體為例,立體幾何的六個(gè)面不可能同時(shí)在二維的黑板上被展現(xiàn)出來(lái),這時(shí)我們必須運(yùn)用空間想象能力,將正方體的六個(gè)面在腦海中想象出來(lái),作為輔助幫助學(xué)生進(jìn)行高中數(shù)學(xué)知識(shí)的理解.
2.高中數(shù)學(xué)的難度較大
高中數(shù)學(xué)的學(xué)習(xí)最終要接受高考的檢閱,高考作為我國(guó)的一個(gè)重要的選拔性考試,考試試題在難度上比較大,所以相應(yīng)的高中數(shù)學(xué)知識(shí)在日常的學(xué)習(xí)過(guò)程中理解起來(lái)難度也比較大.在我們的日常生活或者學(xué)習(xí)的過(guò)程中,我們經(jīng)常會(huì)遇到一種人,他們?cè)谛W(xué)和初中的學(xué)習(xí)過(guò)程中,數(shù)學(xué)成績(jī)一直全班名列前茅,但是到了高中數(shù)學(xué)成績(jī)卻一落千丈,甚至墜入無(wú)底深淵,從此跟不上數(shù)學(xué)的教學(xué)進(jìn)度,從一定程度上講這種現(xiàn)象就是由高中數(shù)學(xué)的難度大而導(dǎo)致的.在小學(xué)和初中的數(shù)學(xué)過(guò)程中,知識(shí)相對(duì)來(lái)說(shuō)難度較低,也不需要學(xué)生過(guò)多地進(jìn)行想象理解,但是到了高中以后,任何一道題目的解答,都需要進(jìn)行想象,難度也比較大,在高中數(shù)學(xué)的學(xué)習(xí)過(guò)程中,僅僅依靠努力學(xué)習(xí)是不夠的,還必須掌握一定的數(shù)學(xué)學(xué)習(xí)方法和解題技巧,才能將高中數(shù)學(xué)課程學(xué)好.
3.高中數(shù)學(xué)知識(shí)與知識(shí)之間的聯(lián)系更加緊密
其實(shí)對(duì)于數(shù)學(xué)這門(mén)課程來(lái)講,無(wú)論是小學(xué)數(shù)學(xué)還是高中數(shù)學(xué)又或者是初中數(shù)學(xué),知識(shí)與知識(shí)之間都具有一定的聯(lián)系,但是這種知識(shí)點(diǎn)之間的聯(lián)系在高中數(shù)學(xué)中體現(xiàn)得更加明顯.在小學(xué)數(shù)學(xué)或者初中數(shù)學(xué)中,這種知識(shí)與知識(shí)之間的聯(lián)系僅僅體現(xiàn)在日常的新課程學(xué)習(xí)過(guò)程中,而在考試試卷中出現(xiàn)得非常少,它們只是將上節(jié)課學(xué)習(xí)的舊知識(shí)作為這節(jié)課學(xué)習(xí)的新知識(shí)的基礎(chǔ)而已;在高中數(shù)學(xué)中,知識(shí)與知識(shí)之間的聯(lián)系不僅僅是體現(xiàn)在日常的數(shù)學(xué)知識(shí)學(xué)習(xí)過(guò)程中,而且在高中數(shù)學(xué)考試中體現(xiàn)得也非常多,在高中數(shù)學(xué)考試的解題過(guò)程中,我們必須由已知的知識(shí)信息通過(guò)轉(zhuǎn)化推理推算出未知的信息,而且很多的高中數(shù)學(xué)題目?jī)H僅依靠一次推理是做不出來(lái)的,而必須經(jīng)過(guò)兩次或者三次,在推理的過(guò)程中,只要一個(gè)知識(shí)點(diǎn)存在漏洞,整道題目將會(huì)沒(méi)有答案.
4.高中數(shù)學(xué)相對(duì)于小初中數(shù)學(xué)來(lái)講具有嚴(yán)密性
數(shù)學(xué)這門(mén)課程本身就是一門(mén)比較嚴(yán)密的課程,邏輯思維和正確的推理是在數(shù)學(xué)課程的學(xué)習(xí)過(guò)程中經(jīng)常需要用到的工具.但是高中數(shù)學(xué)相對(duì)于小初中數(shù)學(xué)來(lái)講更加嚴(yán)密,在小學(xué)數(shù)學(xué)或者初中數(shù)學(xué)的學(xué)習(xí)過(guò)程中,由于我們的數(shù)學(xué)知識(shí)或者解題技巧相對(duì)比較欠缺,如果按照正常的數(shù)學(xué)思維去教學(xué),學(xué)生很難理解,甚至還會(huì)使學(xué)生混淆不清,鑒于此,為了更好地對(duì)學(xué)生進(jìn)行教學(xué),在小學(xué)數(shù)學(xué)和初中數(shù)學(xué)的教學(xué)過(guò)程中,很多推理是不嚴(yán)密的,而這種不嚴(yán)密性會(huì)隨著我們數(shù)學(xué)學(xué)習(xí)階段的不斷轉(zhuǎn)變一一被化解.高中數(shù)學(xué)的學(xué)習(xí)相對(duì)來(lái)講就要嚴(yán)密得多,因?yàn)橛辛诵W(xué)數(shù)學(xué)和初中數(shù)學(xué)的知識(shí)作為學(xué)習(xí)的基礎(chǔ),再加上隨著學(xué)生的年齡增長(zhǎng)而增長(zhǎng)起來(lái)的理解能力,使得高中生能夠?qū)?yán)密的數(shù)學(xué)推理進(jìn)行深入細(xì)致的理解.
二、高中數(shù)學(xué)舉例教學(xué)方法的策略
1.重視對(duì)高中數(shù)學(xué)抽象知識(shí)的舉例講解
高中知識(shí)相對(duì)于小學(xué)數(shù)學(xué)和初中數(shù)學(xué)而言更加抽象,這一點(diǎn)大家都不否認(rèn).但是并不是所有的高中數(shù)學(xué)知識(shí)點(diǎn)都是抽象性比較強(qiáng),也有的知識(shí)點(diǎn)是直觀地可以讓學(xué)生看見(jiàn)或者理解的,所以,在高中數(shù)學(xué)的教學(xué)過(guò)程中必須有側(cè)重點(diǎn)地進(jìn)行教學(xué).對(duì)于那些抽象性比較強(qiáng)的知識(shí)點(diǎn)要進(jìn)行重點(diǎn)講解,而對(duì)那些非常直觀的知識(shí)點(diǎn)老師只需在課堂上一帶而過(guò)即可.而對(duì)于抽象性問(wèn)題的教學(xué),利用舉例的方法是最合適的,舉例的方法可以將本來(lái)抽象的方法具體化,通過(guò)舉例的方法讓學(xué)生對(duì)抽象的知識(shí)產(chǎn)生一目了然的感覺(jué).例如在講解立體幾何知識(shí)點(diǎn)的時(shí)候,以長(zhǎng)方體為例,在二維的黑板上我們不能把長(zhǎng)方體的六個(gè)面全部直觀地展現(xiàn)出來(lái),我們可以在現(xiàn)實(shí)生活中找一個(gè)長(zhǎng)方體實(shí)物作為課堂道具來(lái)輔助老師進(jìn)行長(zhǎng)方體的教學(xué),也可以就地取材,例如利用長(zhǎng)方體的黑板擦作為道具等等.利用舉例的教學(xué)方法可以將抽象的問(wèn)題具體化,讓學(xué)生更好地掌握高中數(shù)學(xué)中的抽象知識(shí)和內(nèi)容.
2.加強(qiáng)高中數(shù)學(xué)知識(shí)點(diǎn)與知識(shí)點(diǎn)之間聯(lián)系的舉例教學(xué)
高中數(shù)學(xué)中知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的聯(lián)系比較緊密,而有的知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的聯(lián)系具有非常微妙的關(guān)系,利用單純的數(shù)學(xué)邏輯進(jìn)行推理很難讓大部分學(xué)生深刻理解,針對(duì)這種情況,我們可以將理論聯(lián)系實(shí)際,利用生活中的例子來(lái)比喻這兩個(gè)知識(shí)點(diǎn)之間的相互關(guān)系,高中生以生活中的事物為載體來(lái)正確理解這兩個(gè)知識(shí)點(diǎn)之間的關(guān)系,進(jìn)而在以后的知識(shí)學(xué)習(xí)或者考題解答的過(guò)程中靈活地在兩個(gè)知識(shí)點(diǎn)之間進(jìn)行轉(zhuǎn)換.
3.高中數(shù)學(xué)舉例教學(xué)要具有一定的嚴(yán)密性
數(shù)學(xué)本身就是一門(mén)嚴(yán)密性非常強(qiáng)的學(xué)科,高中數(shù)學(xué)相對(duì)于小學(xué)與初中數(shù)學(xué)來(lái)講嚴(yán)密性更強(qiáng),在高中數(shù)學(xué)的日常教學(xué)過(guò)程中,無(wú)論是對(duì)知識(shí)點(diǎn)的教學(xué)還是為了讓學(xué)生最大限度地掌握知識(shí)而采取的教學(xué)方法都有具有一定的嚴(yán)密性.在高中數(shù)學(xué)教學(xué)過(guò)程中經(jīng)常用到的舉例教學(xué)方法也是如此,在應(yīng)用舉例的辦法幫助高中生理解知識(shí)點(diǎn)的時(shí)候,所舉的例子必須做到恰到好處,首先不能是不健康的例子或者是不適合高中生了解的例子,而且所舉的例子還必須與所要表達(dá)的知識(shí)點(diǎn)的意思高度相似,避免學(xué)生在以老師所舉的例子為載體進(jìn)行知識(shí)點(diǎn)的學(xué)習(xí)時(shí),理解出現(xiàn)偏差,不能幫助學(xué)生正確地理解知識(shí),反而把學(xué)生的思維向相反的方向帶.
4.高中數(shù)學(xué)舉例教學(xué)要堅(jiān)持簡(jiǎn)潔性原則
在高中數(shù)學(xué)的教學(xué)過(guò)程中,舉例子是經(jīng)常用到的教學(xué)方法,但是我們知道高中數(shù)學(xué)的知識(shí)點(diǎn)大都比較繁瑣復(fù)雜,特別是在兩個(gè)知識(shí)點(diǎn)之間進(jìn)行相互聯(lián)系的時(shí)候.雖然高中數(shù)學(xué)的知識(shí)點(diǎn)相對(duì)來(lái)說(shuō)比較復(fù)雜,知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的聯(lián)系也比較繁瑣,但是,我們?cè)诶门e例子的方法進(jìn)行知識(shí)點(diǎn)的講解時(shí),必須堅(jiān)持簡(jiǎn)潔性原則,盡量利用最簡(jiǎn)單易懂的例子將問(wèn)題解釋清楚,而且所舉的例子要盡量地貼合實(shí)際,便于高中生進(jìn)行深入理解,這也是我們所說(shuō)的深入淺出.
三、結(jié) 語(yǔ)
高中數(shù)學(xué)的抽象性比較強(qiáng),而且相對(duì)而言難度較高,知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的關(guān)系錯(cuò)綜復(fù)雜,而且具有很好的嚴(yán)密性等等,這些特點(diǎn)就導(dǎo)致學(xué)生在學(xué)習(xí)數(shù)學(xué)課程的過(guò)程中難以對(duì)知識(shí)點(diǎn)進(jìn)行徹底的理解和掌握.實(shí)踐證明,采用舉例教學(xué)的方法可以很好地解決高中數(shù)學(xué)所面臨的一系列難題,通過(guò)舉例教學(xué)讓抽象的問(wèn)題具體化、復(fù)雜的問(wèn)題簡(jiǎn)單化,有效地提高了高中數(shù)學(xué)的學(xué)習(xí)效率,為以后學(xué)習(xí)更加抽象、復(fù)雜的問(wèn)題奠定堅(jiān)實(shí)的基礎(chǔ).
【參考文獻(xiàn)】
篇10
關(guān)鍵詞 科技信用 關(guān)聯(lián)分析 數(shù)據(jù)庫(kù)
中圖分類號(hào):F272.5 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/ki.kjdkx.2017.01.085
0 引言
科技研發(fā)活動(dòng)為社會(huì)提供高科技含量的產(chǎn)品和服務(wù)、推動(dòng)企業(yè)的轉(zhuǎn)型升級(jí),但科技活動(dòng)高收益背后是其面臨的高風(fēng)險(xiǎn),導(dǎo)致高技術(shù)企業(yè)社會(huì)認(rèn)可的障礙。對(duì)企業(yè)進(jìn)行科技信用評(píng)價(jià),有助于提高企業(yè)的社會(huì)認(rèn)可度、弱化科技活動(dòng)的風(fēng)險(xiǎn),提升自主創(chuàng)新的效率和效能。
企業(yè)的信用評(píng)價(jià)是指根據(jù)一定評(píng)價(jià)指標(biāo)體系和評(píng)價(jià)方法,對(duì)被評(píng)估對(duì)象履責(zé)能力和可信程度進(jìn)行評(píng)價(jià),并以一定方式標(biāo)示其信用等級(jí)的行為。企業(yè)科技信用評(píng)價(jià)一般由政府部門(mén)或獨(dú)立評(píng)級(jí)機(jī)構(gòu)開(kāi)展,對(duì)參與政府科技項(xiàng)目、科技成果產(chǎn)業(yè)化等事項(xiàng)的企業(yè)執(zhí)行相關(guān)法律法規(guī)及政策、遵守公認(rèn)行為準(zhǔn)則、履行相關(guān)合約的能力和意愿進(jìn)行綜合評(píng)價(jià)。
1 科技信用評(píng)價(jià)研究相關(guān)工作
國(guó)內(nèi)外學(xué)者對(duì)企業(yè)科技信用評(píng)價(jià)的機(jī)制、路徑、評(píng)價(jià)監(jiān)管體系、模型算法和數(shù)據(jù)獲取開(kāi)展了大量的研究。
國(guó)際上評(píng)級(jí)機(jī)構(gòu)標(biāo)準(zhǔn)普爾、惠譽(yù)、穆迪在歐債危機(jī)的演化中發(fā)揮了重要的作用。但國(guó)內(nèi)中小企業(yè)信用評(píng)級(jí)面臨金融體系不完善、缺乏統(tǒng)一管理、缺少權(quán)威性、缺乏科學(xué)的評(píng)級(jí)體系、市場(chǎng)需求少、權(quán)威性不高等問(wèn)題。萬(wàn)超等分析了中小企業(yè)信用評(píng)級(jí)的現(xiàn)狀,就評(píng)級(jí)機(jī)構(gòu)素質(zhì)、評(píng)級(jí)監(jiān)管體系、評(píng)級(jí)業(yè)務(wù)提升等方面提出建議。
企業(yè)信息數(shù)字化和電子商務(wù)帶來(lái)了海量數(shù)據(jù)積累和數(shù)據(jù)挖掘技術(shù)的突飛猛進(jìn),大數(shù)據(jù)分析技術(shù)突破技術(shù)壁壘和信息獲取隔閡,提高了科技活動(dòng)主體間的信息透明度,成為科技信用評(píng)價(jià)的主戰(zhàn)場(chǎng)。在評(píng)價(jià)方法上,李杰群以AHP分析法為基礎(chǔ),提出基于回歸分析的聚類算法用于信用評(píng)價(jià),舒歆研究了評(píng)價(jià)指標(biāo)和評(píng)價(jià)體系的構(gòu)建,霍海濤基于專家咨詢法和文獻(xiàn)學(xué)習(xí)法,選取合適指標(biāo)構(gòu)建了科技型企業(yè)的信用評(píng)價(jià)體系。高麗君采用拔靴生存模型等多種算法,驗(yàn)證了科技型中小企業(yè)的信用狀況。
互聯(lián)網(wǎng)征信主要是通過(guò)采集個(gè)人或企業(yè)在互聯(lián)網(wǎng)交易或使用互聯(lián)網(wǎng)各類服務(wù)過(guò)程中留下的信息數(shù)據(jù),并結(jié)合線下渠道采集的信息數(shù)據(jù),利用大數(shù)據(jù)、云計(jì)算等技術(shù)進(jìn)行信用評(píng)估的活動(dòng)。張健華提出將互聯(lián)網(wǎng)征信作為傳統(tǒng)征信的有益補(bǔ)充,推動(dòng)傳統(tǒng)信用評(píng)分模式的轉(zhuǎn)變。吳晶妹研究了政府、行業(yè)和地方等不同層面的金融、行政管理和商業(yè)征信體系的融合與應(yīng)用。
為提高中國(guó)科技型企業(yè)的計(jì)劃項(xiàng)目的管理,提高科技研發(fā)領(lǐng)域的信用意識(shí)和科研成果質(zhì)量,運(yùn)用信用評(píng)級(jí)方法,對(duì)企業(yè)的科技活動(dòng)和科技行為主體進(jìn)行失信甄別,為促進(jìn)我國(guó)科技研發(fā)能力的增強(qiáng)提供體制上的保障。
2 科技信用評(píng)級(jí)體系和模型
科技信用評(píng)級(jí)所評(píng)價(jià)的目標(biāo)是信用主體按合同約定如期履行義務(wù)的能力和意愿??萍夹庞迷u(píng)級(jí)是獨(dú)立的第三方利用其自身的技術(shù)優(yōu)勢(shì)和專業(yè)經(jīng)驗(yàn),就信用主體信用風(fēng)險(xiǎn)大小所發(fā)表的一種專家意見(jiàn)。企業(yè)的信用要素一般包括主體的品格、能力和資本、擔(dān)保和環(huán)境狀況等。
從基礎(chǔ)數(shù)據(jù)分類建模,利用數(shù)據(jù)綜合加工獲取一個(gè)企業(yè)科技信用評(píng)價(jià)的綜合得分,綜合考量數(shù)據(jù)存儲(chǔ)代價(jià)、數(shù)據(jù)獲取能力、信息安全保護(hù),以及數(shù)據(jù)質(zhì)量等多方面的因素,我們從科技企業(yè)基礎(chǔ)數(shù)據(jù)庫(kù)中篩選出反映企業(yè)科技信用方方面面的58個(gè)基礎(chǔ)變量,并通過(guò)歸一化方法形成了5個(gè)維度的評(píng)分指標(biāo),每一個(gè)維度的評(píng)價(jià)結(jié)果都會(huì)影響企業(yè)科技信用的總體得分,每個(gè)維度的飽滿程度也都是該維度各個(gè)因素的質(zhì)量情況。
企業(yè)科技信用評(píng)價(jià)采用標(biāo)準(zhǔn)化建模方法,如圖1所示體系和模型。首先梳理可以獲取的企業(yè)運(yùn)營(yíng)基礎(chǔ)數(shù)據(jù),篩選模型指標(biāo)作為建?;A(chǔ)。然后,定義科技信用好和壞的具體標(biāo)準(zhǔn),提取樣本后,通過(guò)相關(guān)性分析,最終確定各個(gè)指標(biāo)的評(píng)分權(quán)重,確定各指標(biāo)的評(píng)分規(guī)則,從而計(jì)算出得分范圍內(nèi)的科技信用評(píng)分。
根據(jù)目前常用的評(píng)級(jí)策略,我們選擇將所有指標(biāo)統(tǒng)一標(biāo)準(zhǔn)化,賦予相同的權(quán)重,并采用德?tīng)柗品ù蚍址?,?duì)各指標(biāo)賦分并根據(jù)所有指標(biāo)的得分考核評(píng)級(jí)。以企業(yè)團(tuán)隊(duì)的能力評(píng)價(jià)為例,在能力的40分總分中,分別考慮科研能力(30分)和管理能力(10分),細(xì)化收集基礎(chǔ)數(shù)據(jù),如科研能力方面,項(xiàng)目負(fù)責(zé)人在該領(lǐng)域職稱、經(jīng)驗(yàn)、獲獎(jiǎng)、知識(shí)產(chǎn)權(quán)等,根據(jù)具體情況將總分30分細(xì)化指標(biāo)并分別評(píng)分。
3 基于數(shù)據(jù)關(guān)聯(lián)的企業(yè)科技信用評(píng)級(jí)實(shí)證分析
為了分析企業(yè)科技信用評(píng)級(jí)的效果,我們利用關(guān)聯(lián)分析的方法設(shè)立了評(píng)價(jià)模型,并從待研究的企業(yè)基礎(chǔ)庫(kù)中抽取可信樣本進(jìn)行了實(shí)證分析。下面我們介紹基于關(guān)聯(lián)分析的效果評(píng)價(jià)模型建模過(guò)程。
企業(yè)科技信用評(píng)價(jià)的指標(biāo)體系涉及各種類型的基礎(chǔ)數(shù)據(jù),利用德?tīng)柗品ㄍ瓿筛鞣N指標(biāo)評(píng)分,形成各個(gè)指標(biāo)綜合的判斷矩陣,進(jìn)一步數(shù)據(jù)處理,可以進(jìn)行層次單排序并判斷矩陣的一致性,進(jìn)而確定各個(gè)指標(biāo)評(píng)價(jià)因素應(yīng)當(dāng)占據(jù)的權(quán)重,并形成各指標(biāo)最終評(píng)價(jià)權(quán)重,形成最終評(píng)價(jià)權(quán)重序列。
企業(yè)科技信用評(píng)價(jià)所選取的評(píng)價(jià)指標(biāo)分有各種類型,包括類別(如職稱)、數(shù)值(如資金額度)、名稱(如設(shè)備)等,即使數(shù)值也要細(xì)分為效益型(越大越好)和成本型(越小越好),為了消除不同指標(biāo)和量綱的影響,針對(duì)不同類型的指標(biāo)采用無(wú)量綱化處理,將其規(guī)范為[0,1]區(qū)間。標(biāo)準(zhǔn)化公式為:
根據(jù)處理后的評(píng)價(jià)指標(biāo)體系,構(gòu)建遞階層次模型,包括目標(biāo)層、準(zhǔn)則層、指標(biāo)層,甚至子指標(biāo)層等。構(gòu)造各單層的模糊判斷矩陣。如果有部分模糊判斷矩陣不滿足一致性檢驗(yàn),那么根據(jù)模糊一致矩陣的性質(zhì),對(duì)判斷矩陣進(jìn)行一致性z驗(yàn)和調(diào)整。再進(jìn)行層次單排序。求出每一層對(duì)應(yīng)上一層次的相對(duì)重要性權(quán)重。層次總排序計(jì)算指標(biāo)層各因素相對(duì)于目標(biāo)層相對(duì)重要性權(quán)重。權(quán)重值為各指標(biāo)相對(duì)所屬準(zhǔn)則層的權(quán)重與所屬準(zhǔn)則層相對(duì)于目標(biāo)層的權(quán)重之積。
從工作中積累的企業(yè)科技基礎(chǔ)數(shù)據(jù)庫(kù)中抽取相關(guān)數(shù)據(jù),人工對(duì)熟悉的100家企業(yè)進(jìn)行科技信用的實(shí)證分析。經(jīng)分析,如果某企業(yè)通過(guò)基于多影響因素的科技信用評(píng)價(jià)模型計(jì)算出的信用評(píng)級(jí)和日常工作中積累的信用評(píng)分差異超過(guò)兩個(gè)級(jí)別,則基本能夠檢查出該企業(yè)人工評(píng)級(jí)存在一定程度的疏漏和偏差,或者基礎(chǔ)數(shù)據(jù)存在關(guān)鍵數(shù)據(jù)的缺失現(xiàn)象。當(dāng)然本文提出的信用評(píng)價(jià)模型不能絕對(duì)準(zhǔn)確地反映企業(yè)的科技信用情況,但較人工評(píng)價(jià)而言,現(xiàn)有的科技信用評(píng)價(jià)模型給出了一定的高效率、低成本的替代方法??傊?,科技信用評(píng)價(jià)的影響因素有很多,算法研究上也需要進(jìn)一步的研究。
4 結(jié)論
科技型企業(yè)基礎(chǔ)數(shù)據(jù)庫(kù)為構(gòu)建科技信用評(píng)價(jià)提供了現(xiàn)實(shí)可行性,基于大數(shù)據(jù)的科技信用評(píng)價(jià)依托累積的企業(yè)基本信息、科技人員信息、財(cái)務(wù)信息、知識(shí)產(chǎn)權(quán)等海量數(shù)據(jù)有效拓展了數(shù)據(jù)來(lái)源,克服了信息不共享、平臺(tái)不對(duì)接、內(nèi)容不完善等問(wèn)題。我們利用關(guān)聯(lián)分析方法對(duì)企業(yè)科技信用評(píng)價(jià)進(jìn)行了實(shí)證分析,避免主觀判斷影響的同時(shí),又兼顧了不同評(píng)價(jià)指標(biāo)的重要程度,為企業(yè)科技信用評(píng)價(jià)提供了新的思路。
參考文獻(xiàn)
[1] 張建波.中小企業(yè)信用擔(dān)保市場(chǎng)低效率的原因及對(duì)策[J].華東經(jīng)濟(jì)管理,2009.23(12):78-80.
[2] 萬(wàn)超,孫侃文,莊健絢.從歐債危機(jī)看我國(guó)中小企業(yè)信用評(píng)級(jí)未來(lái)發(fā)展[J].當(dāng)代經(jīng)濟(jì)管理,2012.34(12):53-57.
[3] 李杰群.基于AHP法的科技型中小企業(yè)信用評(píng)級(jí)研究[J].征信,2014.32(1):55-59.
熱門(mén)標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)管理論文 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討