永久免费a级在线视频,亚洲v日本,国产精品福利一区二区,午夜免费福利,国产精品网址在线观看,中国一级毛片在线视频,亚洲成人黄

數(shù)據(jù)質(zhì)量:大數(shù)據(jù)的新側(cè)面

來源:網(wǎng)絡(luò)

點(diǎn)擊:782

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 大數(shù)據(jù)

      數(shù)據(jù)質(zhì)量的定義

      根據(jù)維基百科的定義:數(shù)據(jù)質(zhì)量指的是“數(shù)據(jù)對(duì)其在操作、決策支持和規(guī)劃中扮演角色的適應(yīng)程度”。下面是數(shù)據(jù)質(zhì)量常見的五個(gè)方面:

     ?。?)一致性:信息集合中每個(gè)信息都不包含語(yǔ)義錯(cuò)誤或相互矛盾的數(shù)據(jù)。例如,信息(公司=“先導(dǎo)”,國(guó)碼=“86”,區(qū)號(hào)=“10”,城市=“上海”)就不一致,因?yàn)?0是北京區(qū)號(hào)而非上海區(qū)號(hào)。又如,若銀行信用卡信息庫(kù)顯示某持卡人同時(shí)在北京和新疆使用同一信用卡消費(fèi),這時(shí)就出現(xiàn)了同一時(shí)刻兩個(gè)地點(diǎn)信息不一致的情況。

     ?。?)精確性:信息集合中每個(gè)信息都能準(zhǔn)確表述現(xiàn)實(shí)世界中的實(shí)體。例如,某城市人口數(shù)量為4130465,在信息庫(kù)中的記載為400萬。此數(shù)據(jù)看似合理,卻不精確,未能包含剩余的130465人。

     ?。?)完整性:信息集合中包含足夠的信息來實(shí)現(xiàn)回答問題、查詢信息或進(jìn)行知識(shí)發(fā)現(xiàn)等功能。這也同樣是數(shù)據(jù)質(zhì)量評(píng)定中的一個(gè)重要因素!例如,某醫(yī)療信息庫(kù)中的信息遺失了某些患者的既往病史,從而存在不完整性。一旦該患者需要治療,這些缺失的信息將會(huì)導(dǎo)致醫(yī)生不正確的診斷甚至引發(fā)嚴(yán)重醫(yī)療事故。

     ?。?)時(shí)效性:信息集合中每個(gè)信息都要與時(shí)俱進(jìn)。例如,把某小區(qū)住戶的地址看作是數(shù)據(jù)的話,其中某位住戶所登記的家庭地址是2010年的,但在2011年他可能搬家了,此時(shí)他所登記的家庭地址信息就不正確了,即信息過時(shí),而這些過時(shí)信息將會(huì)導(dǎo)致嚴(yán)重后果。

     ?。?)實(shí)體同一性:信息集合中描述同一實(shí)體的不同表示形式共享同一標(biāo)識(shí)。例如,為防止信用卡欺詐,銀行需監(jiān)測(cè)信用卡的使用者和持有者是否為同一人。又如,同一企業(yè)中維護(hù)著各自不同的信息庫(kù)的部門在兼并和重組時(shí),會(huì)使新的客戶信息庫(kù)中產(chǎn)生大量具有差異的重復(fù)客戶信息,而導(dǎo)致客戶信息的混亂。

      大數(shù)據(jù)中的數(shù)據(jù)質(zhì)量問題

      大數(shù)據(jù),顧名思義,其最本質(zhì)的特點(diǎn)在于數(shù)據(jù)量“大”,除此之外,還包括了獲取、管理以及處理時(shí)的復(fù)雜性。大數(shù)據(jù)具有明顯的時(shí)代特征,使用者們習(xí)慣上將其總結(jié)為4個(gè)“V”:規(guī)模性(volume),高速性(velocity),多樣性(variety)和價(jià)值稀疏性(value)。由于這些特征,大數(shù)據(jù)才有更大可能產(chǎn)生數(shù)據(jù)質(zhì)量問題,即更有可能出現(xiàn)不一致、不精確、不完整、過時(shí)等問題或者描述同一實(shí)體的數(shù)據(jù)出現(xiàn)了沖突(簡(jiǎn)稱為實(shí)體不同一)等錯(cuò)誤,具體原因包括:

     ?。?)大數(shù)據(jù)具有規(guī)模性大的特點(diǎn):越大規(guī)模的數(shù)據(jù)就越有可能在獲取、存儲(chǔ)、傳輸和計(jì)算過程中產(chǎn)生更多錯(cuò)誤。即使想要進(jìn)行人工錯(cuò)誤檢測(cè)與修復(fù)也會(huì)由于成本極其巨大以至難以有效實(shí)施。

     ?。?)大數(shù)據(jù)具有高速性的特點(diǎn):數(shù)據(jù)的大量更新會(huì)導(dǎo)致過時(shí)數(shù)據(jù)迅速產(chǎn)生,在這個(gè)過程中也更易于產(chǎn)生不一致數(shù)據(jù),為人工錯(cuò)誤檢測(cè)與修復(fù)帶來困難。例如,某一大型實(shí)驗(yàn)設(shè)備中包含了15億個(gè)傳感器,平均每秒收集超過4億條實(shí)驗(yàn)數(shù)據(jù),每一秒鐘就會(huì)有這些數(shù)據(jù)迅速過時(shí),傳統(tǒng)方法想要實(shí)現(xiàn)新數(shù)據(jù)替換對(duì)應(yīng)的舊數(shù)據(jù),就顯得有些力不從心。

      (3)大數(shù)據(jù)具有多樣性的特點(diǎn):它的多樣性指的是數(shù)據(jù)來源和形式上的多樣,這就使得數(shù)據(jù)有更大的可能產(chǎn)生不一致和沖突。例如,在互聯(lián)網(wǎng)上的不同網(wǎng)購(gòu)網(wǎng)站中獲取到的同一商品的一些信息就有很大可能存在沖突。

      數(shù)據(jù)質(zhì)量的影響

      如果沒有良好的數(shù)據(jù)質(zhì)量,大數(shù)據(jù)將會(huì)對(duì)決策產(chǎn)生誤導(dǎo),甚至產(chǎn)生不可估量的結(jié)果。

      根據(jù)估算,數(shù)據(jù)錯(cuò)誤每年對(duì)美國(guó)工業(yè)界造成的經(jīng)濟(jì)損失約占GDP的6%。

      在醫(yī)療方面:根據(jù)美國(guó)醫(yī)療委員會(huì)的統(tǒng)計(jì),由于數(shù)據(jù)錯(cuò)誤引起的醫(yī)療事故僅在美國(guó)每年就導(dǎo)致高達(dá)98000名患者喪生。

      在電信產(chǎn)業(yè):數(shù)據(jù)錯(cuò)誤經(jīng)常導(dǎo)致故障排除的延誤、多余設(shè)備租用和服務(wù)費(fèi)收取錯(cuò)誤,損害了企業(yè)信譽(yù)甚至?xí)虼耸ズ芏嘤脩簟?/p>

      在商業(yè)上:美國(guó)零售業(yè)每年僅因標(biāo)價(jià)錯(cuò)誤就損失25億美元。2009年戴爾臺(tái)灣網(wǎng)站,在8小時(shí)內(nèi),售價(jià)本應(yīng)是4800元新臺(tái)幣的19寸顯示器被按照錯(cuò)誤標(biāo)價(jià)以500元新臺(tái)幣訂購(gòu)140萬臺(tái)!

      在金融企業(yè)中:因數(shù)據(jù)質(zhì)量問題導(dǎo)致的信用卡欺詐失察在2008年即造成48億美元的損失。2001年 雷曼兄弟公司將 £300萬錯(cuò)輸入為£3億,導(dǎo)致金融時(shí)報(bào)指數(shù)瞬間暴跌120點(diǎn),百家藍(lán)籌股的300億英鎊市值化為烏有, 損失£500萬-£1000萬。2005年瑞穗證券同樣因?yàn)檩斎脲e(cuò)誤,在16分鐘內(nèi)損失了19億元人民幣。

      大數(shù)據(jù)質(zhì)量管理的研究成果

      在國(guó)家973高科技基礎(chǔ)研究計(jì)劃的資助下,哈爾濱工業(yè)大學(xué)等單位合作圍繞 “數(shù)據(jù)質(zhì)量”這一重要主題進(jìn)行項(xiàng)目“海量信息可用性基礎(chǔ)理論與關(guān)鍵技術(shù)研究” 已經(jīng)超過3年,在數(shù)據(jù)質(zhì)量方面已經(jīng)取得了以下一系列研究成果:

      數(shù)據(jù)質(zhì)量評(píng)估技術(shù):從數(shù)據(jù)質(zhì)量常見的五個(gè)方面分別提出了數(shù)據(jù)質(zhì)量不同的自動(dòng)評(píng)估技術(shù),并研究了這五個(gè)方面的關(guān)系,從而可以根據(jù)應(yīng)用的需求判定數(shù)據(jù)的質(zhì)量是否達(dá)到要求。

      數(shù)據(jù)自動(dòng)修復(fù)技術(shù):利用網(wǎng)絡(luò)提供的海量數(shù)據(jù)及從其中獲得的知識(shí)來對(duì)數(shù)據(jù)進(jìn)行修復(fù)。通過分析定義錯(cuò)誤修復(fù)的語(yǔ)義蘊(yùn)含與表現(xiàn)形式、自動(dòng)修復(fù)的充分必要條件和基于WEB的自動(dòng)修復(fù)模型,提出了查詢關(guān)鍵詞生成模型及算法,通過遺傳算法實(shí)現(xiàn)查詢關(guān)鍵詞的自適應(yīng)性調(diào)整,提出了實(shí)體抽取模型,該方法采用圖模型來描述實(shí)體集之間的關(guān)系,利用圖匹配的相關(guān)技術(shù)進(jìn)行信息抽取,并基于抽取出的信息進(jìn)行數(shù)據(jù)的自動(dòng)修復(fù)。

      實(shí)體識(shí)別技術(shù):實(shí)體識(shí)別用于找出描述現(xiàn)實(shí)世界同一實(shí)體的數(shù)據(jù)。如今的數(shù)據(jù)集合大多具有復(fù)雜結(jié)構(gòu)并具有更新頻繁特點(diǎn)。課題組通過研究此種數(shù)據(jù)實(shí)體識(shí)別的理論和算法,提出了一系列針對(duì)關(guān)系數(shù)據(jù)、XML數(shù)據(jù)和圖數(shù)據(jù)的實(shí)體識(shí)別算法,并將提出的技術(shù)應(yīng)用到了商品信息的實(shí)體識(shí)別中。借助所得到的結(jié)論將淘寶等購(gòu)物網(wǎng)站進(jìn)行改進(jìn)。

      弱可用信息上的知識(shí)發(fā)現(xiàn)技術(shù):網(wǎng)絡(luò)上很多,要么不完整,要么帶有可能誤導(dǎo)用戶的信息的數(shù)據(jù)以及很多通過自動(dòng)化方法從非結(jié)構(gòu)化數(shù)據(jù)中(比如文本和圖片)提取出來的數(shù)據(jù),都是是典型的弱可用數(shù)據(jù)。課題組針對(duì)網(wǎng)絡(luò)上的弱可用信息提出了多種知識(shí)發(fā)現(xiàn)的方法,使得人們可以借助多種數(shù)據(jù)挖掘方法在這些弱可用數(shù)據(jù)上進(jìn)行知識(shí)提取,并且將這些提取出來的知識(shí)在不同領(lǐng)域的不同應(yīng)用場(chǎng)景中進(jìn)行驗(yàn)證。

      數(shù)據(jù)質(zhì)量自動(dòng)檢測(cè)技術(shù)在社保中的應(yīng)用:在社保數(shù)據(jù)中,由于數(shù)據(jù)源多種多樣,信息成因具有階段性和分布性特點(diǎn),造成了大量的數(shù)據(jù)孤島的存在,即來自不同信息網(wǎng)絡(luò)的數(shù)據(jù)信息經(jīng)常會(huì)出現(xiàn)無法共享的問題,比如公安系統(tǒng)、民政局系統(tǒng)可能就會(huì)有信息重復(fù)或信息不匹配的情況發(fā)生。課題組利用數(shù)據(jù)質(zhì)量自動(dòng)檢測(cè)技術(shù)解決了這些問題,確保了社保經(jīng)濟(jì)數(shù)據(jù)工程的順利開展。

    (審核編輯: 智匯張瑜)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請(qǐng)聯(lián)系我們刪除。