當(dāng)下的大數(shù)據(jù)產(chǎn)業(yè)普遍存在一個(gè)誤區(qū):許多人認(rèn)為大數(shù)據(jù)就是數(shù)據(jù)越大就越好,于是盲目追求數(shù)據(jù)之大,但是往往產(chǎn)生不了“有用的結(jié)果”,反而容易被“自我迷惑”,也因此忽視了“從數(shù)據(jù)中發(fā)掘更多價(jià)值”這一重點(diǎn)。
“多大的數(shù)據(jù)才能說(shuō)是大數(shù)據(jù)?在我看來(lái),數(shù)據(jù)本身的大小并不是關(guān)鍵所在。挖掘數(shù)據(jù)價(jià)值,創(chuàng)造更高的應(yīng)用價(jià)值回報(bào),才是最值得關(guān)注和探索的?!苯?,在第十三屆中國(guó)(南京)國(guó)際軟件產(chǎn)品和信息服務(wù)交易博覽會(huì)期間舉辦的“大數(shù)據(jù)產(chǎn)業(yè)互聯(lián)網(wǎng)融合創(chuàng)新發(fā)展高峰論壇”上,加拿大工程院院士凌曉峰表達(dá)了這個(gè)觀點(diǎn)。
他指出,當(dāng)下的大數(shù)據(jù)產(chǎn)業(yè)普遍存在一個(gè)誤區(qū):許多人認(rèn)為大數(shù)據(jù)就是數(shù)據(jù)越大就越好,于是盲目追求數(shù)據(jù)之大,但是往往產(chǎn)生不了“有用的結(jié)果”,反而容易被“自我迷惑”,也因此忽視了“從數(shù)據(jù)中發(fā)掘更多價(jià)值”這一重點(diǎn)。
有效的數(shù)據(jù)才有價(jià)值
那么,如何才能只需要收集有限的數(shù)據(jù),便可實(shí)現(xiàn)更大的價(jià)值呢?
凌曉峰認(rèn)為,從開(kāi)展大數(shù)據(jù)分析伊始就明確目標(biāo)至關(guān)重要。在他看來(lái),為什么收集數(shù)據(jù)?這應(yīng)該是每一次進(jìn)行大數(shù)據(jù)的采集分析前都必須考慮的問(wèn)題。在明確目標(biāo)之后,針對(duì)性地采集相關(guān)的數(shù)據(jù),利用這些數(shù)據(jù)建立數(shù)據(jù)模型,通過(guò)模型來(lái)預(yù)測(cè)目標(biāo)的變量值,如此,既減少了某些方面的不必要投入,又能提高數(shù)據(jù)挖掘的效率,而且預(yù)測(cè)的準(zhǔn)確性也能有所提高。
大數(shù)據(jù)分析在醫(yī)學(xué)領(lǐng)域的應(yīng)用便是一個(gè)典型的例子。假設(shè)醫(yī)生要治療一個(gè)高血壓病人,在這個(gè)病人每天都能產(chǎn)生海量健康狀況數(shù)據(jù)的前提下,醫(yī)生若是能夠有目的性的只收集病人的飲食規(guī)律、出行記錄、用藥頻次等相關(guān)數(shù)據(jù),然后基于這些數(shù)據(jù),對(duì)病人的血壓情況做分析預(yù)測(cè),就能有效地為病人提供針對(duì)性的降低血壓辦法。如此,醫(yī)生避免了在與病人病理無(wú)關(guān)的數(shù)據(jù)分析上花費(fèi)時(shí)間,病人也能夠得到及時(shí)的治療。
“采集數(shù)據(jù)時(shí),還需確保采集到的數(shù)據(jù)有效精準(zhǔn)?!绷钑苑灞硎荆?dāng)下,不少制造企業(yè)言必稱(chēng)“大數(shù)據(jù)”,無(wú)論研發(fā)何種產(chǎn)品,都一股腦兒地為產(chǎn)品接入光纖,配備傳感器,以求采集每時(shí)每刻產(chǎn)生的海量數(shù)據(jù)。于是,問(wèn)題也就來(lái)了,數(shù)據(jù)有了,但哪些有效哪些無(wú)效,無(wú)從辨別。這不但造成硬件設(shè)備和統(tǒng)計(jì)計(jì)算資源的浪費(fèi),還可能因“數(shù)據(jù)噪音”的干擾得出錯(cuò)誤結(jié)論,削弱產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。
對(duì)此,凌曉峰強(qiáng)調(diào),“數(shù)據(jù)不是量大便能產(chǎn)生結(jié)果的,只有最新最具時(shí)效性的準(zhǔn)確數(shù)據(jù)才是最有用的,所以收集數(shù)據(jù)不僅要準(zhǔn)確有效,還需與新的數(shù)據(jù)對(duì)比,保證其時(shí)效性,才能在未來(lái)的數(shù)據(jù)分析中發(fā)揮價(jià)值。”
大數(shù)據(jù)分析離不開(kāi)場(chǎng)景的應(yīng)用,如此來(lái)看,數(shù)據(jù)間的關(guān)聯(lián)度也是需要著重關(guān)注的。目前,大多數(shù)的企業(yè)在推進(jìn)信息化,在生產(chǎn)現(xiàn)場(chǎng),普遍引進(jìn)了生產(chǎn)管理軟件,軟件的種類(lèi)多達(dá)上百。然而,不同軟件產(chǎn)生的數(shù)據(jù)還沒(méi)有實(shí)現(xiàn)共享。顯然,企業(yè)是無(wú)法對(duì)這些數(shù)據(jù)進(jìn)行關(guān)聯(lián)化的分析,也就無(wú)法從中實(shí)現(xiàn)更多的價(jià)值增值。
需在“知其所以然”上下功夫
隨著大數(shù)據(jù)環(huán)境不斷優(yōu)化,以及數(shù)據(jù)資源的大量積累,大數(shù)據(jù)產(chǎn)業(yè)勢(shì)頭一片向好,但是凌曉峰表示,仍有許多不足亟待去研究解決。
首先是大數(shù)據(jù)的預(yù)測(cè)結(jié)果是沒(méi)有原因分析的。對(duì)于這樣的預(yù)測(cè),你敢相信嗎?想必不少人是抱有懷疑態(tài)度的。
事實(shí)上,目前絕大多數(shù)數(shù)據(jù)挖掘產(chǎn)生的系統(tǒng),特別是設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的系統(tǒng),都是處于黑箱狀態(tài),對(duì)于預(yù)測(cè)結(jié)果,普遍情況是知其然而不知其所以然。據(jù)凌曉峰透露,“雖然有諸多黑箱狀態(tài)的系統(tǒng)精度高達(dá)96%,但是這些系統(tǒng)沒(méi)有辦法解釋為何做出如此‘精確的’決策。而且,對(duì)于如何消除那4%的失誤率,專(zhuān)家還沒(méi)有找到行之有效的解決方案,這樣的系統(tǒng)在實(shí)際運(yùn)行中會(huì)有很大的風(fēng)險(xiǎn)。”
其次,當(dāng)下的機(jī)器學(xué)習(xí)或者是大數(shù)據(jù)分析只能單一的從原始數(shù)據(jù)中獲取規(guī)律,不能很好的利用已有的成熟知識(shí),還沒(méi)有足夠的靈活性。凌曉峰表示,若是能夠?qū)⒁阎闹R(shí)資源更好地應(yīng)用到大數(shù)據(jù)分析當(dāng)中,其分析效率將會(huì)有顯著提升?!捌┤缰谱饕粋€(gè)用于診斷心臟病的機(jī)器系統(tǒng)。若是能夠?qū)⒁延械某墒煸\斷病書(shū)輸入到機(jī)器系統(tǒng)的神經(jīng)網(wǎng)路中,再通過(guò)實(shí)例更加精密的提高系統(tǒng)分析的準(zhǔn)確度,那么這個(gè)數(shù)據(jù)分析的效率必然會(huì)大大提升。”
此外,凌曉峰還提到了應(yīng)用導(dǎo)向下的大數(shù)據(jù)“個(gè)性化”問(wèn)題。他說(shuō),數(shù)據(jù)模型越大,越能得到個(gè)性化的特征。因此,在市場(chǎng)需求的影響下,如何利用大數(shù)據(jù)不斷的過(guò)濾,將客戶模糊的個(gè)性化需求通過(guò)數(shù)據(jù)轉(zhuǎn)化實(shí)際制造產(chǎn)品的精確的技術(shù)指標(biāo),把客戶的真正精確需求提取出來(lái),轉(zhuǎn)變成想要達(dá)到的指標(biāo),將是大數(shù)據(jù)應(yīng)用的下一個(gè)風(fēng)口。
來(lái)源:機(jī)電商報(bào)