大數(shù)據(jù)指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
什么是大數(shù)據(jù)
大數(shù)據(jù)指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
大數(shù)據(jù)歷史和當前考慮因素
雖然術語“大數(shù)據(jù)”相對較新,但收集和存儲大量信息以進行最終分析的行為已經很久了。這個概念在 21 世紀初獲得了動力,當時行業(yè)分析師 Doug Laney 將現(xiàn)在主流的大數(shù)據(jù)定義表達為三個 V:
1.卷,組織從各種來源收集數(shù)據(jù),包括業(yè)務交易,社交媒體和來自傳感器或機器到機器數(shù)據(jù)的信息。在過去,存儲它將是一個問題 – 但新技術(如 Hadoop)減輕了負擔。
2.速度,數(shù)據(jù)以前所未有的速度流入,必須及時處理。RFID 標簽,傳感器和智能電表正在推動近乎實時處理數(shù)據(jù)的需求。
3.品種,數(shù)據(jù)有各種格式 – 從傳統(tǒng)數(shù)據(jù)庫中的結構化數(shù)字數(shù)據(jù)到非結構化文本文檔,電子郵件,視頻,音頻,股票報價數(shù)據(jù)和金融交易。
在 SAS,我們在大數(shù)據(jù)方面考慮兩個額外的維度:
1.變化性,除了速度和數(shù)據(jù)種類的增加之外,數(shù)據(jù)流還可能與周期性峰值高度不一致。社交媒體中有什么趨勢嗎?每日,季節(jié)性和事件觸發(fā)的峰值數(shù)據(jù)負載可能難以管理。非結構化數(shù)據(jù)更是如此。
2.復雜,今天的數(shù)據(jù)來自多個來源,這使得難以跨系統(tǒng)鏈接,匹配,清理和轉換數(shù)據(jù)。但是,有必要連接和關聯(lián)關系,層次結構和多個數(shù)據(jù)鏈接,否則您的數(shù)據(jù)可能會迅速失控。
為什么大數(shù)據(jù)很重要?
大數(shù)據(jù)的重要性不在于您擁有多少數(shù)據(jù),而在于您使用它做了多少。您可以從任何來源獲取數(shù)據(jù)并進行分析,以找到能夠降低成本,減少時間,新產品開發(fā)和優(yōu)化產品,以及智能決策的答案。將大數(shù)據(jù)與高性能分析結合使用時,您可以完成與業(yè)務相關的任務,例如:
1.近乎實時地確定故障,問題和缺陷的根本原因;
2.根據(jù)客戶的購買習慣在銷售點生成優(yōu)惠券;
3.在幾分鐘內重新計算整個風險組合;
4.在欺詐行為影響您的組織之前檢測它。