為推動凝聚共識,在社會各界的大力支持下,我們認真研究形成了數據領域常用名詞解釋(第一批)。后續還將結合實踐和發展需要迭代完善,歡迎社會各界持續關注。
附件:數據領域常用名詞解釋(第一批)
數據領域名詞解釋起草專家組
2024年12月30日
數據領域常用名詞解釋(第一批)
1.數據,是指任何以電子或其他方式對信息的記錄。數據在不同視角下被稱為原始數據、衍生數據、數據資源、數據產品和服務、數據資產、數據要素等。
2.原始數據,是指初次產生或源頭收集的、未經加工處理的數據。
3.數據資源,是指具有價值創造潛力的數據的總稱,通常指以電子化形式記錄和保存、可機器讀取、可供社會化再利用的數據集合。
4.數據要素,是指投入到生產經營活動、參與價值創造的數據資源。
5.數據產品和服務,是指基于數據加工形成的,可滿足特定需求的數據加工品和數據服務。
6.數據資產,是指特定主體合法擁有或者控制的,能進行貨幣計量的,且能帶來經濟利益或社會效益的數據資源。
7.數據要素市場化配置,是指通過市場機制來配置數據這一新型生產要素,旨在建立一個更加開放、安全和高效的數據流通環境,不斷釋放數據要素價值。
8.數據處理,包括數據的收集、存儲、使用、加工、傳輸、提供、公開等。
9.數據處理者,是指在數據處理活動中自主決定處理目的和處理方式的個人或者組織。
10.受托數據處理者,是指接受他人委托處理數據的個人或者組織。
11.數據流通,是指數據在不同主體之間流動的過程,包括數據開放、共享、交易、交換等。
12.數據交易,是指數據供方和需方之間進行的,以特定形態數據為標的,以貨幣或者其他等價物作為對價的交易行為。
13.數據治理,是指提升數據的質量、安全、合規性,推動數據有效利用的過程,包含組織數據治理、行業數據治理、社會數據治理等。
14.數據安全,是指通過采取必要措施,確保數據處于有效保護和合法利用的狀態,以及具備保障持續安全狀態的能力。
15.公共數據,是指各級黨政機關、企事業單位依法履職或提供公共服務過程中產生的數據。
16.數字產業化,是指移動通信、人工智能等數字技術向數字產品、數字服務轉化,數據向資源、要素轉化,形成數字新產業、新業態、新模式的過程。
17.產業數字化,是指傳統的農業、工業、服務業等產業通過應用數字技術、采集融合數據、挖掘數據資源價值,提升業務運行效率,降低生產經營成本,進而重構思維認知,整體性重塑組織管理模式,系統性變革生產運營流程,不斷提升全要素生產率的過程。
18.數字經濟高質量發展,是指圍繞加快培育新質生產力,以數據要素市場化配置改革為主線,通過協同完善數據基礎制度和數字基礎設施、全面推進數字技術和實體經濟深度融合、持續提升數字經濟治理能力和國際合作水平,實現做強做優做大目標的數字經濟發展新階段。
19.數字消費,是指數字技術、應用支撐形成的消費活動和消費方式,既包括對數智化技術、產品和服務的消費,也包括消費內容、消費渠道、消費環境的數字化與智能化,還包括線上線下深度融合的消費新模式。
20.產業互聯網,是指利用數字技術、數據要素推動全產業鏈數據融通,賦能產業數字化、網絡化、智能化發展,推動業務流程、組織架構、生產方式等重組變革,實現產業鏈上下游協同轉型、線上線下融合發展、全產業降本增效與高質量發展,進而形成新的產業協作、資源配置和價值創造體系。
21.城市全域數字化轉型,是指城市以全面深化數據融通和開發利用為主線,綜合利用數字技術和制度創新工具,實現技術架構重塑、城市管理流程變革和產城深度融合,促進數字化轉型全領域增效、支撐能力全方位增強、轉型生態全過程優化的城市高質量發展新模式。
22.“東數西算”工程,是把東部地區經濟活動產生的數據和需求放到西部地區計算和處理,對數據中心在布局、網絡、電力、能耗、算力、數據等方面進行統籌規劃的重大工程,比如人工智能模型訓練推理、機器學習等業務場景,可以通過“東數西算”的方式讓東部業務向西部風光水電豐富的區域遷移,實現東西部協同發展。加快推動“東數西算”工程建設,將有效激發數據要素創新活力,加速數字產業化和產業數字化進程,催生新技術、新產業、新業態、新模式,支撐經濟高質量發展。
23.高速數據網,是指面向數據流通利用場景,依托網絡虛擬化、軟件定義網絡(SDN)等技術,提供彈性帶寬、安全可靠、傳輸高效的數據傳輸服務。
24.全國一體化算力網,是指以信息網絡技術為載體,促進全國范圍內各類算力資源高比例、大規模一體化調度運營的數字基礎設施。作為“東數西算”工程的2.0版本,具有集約化、一體化、協同化、價值化四個典型特征。
25.元數據,是定義和描述特定數據的數據,它提供了關于數據的結構、特征和關系的信息,有助于組織、查找、理解、管理數據。
26.結構化數據,是指一種數據表示形式,按此種形式,由數據元素匯集而成的每個記錄的結構都是一致的,并且可以使用關系模型予以有效描述。
27.半結構化數據,是指不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層的一種數據化結構形式。
28.非結構化數據,是指不具有預定義模型或未以預定義方式組織的數據。
29.數據分析,是指通過特定的技術和方法,對數據進行整理、研究、推理和概括總結,從數據中提取有用信息、發現規律、形成結論的過程。
30.數據挖掘,是數據分析的一種手段,是通過統計分析、機器學習、模式識別、專家系統等技術,挖掘出隱藏在數據中的信息或者價值的過程。
31.數據可視化,是指通過統計圖表、圖形、地圖等圖形化手段,將數據中包含的有用信息清晰有效地傳達出來,以便于數據使用者更好地理解和分析數據。
32.數據倉庫,是指在數據準備之后用于永久性存儲數據的數據庫。
33.數據湖,是指一種高度可擴展的數據存儲架構,它專門用于存儲大量原始數據和衍生數據,這些數據可以來自各種來源并以不同的格式存在,包括結構化、半結構化和非結構化數據。
34.湖倉一體,是指一種新型的開放式的存儲架構,打通了數據倉庫和數據湖,將數據倉庫的高性能及管理能力與數據湖的靈活性融合起來,底層支持多種數據類型并存,能實現數據間的相互共享,上層可以通過統一封裝的接口進行訪問,可同時支持實時查詢和分析。
35.隱私保護計算,是指在保證數據提供方不泄露原始數據的前提下,對數據進行分析計算的一類信息技術,保障數據在產生、存儲、計算、應用、銷毀等數據流轉全過程的各個環節中“可用不可見”。隱私保護計算的常用技術方案有安全多方計算、聯邦學習、可信執行環境、密態計算等。常用的底層技術有混淆電路、不經意傳輸、秘密分享、同態加密等。
36.安全多方計算,是指在一個分布式網絡中,多個參與實體各自持有秘密數據,各方希望以這些數據為輸入共同完成對某函數的計算,而要求每個參與實體除計算結果、預期可公開的信息外均不能得到其他參與實體的任何輸入信息。主要研究針對無可信第三方情況下,安全地進行多方協同的計算問題。
37.聯邦學習,是指一種多個參與方在保證各自原始私有數據不出數據方定義的可信域的前提下,以保護隱私數據的方式交換中間計算結果,從而協作完成某項機器學習任務的模式。
38.可信執行環境,是指基于硬件級隔離及安全啟動機制,為確保安全敏感應用相關數據和代碼的機密性、完整性、真實性和不可否認性目標構建的一種軟件運行環境。
39.密態計算,是指通過綜合利用密碼學、可信硬件和系統安全相關技術,實現計算過程數據可用不可見,計算結果能夠保持密態化,以支持構建復雜組合計算,實現計算全鏈路保障,防止數據泄漏和濫用。
40.區塊鏈,是分布式網絡、加密技術、智能合約等多種技術集成的新型數據庫軟件,具有多中心化、共識可信、不可篡改、可追溯等特性,主要用于解決數據流通過程中的信任和安全問題。