>> 中國信通院-數(shù)據(jù)要素白皮書(2023年)-230926
| 上傳日期: |
2023/9/26 |
大小: |
1916KB |
| 格式: |
pdf 共53頁 |
來源: |
中國信通院 |
| 評級: |
-- |
作者: |
-- |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
數(shù)據(jù)要素再認(rèn)識 數(shù)據(jù)的爆發(fā)式增長和規(guī)?;瘧?yīng)用不斷催生新產(chǎn)業(yè)、新業(yè)態(tài),對生產(chǎn)力和生產(chǎn)關(guān)系的發(fā)展和變革具有重要影響。將數(shù)據(jù)增列為生產(chǎn)要素意味著對數(shù)據(jù)要素價值釋放提出更高目標(biāo),需要通過深度研究、廣泛實(shí)踐,反復(fù)認(rèn)知和領(lǐng)會數(shù)據(jù)要素戰(zhàn)略布局、時代背景與理論內(nèi)涵,不斷推進(jìn)數(shù)據(jù)要素發(fā)展,有力支撐數(shù)字中國建設(shè)。 國家戰(zhàn)略全方位布局?jǐn)?shù)據(jù)要素發(fā)展 我國數(shù)據(jù)要素政策進(jìn)入體系化構(gòu)建階段。自2014年大數(shù)據(jù)首次寫入政府工作報(bào)告以來,在關(guān)于數(shù)據(jù)的系列政策布局推動下,數(shù)據(jù)與實(shí)體經(jīng)濟(jì)融合程度不斷加深,數(shù)據(jù)技術(shù)、數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全等方面都取得長足發(fā)展。2019年,十九屆四中全會首次將數(shù)據(jù)增列為生產(chǎn)要素,關(guān)于數(shù)據(jù)資源整合共享、開發(fā)利用、安全治理、市場化配置等方面的數(shù)據(jù)要素體系化頂層設(shè)計(jì)正式啟動。四年來,《關(guān)于構(gòu)建更加完善的數(shù)據(jù)要素市場化配置體制機(jī)制的意見》《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》《數(shù)字中國建設(shè)整體布局規(guī)劃》等文件相繼出臺,數(shù)據(jù)要素政策體系架構(gòu)初步形成,擘畫出數(shù)據(jù)資源大循環(huán)、數(shù)據(jù)要素價值充分實(shí)現(xiàn)、全體人民共享數(shù)字經(jīng)濟(jì)發(fā)展紅利的宏偉藍(lán)圖。 “數(shù)據(jù)二十條”為推動數(shù)據(jù)要素發(fā)展筑牢政策基礎(chǔ)。習(xí)近平總書記指出,數(shù)據(jù)基礎(chǔ)制度建設(shè)事關(guān)國家發(fā)展和安全大局,要維護(hù)國家數(shù)據(jù)安全,保護(hù)個人信息和商業(yè)秘密,促進(jìn)數(shù)據(jù)高效流通使用、賦能實(shí)體經(jīng)濟(jì),統(tǒng)籌推進(jìn)數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配、安全治理,加快構(gòu)建數(shù)據(jù)基礎(chǔ)制度體系。2022年12月,“數(shù)據(jù)二十條”的出臺明確了數(shù)據(jù)基礎(chǔ)制度體系基本架構(gòu)(如圖1),提出建立保障權(quán)益、合規(guī)使用的數(shù)據(jù)產(chǎn)權(quán)制度,建立合規(guī)高效、場內(nèi)外結(jié)合的數(shù)據(jù)要素流通和交易制度,建立體現(xiàn)效率、促進(jìn)公平的數(shù)據(jù)要素收益分配制度,建立安全可控、彈性包容的數(shù)據(jù)要素治理制度。以“數(shù)據(jù)二十條”為指導(dǎo),各地各部門將制定數(shù)據(jù)要素相關(guān)細(xì)則規(guī)定,圍繞“數(shù)據(jù)二十條”不斷豐富完善數(shù)據(jù)要素各方面制度體系和配套政策,打造“1+N”數(shù)據(jù)基礎(chǔ)制度體系。 數(shù)字中國建設(shè)引領(lǐng)數(shù)據(jù)要素價值釋放方向。建設(shè)數(shù)字中國是數(shù)字時代推進(jìn)中國式現(xiàn)代化的重要引擎,是構(gòu)筑國家競爭新優(yōu)勢的有力支撐。2023年2月,《數(shù)字中國建設(shè)整體布局規(guī)劃》指出,暢通數(shù)據(jù)資源大循環(huán)是數(shù)字中國建設(shè)的兩大基礎(chǔ)之一,要構(gòu)建國家數(shù)據(jù)管理體制機(jī)制,健全各級數(shù)據(jù)統(tǒng)籌管理機(jī)構(gòu),推動公共數(shù)據(jù)匯聚利用,釋放商業(yè)數(shù)據(jù)價值潛能。規(guī)劃提出的“五位一體”總體布局為數(shù)據(jù)要素價值釋放指引了方向,數(shù)字技術(shù)與經(jīng)濟(jì)、政治、文化、社會、生態(tài)文明建設(shè)的深度融合將帶動數(shù)據(jù)要素在各場景發(fā)揮獨(dú)特作用,從而充分激活數(shù)據(jù)要素內(nèi)在價值,全面賦能經(jīng)濟(jì)社會發(fā)展。 數(shù)據(jù)要素統(tǒng)籌管理、協(xié)調(diào)發(fā)展的體制機(jī)制進(jìn)一步完善。2022年7月,國務(wù)院批準(zhǔn)建立由國家發(fā)展改革委牽頭,中央網(wǎng)信辦、工業(yè)和信息化部等20個部委組成的數(shù)字經(jīng)濟(jì)發(fā)展部際聯(lián)席會議制度,強(qiáng)化國家層面數(shù)字經(jīng)濟(jì)戰(zhàn)略實(shí)施的統(tǒng)籌協(xié)調(diào)。2023年3月,《黨和國家機(jī)構(gòu)改革方案》提出組建國家數(shù)據(jù)局,負(fù)責(zé)協(xié)調(diào)推進(jìn)數(shù)據(jù)基礎(chǔ)制度建設(shè),統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用,統(tǒng)籌推進(jìn)數(shù)字中國、數(shù)字經(jīng)濟(jì)、數(shù)字社會規(guī)劃和建設(shè)等工作。國家數(shù)據(jù)局的組建有利于破除“九龍治水”的數(shù)據(jù)治理環(huán)境,平衡數(shù)據(jù)要素安全和發(fā)展的辯證關(guān)系,從而進(jìn)一步推動數(shù)據(jù)要素的開發(fā)利用,推進(jìn)多層次數(shù)據(jù)要素市場建設(shè),促進(jìn)數(shù)據(jù)要素、數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)的深度融合。 人工智能發(fā)展對數(shù)據(jù)供給提出更高要求 2023年,以ChatGPT等為代表的AIGC技術(shù)應(yīng)用火遍全球,大模型技術(shù)取得的突破使人工智能技術(shù)發(fā)生了深刻的變革,而這個突破離不開高質(zhì)量數(shù)據(jù)的發(fā)展??梢哉f,數(shù)據(jù)已成為未來人工智能競爭的關(guān)鍵要素,人工智能正在從“以模型為中心”加速向“以數(shù)據(jù)為中心”轉(zhuǎn)變。 人工智能發(fā)展驅(qū)動數(shù)據(jù)要素市場需求爆發(fā)。伴隨著大模型時代的到來,通用人工智能(AGI)產(chǎn)業(yè)正迎來爆發(fā)期,更加需要大規(guī)模、高質(zhì)量、多樣化的數(shù)據(jù)集提升模型效果和泛化能力。大模型訓(xùn)練使用的數(shù)據(jù)集規(guī)模持續(xù)增長,例如根據(jù)公開資料顯示,2018年GPT-1數(shù)據(jù)集約4.6GB,2020年GPT-3數(shù)據(jù)集達(dá)到了753GB,而2021年Gopher數(shù)據(jù)集已達(dá)10550GB,2023年GPT-4的數(shù)據(jù)量更是GPT-3的數(shù)十倍以上。 當(dāng)前,主流大模型預(yù)訓(xùn)練數(shù)據(jù)主要來源于公開數(shù)據(jù)集、合作數(shù)據(jù)分享、大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)以及通過數(shù)據(jù)眾包方式獲取的數(shù)據(jù)。然而,我國人工智能領(lǐng)域高質(zhì)量數(shù)據(jù)集缺乏、數(shù)據(jù)供給的產(chǎn)業(yè)生態(tài)不健全、企業(yè)數(shù)據(jù)資源獲取成本高等問題依然嚴(yán)峻。一是國內(nèi)人工智能領(lǐng)域高質(zhì)量數(shù)據(jù)集缺乏。雖然我國已有部分中文開源數(shù)據(jù)集,但在數(shù)量上遠(yuǎn)遠(yuǎn)少于國際英文公開數(shù)據(jù)集,在數(shù)據(jù)質(zhì)量方面參差不齊、部分內(nèi)容十分陳舊。由于高質(zhì)量數(shù)據(jù)集的缺乏,部分國產(chǎn)大模型采用“英文數(shù)據(jù)集+翻譯軟件”的方式生成中文語料庫,導(dǎo)致訓(xùn)練結(jié)果出現(xiàn)巨大的文化沖突。二是人工智能領(lǐng)域數(shù)據(jù)供給的產(chǎn)業(yè)生態(tài)不健全。由于國內(nèi)數(shù)據(jù)要素市場發(fā)展尚處于初級階段,數(shù)據(jù)流通規(guī)則和數(shù)據(jù)
|
|