国产猛烈尖叫高潮视频免费,久久狠狠中文字幕,国内精品视这里只有精品,亚洲无码一区精品视频

<var id="al248"><td id="al248"></td></var>

<table id="al248"><acronym id="al248"><bdo id="al248"></bdo></acronym></table>

<u id="al248"><p id="al248"></p></u>

<progress id="al248"><p id="al248"><thead id="al248"></thead></p></progress>

<var id="al248"><td id="al248"></td></var>

<table id="al248"><acronym id="al248"><bdo id="al248"></bdo></acronym></table>

<u id="al248"><p id="al248"></p></u>

<progress id="al248"><p id="al248"><thead id="al248"></thead></p></progress>

<th id="9fnx8"></th>

中國西藏網(wǎng) > 即時(shí)新聞 > 時(shí)政

大模型發(fā)展亟需高質(zhì)量“教材”相伴

發(fā)布時(shí)間：2024-01-19 10:29:00來源：科技日?qǐng)?bào)

　　科技日?qǐng)?bào)記者羅云鵬

　　1月5日，美國人工智能公司OpenAI表示，正在與數(shù)十家出版商洽談達(dá)成文章授權(quán)協(xié)議，以獲取內(nèi)容來訓(xùn)練其人工智能模型。2023年12月27日，《紐約時(shí)報(bào)》起訴OpenAI和微軟公司，指控這兩家公司未經(jīng)許可使用其數(shù)百萬篇文章訓(xùn)練人工智能模型。而早在2023年3月，就有消息顯示谷歌Bard模型的部分訓(xùn)練數(shù)據(jù)來源于ChatGPT。

　　這些事件劍指同一個(gè)問題——大模型高質(zhì)量語料短缺?！皩?duì)于從頭開始訓(xùn)練的模型，語料短缺會(huì)在非常大的程度上限制大模型發(fā)展。”近日，哈爾濱工業(yè)大學(xué)（深圳）計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授邵睿在接受科技日?qǐng)?bào)記者采訪時(shí)說：“增加語料對(duì)于提升大模型能力的邊際效益正在減弱，高質(zhì)量語料的缺乏正日益成為限制大模型發(fā)展的瓶頸?！?/p>

　　大模型訓(xùn)練語料短缺問題嚴(yán)重

　　科技部新一代人工智能發(fā)展研究中心2023年發(fā)布的《中國人工智能大模型地圖研究報(bào)告》顯示，從全球已發(fā)布的大模型數(shù)量來看，中國和美國大幅領(lǐng)先，占全球總數(shù)的80%以上。

　　雖然大模型發(fā)展如火如荼，但大模型高質(zhì)量語料短缺已成為全球共性問題。公開資料顯示，大模型對(duì)數(shù)據(jù)供給要求極高。比如，訓(xùn)練GPT-4和Gemini Ultra大概需要4萬億至8萬億個(gè)單詞。麻省理工學(xué)院等高校研究人員預(yù)測(cè)，到2026年之前，機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)耗盡所有可用的高質(zhì)量語料數(shù)據(jù)。研究機(jī)構(gòu)EpochAI亦公開表示，最早在2024年，人類就可能會(huì)陷入訓(xùn)練數(shù)據(jù)荒，屆時(shí)全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭。OpenAI也公開表達(dá)過對(duì)數(shù)據(jù)告急的擔(dān)憂。

　　值得注意的是，當(dāng)前大模型數(shù)據(jù)集主要為英文。中文語料面臨的短缺問題更加嚴(yán)峻。

　　中國工程院院士、鵬城實(shí)驗(yàn)室主任高文曾公開表示，全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里，中文語料占比僅為1.3%。

　　上海數(shù)據(jù)交易所市場(chǎng)發(fā)展部副總經(jīng)理章健此前公開表示，當(dāng)前大模型行業(yè)存在語料供應(yīng)不足的問題，特別是在垂直細(xì)分領(lǐng)域，一些共享、免費(fèi)下載的語料數(shù)量雖然大，質(zhì)量卻不高。“我們?cè)谧非笳Z料數(shù)量增長的同時(shí)，也要重視質(zhì)量?！闭陆≌f。

　　高質(zhì)量語料應(yīng)具備七大特征

　　那么，何為高質(zhì)量語料？記者采訪時(shí)，包括騰訊、商湯科技、哈爾濱工業(yè)大學(xué)（深圳）等企業(yè)和高校專業(yè)人士均給出一致答案：高質(zhì)量語料應(yīng)具備多樣性、大規(guī)模、合法性、真實(shí)性、連貫性、無偏見和無害等七大特征。

　　邵睿表示，高質(zhì)量語料應(yīng)具有多樣性高、句式流暢的特點(diǎn)。騰訊機(jī)器學(xué)習(xí)平臺(tái)算法負(fù)責(zé)人康戰(zhàn)輝認(rèn)為，語料的多樣性是保證語料質(zhì)量的基礎(chǔ)，要通過不同的途徑采集新聞、小說、詩歌、科技文章等不同類型的語料。這有助于大模型學(xué)習(xí)到更豐富的語言表達(dá)。

　　同時(shí)，高質(zhì)量語料要具有較大規(guī)模，因?yàn)榇竽Ｐ托枰罅空Z料來學(xué)習(xí)語言規(guī)律并提高泛化能力。只有擁有充足的語料，大模型才能更好地捕捉細(xì)微的語言特征。

　　此外，高質(zhì)量語料應(yīng)是合法且無害的。不合法或有害的語料可能導(dǎo)致模型產(chǎn)生不恰當(dāng)?shù)幕卮鸹蚪ㄗh，或無意中泄露他人隱私。

　　“高質(zhì)量語料還應(yīng)該具有真實(shí)性和連貫性，以便讓大模型更好地理解語境并生成符合邏輯的回答?！笨祽?zhàn)輝說，語料庫應(yīng)該充分反映語料的多樣性并避免偏見，這樣大模型在不同場(chǎng)景下回答不同用戶的問題時(shí)才能做到盡可能科學(xué)客觀。

　　完善相關(guān)機(jī)制提高語料質(zhì)量

　　記者在采訪中了解到，目前訓(xùn)練大模型的語料有一部分是從數(shù)據(jù)公司購買的，也有一部分是從網(wǎng)絡(luò)公開語料或者公開數(shù)據(jù)集中獲取并整理的。“從數(shù)據(jù)公司購買的語料質(zhì)量較高，并且大多是垂域數(shù)據(jù)，但其數(shù)據(jù)量較少且價(jià)格較貴?！鄙垲Ｕf，“網(wǎng)絡(luò)公開語料通用性較好，數(shù)據(jù)量大，但數(shù)據(jù)質(zhì)量無法保證，數(shù)據(jù)格式難以統(tǒng)一。”

　　“人類產(chǎn)生的有效信息，包括大量高價(jià)值信息可能不一定是互聯(lián)網(wǎng)數(shù)據(jù)，而是沉散在各行各業(yè)里的數(shù)據(jù)?！鄙虦萍及l(fā)言人說，“怎樣更多匯聚數(shù)據(jù)，設(shè)計(jì)更多、更好的網(wǎng)絡(luò)結(jié)構(gòu)，用更多的計(jì)算資源去支撐更大容量的高質(zhì)量語料，產(chǎn)生更強(qiáng)的智能，是一個(gè)至關(guān)重要的問題?！边@位發(fā)言人認(rèn)為，要解決語料問題，不僅要靠增加語料總量，還需要提高語料質(zhì)量，甚至要考慮完善數(shù)據(jù)交換機(jī)制，推動(dòng)人工智能數(shù)據(jù)基礎(chǔ)設(shè)施化。

　　正如這位發(fā)言人所說，目前業(yè)界正在采取一些措施，推動(dòng)數(shù)據(jù)交換機(jī)制的建設(shè)。記者梳理發(fā)現(xiàn)，2023年7月，深圳數(shù)據(jù)交易所聯(lián)合近50家單位成立開放算料聯(lián)盟。該聯(lián)盟將圍繞高質(zhì)量中文訓(xùn)練數(shù)據(jù)和多模態(tài)訓(xùn)練數(shù)據(jù)，協(xié)調(diào)數(shù)據(jù)要素、數(shù)據(jù)治理、訓(xùn)練數(shù)據(jù)、數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)等相關(guān)標(biāo)準(zhǔn)制定，協(xié)助數(shù)據(jù)交易所增加與大模型相關(guān)的新品類和新專區(qū)。

　　同樣是2023年7月，在2023世界人工智能大會(huì)現(xiàn)場(chǎng)，中國大模型語料數(shù)據(jù)聯(lián)盟成立。同年8月，上海人工智能實(shí)驗(yàn)室宣布，聯(lián)合中國大模型語料數(shù)據(jù)聯(lián)盟成員單位共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料。這次開源的數(shù)據(jù)總量超過2TB，包含超5億個(gè)文本、2200萬個(gè)圖文交錯(cuò)文檔、1000個(gè)影像視頻。

　　除了建設(shè)更為完善的體制機(jī)制，數(shù)據(jù)清洗等技術(shù)手段也能在一定程度上解決高質(zhì)量語料短缺難題。但要看到，這些技術(shù)手段有較高門檻。商湯科技發(fā)言人透露，該公司在數(shù)據(jù)清洗的過程中投入了上千塊GPU的算力。OpenAI在無數(shù)場(chǎng)合介紹過GPT-4訓(xùn)練的經(jīng)驗(yàn)，但從未公開過數(shù)據(jù)清洗的經(jīng)驗(yàn)。

（責(zé)編：李雨潼）

版權(quán)聲明：凡注明“來源：中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品，版權(quán)歸高原（北京）文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用，須注明來源中國西藏網(wǎng)和署著作者名，否則將追究相關(guān)法律責(zé)任。

相關(guān)閱讀

專題推薦

傲游截圖20180202095714.jpg

微觀

觀當(dāng)下

西藏貢嘎：絕美冰洞景觀最長高海拔公路隧道在西藏貫通為藏文古籍文獻(xiàn)的數(shù)字化做貢獻(xiàn) 世界最長超高海拔公路隧道全線貫通

賞閱

藏狐踏步獨(dú)行

霞光萬道 “冰清玉潔” 西藏色林錯(cuò)湖邊的藏羚羊西藏魯朗：雪落成詩景美情長西藏林周：鶴影流光

資料云

QQ截圖20200831163244.jpg

中央第七次西藏工作座談會(huì)

流淌的吉曲河——學(xué)歷史講拉薩雪域長歌新時(shí)代?邊疆行——西藏篇一江清水向東流

即時(shí)新聞

關(guān)于我們|信息聲明|糾錯(cuò)熱線|中國西藏網(wǎng)舉報(bào)受理和處置管理辦法

中國西藏網(wǎng)版權(quán)所有，未經(jīng)書面授權(quán)禁止使用

中國西藏信息中心主辦版權(quán)所有：高原(北京)文化傳播有限公司 Copyright ? 2000-2017 by zsif.cn All Rights Reserved E-mail: xizangzongbianshi@163.com

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：10120170010 違法和不良信息舉報(bào)電話：010-58336000 互聯(lián)網(wǎng)宗教信息服務(wù)許可證：京（2022）0000001

廣播電視節(jié)目制作經(jīng)營許可證（京）字第04446號(hào) 京ICP備 17049894號(hào)-2 京公網(wǎng)安備110102001709-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：

国产猛烈尖叫高潮视频免费,久久狠狠中文字幕,国内精品视这里只有精品,亚洲无码一区精品视频

<var id="al248"><td id="al248"></td></var>

<table id="al248"><acronym id="al248"><bdo id="al248"></bdo></acronym></table>

<u id="al248"><p id="al248"></p></u>

<progress id="al248"><p id="al248"><thead id="al248"></thead></p></progress>

<strike id="9lqkv"></strike>

<dfn id="9lqkv"><td id="9lqkv"></td></dfn>

<output id="9lqkv"></output>