深圳南财多媒体有限公司介绍

每日熱文:谷歌更新隱私政策,大模型“諸神之戰”背后的訓練數據隱憂
2023-07-05 20:56:54 來源:21世紀經濟報道 編輯:

21世紀經濟報道記者王俊 南方財經全媒體記者馮戀閣 實習生羅洛 北京、廣州報道“我們可能會收集公開的在線信息或來自其他公共來源的信息,幫助訓練Google的人工智能模型。”近日,谷歌更新隱私政策,表示將利用網絡公開數據訓練旗下的AI模型,相關條款已于7月1日生效。

谷歌的這一動作引發爭議,單方面通知用戶的行為是否合法合規?此舉又是否有“囤數據”之嫌?

此前,Twitter和社交網站Reddit已經采取措施,限制第三方對其API的訪問。國外科技公司的一系列舉措背后,可能是大模型發展路上一個不可忽視的真相:訓練數據的重要性愈發顯現。隨著大模型產業的快速發展,出于市場競爭的需要,模型規模將快速膨脹,但同時可用于訓練的數據供給相對不足,且未來日趨稀缺。


(相關資料圖)

未來,數據或將成為AI發展的“兵家必爭之地”。

“囤數據”訓練AI模型

近日,谷歌更新隱私政策,表示將利用網絡公開數據訓練旗下的AI模型。在隱私協議的“可公開獲取的資源”一欄,谷歌提到:“我們可能會收集公開的在線信息或來自其他公共來源的信息,幫助訓練Google的人工智能模型。”該大模型將會為谷歌翻譯、谷歌旗下聊天機器人產品“Bard”及Cloud AI等產品和功能提供助力。

對比去年年底發布的上一版隱私政策,谷歌將“收集信息以幫助訓練語言模型”的相關措辭更改為“訓練人工智能模型”,并新增明確了自家AI產品對于數據的使用權利。這似乎意味著,谷歌在訓練旗下聊天機器人及其他AI模型,或未來開發AI產品的過程中,有權使用人們在網上公開發布的任意內容。

南方財經全媒體記者在檢索后發現,7月5日,谷歌中文版隱私政策也已經進行同步更新。

在競天公誠律師事務所合伙人袁立志看來,此次谷歌隱私政策的更新從實踐角度看不算重大變化。“無論在我國還是域外,對公開數據的正常收集和使用,在一般情況下不算違法。”不過他補充道,如果個人通過發送郵件等方式向信息處理者就相關使用表露明確拒絕,對其個人信息的收集和使用就應當停止。

北京大成律師事務所高級合伙人鄧志松也表示,就目前可獲得的信息而言,谷歌對收集與處理用戶個人信息的范圍和目的作出了詳細說明,即使以歐盟GDPR項下更為嚴格的“告知-同意”規則為標準,谷歌的這一收集與處理行為至少在形式上具有合法性。至于其實施過程中可能涉及的實質合法性判斷,及由此可能對AI等行業產生的影響,則尚待進一步觀察。

雖然此次更新并未對個人信息保護帶來影響,但暗藏背后的數據隱憂卻逐漸被公眾注意到。

“得數據者得天下”

數據是數字經濟時代的“新石油”,處在時代中的人工智能技術亦受其影響。

以OpenAI的幾代GPT模型為例,訓練數據上,GPT-1預訓練數據量僅有5GB;到了GPT-2,這個數據則增加至40GB;而在GPT3模型下,OpenAI用以訓練模型的數據集數據量達到了驚人的45TB。

“大模型時代,得數據者得天下。”對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣指出,一方面,訓練數據是大模型訓練的基石和燃料,如果沒有數據,大模型的訓練就無法開展和持續;另一方面,當前技術領域的研究顯示,各家大模型在算法層區別并不大,并且具有同質化的趨勢。在此背景下,訓練數據就成了真正區分且影響大模型性能的重要因素之一。

需求漸長,供給端卻并未馬上配合。目前,有多家處在“數據提供端”的公司對數據抓取、開源等做出了反應。比如Twitter限制了用戶每天能查看的推文數量,幾乎使數據提供服務無法使用。馬斯克表示,這是對“數據抓取”和“系統操縱”的必要反應。

今年1月,圖庫網站Getty Images對AI圖像生成器研發公司Stability AI提起法律訴訟,指其非法復制和處理版權圖像作為模型訓練數據。4月,環球音樂集團發函要求Spotify等音樂流媒體平臺切斷AI公司的訪問權限,以阻止其版權歌曲被用于訓練模型和生成音樂。

同樣在4月,Reddit官方宣布將對調用其API的公司收費,原因正是OpenAI、谷歌等公司利用該平臺上的數據訓練模型。此外,IT技術問答網站Stack Overflow也計劃向AI大模型的開發者及公司收取數據訪問費用。

6月,中文在線、同方知網與中國工人出版社等國內25家文化出版機構發出共同倡議,強調“為人工智能學習模型提供可靠、穩定、安全的內容來源”等AIGC版權保護問題的重要性。

科技公司的系列動作,一定程度反映了數據的重要性。

在7月2日全球數字經濟大會人工智能高峰論壇上,昆侖萬維科技股份有限公司CEO方漢表示,高質量數據對大模型發展至關重要。

“坦白地講,最近三年的大模型訓練積累的是對豐富的預訓練數據深度加工的能力。OpenAI所有公開的論文和講演,對訓練過程和訓練算法都是公開的,但其從不公開模型結構及數據處理。”方漢指出,目前全世界大模型預訓練團隊都試圖重現OpenAI在模型架構的動作以及預訓練數據的動作,任何一家企業的預訓練數據加工能力都至關重要。

數據稀缺、分散難題何解?

數據的重要性不言而喻,高質量數據更是稀缺品。

早在去年,一項來自Epoch Al Research團隊的研究就揭示了一個殘酷的事實:模型還要繼續做大,但數據卻不夠用了。研究結果表明,高質量的語言數據存量將在2026年耗盡,低質量的語言數據和圖像數據的存量則分別在2030年至2050年、2030年至2060年枯竭。

這意味著如果數據效率沒有顯著提高或沒有新的數據源可用,那么到2040年,模型的規模增長將放緩。

百舸爭流是市場競爭的常態,但過分競爭也有可能為行業帶來災難。限制數據抓取,很可能導致新一輪的數據大戰,進而引發平臺之間屏蔽、數據壟斷等問題。

國際標準化組織TC/154技術專家王翔指出,大模型的蓬勃發展對訓練數據提出了很高的數量和質量要求。在供給側,人口增速、用網時間下降、制度性地理約束提高、高質量數據匱乏等都在制約大模型未來發展,SOP化和轉發習慣也降低了供給能力;在需求側,無論是主觀治理思路還是客觀基礎設施條件,以及大型語言模型所有者應對市場的考量,都會持續強化數據壟斷。

此外,大模型訓練中,面對的高質量數據的稀缺、行業數據分散等問題應如何解決?

受訪專家指出,未來健康的生態需要市場側和監管側等多方的共同建設維護。

“首先還是需要相信市場的力量”,袁立志指出,隨著優質數據的需求逐漸顯現,各個市場主體都會被“無形的手”推動向前。“數據資源的尋找、匯聚、清洗、標注等各個環節預計都會因競爭的活躍而不斷改善,以滿足市場需求。”他表示。

張欣則具體指出,目前行業內的開源數據集正在不斷增多,未來應呼吁更多人工智能企業、從業者加入,建立更加良好的行業生態。“人工智能訓練時的眾包思路也非常重要。”她認為,企業之外,還可以善用技術社群的力量提升并開拓更多的高質量數據集。

而監管側,在張欣看來,從法律法規層面明確訓練數據集的合法性獲取路徑是監管下一步應當關注的重點。“只有明確了合法獲取的路徑,大模型訓練者才有更穩定的合規預期以開展工作。”

袁立志認為,監管側數據要素市場的建設深入會為大模型領域的發展帶來良性影響。“數據要素市場建設走深意味著數據流通利用全流程提速提效,自然也惠及大模型的訓練數據收集。”

關鍵詞:

相關閱讀
分享到:
版權和免責申明

凡注有"環球傳媒網 - 環球資訊網 - 環球生活門戶"或電頭為"環球傳媒網 - 環球資訊網 - 環球生活門戶"的稿件,均為環球傳媒網 - 環球資訊網 - 環球生活門戶獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網 - 環球資訊網 - 環球生活門戶",并保留"環球傳媒網 - 環球資訊網 - 環球生活門戶"的電頭。

主站蜘蛛池模板: 双齿辊破碎机-大型狼牙破碎机视频-对辊破碎机价格/型号图片-金联机械设备生产厂家 | 液压油缸生产厂家-山东液压站-济南捷兴液压机电设备有限公司 | 六维力传感器_三维力传感器_二维力传感器-南京神源生智能科技有限公司 | 安徽泰科检测科技有限公司【官方网站】 | 昆明化妆培训-纹绣美甲-美容美牙培训-昆明博澜培训学校 | 20年条刷老厂-条刷-抛光-工业毛刷辊-惠众毛刷| 空气能暖气片,暖气片厂家,山东暖气片,临沂暖气片-临沂永超暖通设备有限公司 | 活性炭厂家-蜂窝活性炭-粉状/柱状/果壳/椰壳活性炭-大千净化-活性炭 | 快速卷帘门_硬质快速卷帘门-西朗门业 | C形臂_动态平板DR_动态平板胃肠机生产厂家制造商-普爱医疗 | 珠海冷却塔降噪维修_冷却塔改造报价_凉水塔风机维修厂家- 广东康明节能空调有限公司 | NMRV减速机|铝合金减速机|蜗轮蜗杆减速机|NMRV减速机厂家-东莞市台机减速机有限公司 | 洁净实验室工程-成都手术室净化-无尘车间装修-四川华锐净化公司-洁净室专业厂家 | 安全光栅|射频导纳物位开关|音叉料位计|雷达液位计|两级跑偏开关|双向拉绳开关-山东卓信机械有限公司 | X光检测仪_食品金属异物检测机_X射线检测设备_微现检测 | 缝纫客| 宏源科技-房地产售楼系统|线上开盘系统|售楼管理系统|线上开盘软件 | 磁棒电感生产厂家-电感器厂家-电感定制-贴片功率电感供应商-棒形电感生产厂家-苏州谷景电子有限公司 | 油漆辅料厂家_阴阳脚线_艺术漆厂家_内外墙涂料施工_乳胶漆专用防霉腻子粉_轻质粉刷石膏-魔法涂涂 | 桂林腻子粉_内墙外墙抗裂砂浆腻子粉推荐广西鑫达涂料厂家供应 | 铝箔-铝板-花纹铝板-铝型材-铝棒管-上海百亚金属材料有限公司 | 万师讲师网-优质讲师培训师供应商,讲师认证,找讲师来万师 | 培训无忧网-教育培训咨询招生第三方平台| 济南玻璃安装_济南玻璃门_济南感应门_济南玻璃隔断_济南玻璃门维修_济南镜片安装_济南肯德基门_济南高隔间-济南凯轩鹏宇玻璃有限公司 | 蓄电池在线监测系统|SF6在线监控泄露报警系统-武汉中电通电力设备有限公司 | 保温杯,儿童婴童奶瓶,运动水壶「广告礼品杯定制厂家」超朗保温杯壶 | 全钢实验台,实验室工作台厂家-无锡市辰之航装饰材料有限公司 | 深圳市索富通实业有限公司-可燃气体报警器 | 可燃气体探测器 | 气体检测仪 | 炭黑吸油计_测试仪,单颗粒子硬度仪_ASTM标准炭黑自销-上海贺纳斯仪器仪表有限公司(HITEC中国办事处) | 定制/定做冲锋衣厂家/公司-订做/订制冲锋衣价格/费用-北京圣达信 | 鲁尔圆锥接头多功能测试仪-留置针测试仪-上海威夏环保科技有限公司 | 整车VOC采样环境舱-甲醛VOC预处理舱-多舱法VOC检测环境仓-上海科绿特科技仪器有限公司 | 列管冷凝器,刮板蒸发器,外盘管反应釜厂家-无锡曼旺化工设备有限公司 | 高光谱相机-近红外高光谱相机厂家-高光谱成像仪-SINESPEC 赛斯拜克 | 汽车水泵_汽车水泵厂家-瑞安市骏迪汽车配件有限公司 | 医用酒精_84消毒液_碘伏消毒液等医用消毒液-漓峰消毒官网 | 微妙网,专业的动画师、特效师、CG模型设计师网站! - wmiao.com 超声波电磁流量计-液位计-孔板流量计-料位计-江苏信仪自动化仪表有限公司 | 老房子翻新装修,旧房墙面翻新,房屋防水补漏,厨房卫生间改造,室内装潢装修公司 - 一修房屋快修官网 | 上海三信|ph计|酸度计|电导率仪-艾科仪器 | 洁净实验室工程-成都手术室净化-无尘车间装修-四川华锐净化公司-洁净室专业厂家 | 预制围墙_工程预制围墙_天津市瑞通建筑材料有限公司 |