深圳南财多媒体有限公司介绍

AI發展:訓練數據即將遭遇瓶頸

來源:科技日報時間:2024-12-31 19:12:21
得益于神經網絡規模的擴大以及海量數據的訓練,人工智能(AI)在過去10年間突飛猛進。“做大做強”的策略,在構建大型語言模型(LLM)上取得了顯著成果,ChatGPT就是一個典型的例子。

然而,《自然》《麻省理工科技評論》等多家雜志網站指出,AI擴展正逼近極限。一方面,AI“吞噬”著越來越多的能源;另一方面,滋養無數模型成長的傳統數據集,正被LLM開發人員過度開墾。

AI幾乎讀取了互聯網上的所有內容,但仍渴望獲得更多數據。為此,開發人員必須尋找變通之道。

圖片來源:twistedsifter.com

訓練數據即將遭遇的瓶頸已悄然浮現。有研究機構預測,到2028年左右,用于訓練AI模型的數據集典型規模將達到公共在線文本總估計量的規模。換句話說,AI可能會在大約4年內耗盡訓練數據。與此同時,數據所有者(如報紙出版商)開始打擊對其內容的濫用行為,進一步收緊了訪問權限,這將引發“數據共享”規模上的危機。為此,開發人員必須尋找變通之道。

 數據集供需失衡

過去10年間,LLM的發展顯示出了對數據的巨大需求。自2020年以來,用于訓練LLM的“標記”(或單詞)數量已增長100倍,從數百億增加到數萬億。一個常見的數據集RedPajama,包含數萬億個單詞。這些數據會被一些公司或研究人員抓取和清洗,成為訓練LLM的定制數據集。

然而,可用互聯網內容的增長速度出乎意料的緩慢。據估計,其年增長率不到10%,而AI訓練數據集的大小每年增長超過一倍。預測顯示,這兩條曲線將在2028年左右交匯。

與此同時,內容供應商越來越多地加入軟件代碼或修改條款,阻止爬蟲及AI抓取其數據。在這些內容中,被明確標記為限制爬蟲訪問的數量,從2023年的不足3%猛增到了2024年的20%至33%之間。

當前,圍繞AI訓練中數據使用的合法性,試圖為數據提供商爭取應有賠償的多起訴訟正在進行。2023年12月,《紐約時報》向OpenAI及其合作伙伴微軟提起了訴訟,指控其侵犯了版權;今年4月,紐約市Alden全球資本旗下的8家報紙聯合發起了一起類似的訴訟。對此,OpenAI表示,《紐約時報》的訴訟“毫無根據”。

若法院最終站在內容提供商一方,支持其獲得經濟賠償,那么對于AI開發人員,尤其是那些資金緊張的學者而言,獲取所需數據無疑將變得更加艱難。

新方法有待印證

數據匱乏對AI的傳統擴展策略構成了潛在挑戰。

尋找更多數據的一個途徑是收集非公開數據,如社交媒體消息或視頻文字記錄。然而,這種做法的合法性尚存爭議。

一些公司選擇使用自己的數據來訓練AI模型,如Meta利用虛擬現實頭顯收集的音頻和圖像進行訓練。但各公司政策不同,包括Zoom在內的一些公司則明確表示不會使用客戶內容訓練AI。

另一種選擇可能是專注于快速增長的專業數據集,如天文學或基因組學數據,但其對訓練LLM的可用性和實用性尚不清楚。

如果AI接受除文本之外的多種類型的數據訓練,可能會為豐富數據的涌入打開閘門。Meta首席AI科學家勒丘恩強調,人類通過觀察物體而“吸收”的數據遠超用于訓練LLM的數據量,機器人形態的AI系統或許能從中獲取經驗。

此外,制造數據也是解決之道。一些AI公司付費讓人們生成訓練內容,或使用AI生成的合成數據來訓練AI。這已成為一個潛在的巨大數據源。然而,合成數據也存在問題,如遞歸循環可能鞏固錯誤、放大誤解,并降低學習質量。

小模型更專更精

另一種策略是摒棄模型“越大越好”的開發觀念。一些開發者已在追求更高效、專注于單一任務的小型語言模型。這些模型需要更精細、更專業的數據以及更好的訓練技術。

12月5日,OpenAI發布了新的OpenAI o1模型。盡管該公司未透露模型的規模或訓練數據集大小,但o1采用了新方法:在強化學習上投入更多時間,讓模型對每個回答進行更深入的思考。這標志著一種轉變,即從依賴大規模數據集進行預訓練,轉向更注重訓練和推理。

當前,LLM可能已飽覽互聯網大部分內容,或許無需更多數據即可變得更智能。美國斯坦福大學一項研究表明,模型從多次讀取給定數據集中學到的內容,與從相同數量的唯一數據中學習到的內容一樣豐富。

合成數據、專門數據集、多次讀取和自我反思等因素的結合,或將共同推動AI的進一步飛躍。

責任編輯:FD31
上一篇:國家發改委成立低空經濟發展司
下一篇:最后一頁

    關于我們 加入我們 聯系我們 商務合作

茶葉前線  www.cyqxw.com.cn 版權所有

 

投稿投訴聯系郵箱:8 8 6 2 3 9 5@qq.com


 

主站蜘蛛池模板: 软启动器-上海能曼电气有限公司 真空搅拌机-行星搅拌机-双行星动力混合机-广州市番禺区源创化工设备厂 | 线粒体膜电位荧光探针-细胞膜-标记二抗-上海复申生物科技有限公司 | 吲哚菁绿衍生物-酶底物法大肠菌群检测试剂-北京和信同通科技发展有限公司 | 软文发布平台 - 云软媒网络软文直编发布营销推广平台 | 仿古建筑设计-仿古建筑施工-仿古建筑公司-汉匠古建筑设计院 | 煤机配件厂家_刮板机配件_链轮轴组_河南双志机械设备有限公司 | 水冷式工业冷水机组_风冷式工业冷水机_水冷螺杆冷冻机组-深圳市普威机械设备有限公司 | 精密模具制造,注塑加工,吹塑和吹瓶加工,EPS泡沫包装生产 - 济南兴田塑胶有限公司 | 不干胶标签,不干胶标签纸_厂家-山东同力胶粘制品 | 上海律师咨询_上海法律在线咨询免费_找对口律师上策法网-策法网 广东高华家具-公寓床|学生宿舍双层铁床厂家【质保十年】 | 顺辉瓷砖-大国品牌-中国顺辉| 硅PU球场、篮球场地面施工「水性、环保、弹性」硅PU材料生产厂家-广东中星体育公司 | 阁楼货架_阁楼平台_仓库仓储设备_重型货架_广州金铁牛货架厂 | 杭州代理记账费用-公司注销需要多久-公司变更监事_杭州福道财务管理咨询有限公司 | 太平洋亲子网_健康育儿 品质生活 | 二氧化碳/活性炭投加系统,次氯酸钠发生器,紫外线消毒设备|广州新奥 | 耐火浇注料-喷涂料-浇注料生产厂家_郑州市元领耐火材料有限公司 耐力板-PC阳光板-PC板-PC耐力板 - 嘉兴赢创实业有限公司 | SPC工作站-连杆综合检具-表盘气动量仪-内孔缺陷检测仪-杭州朗多检测仪器有限公司 | 蚂蚁分类信息系统 - PHP同城分类信息系统 - MayiCMS | 袋式过滤器,自清洗过滤器,保安过滤器,篮式过滤器,气体过滤器,全自动过滤器,反冲洗过滤器,管道过滤器,无锡驰业环保科技有限公司 | 超细|超微气流粉碎机|气流磨|气流分级机|粉体改性机|磨粉机|粉碎设备-山东埃尔派粉体科技 | 安规_综合测试仪,电器安全性能综合测试仪,低压母线槽安规综合测试仪-青岛合众电子有限公司 | 电伴热系统施工_仪表电伴热保温箱厂家_沃安电伴热管缆工业技术(济南)有限公司 | 皮带机-带式输送机价格-固定式胶带机生产厂家-河南坤威机械 | 贵州科比特-防雷公司厂家提供贵州防雷工程,防雷检测,防雷接地,防雷设备价格,防雷产品报价服务-贵州防雷检测公司 | 304不锈钢无缝管_不锈钢管厂家 - 隆达钢业集团有限公司 | sfp光模块,高速万兆光模块工厂-性价比更高的光纤模块制造商-武汉恒泰通 | 喷涂流水线,涂装流水线,喷漆流水线-山东天意设备科技有限公司 | 磁力轮,磁力联轴器,磁齿轮,钕铁硼磁铁-北京磁运达厂家 | 浙江富广阀门有限公司| 天津热油泵_管道泵_天津高温热油泵-天津市金丰泰机械泵业有限公司【官方网站】 | 自动检重秤-动态称重机-重量分选秤-苏州金钻称重设备系统开发有限公司 | 热回收盐水机组-反应釜冷水机组-高低温冷水机组-北京蓝海神骏科技有限公司 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 飞飞影视_热门电影在线观看_影视大全 | 土壤有机碳消解器-石油|表层油类分析采水器-青岛溯源环保设备有限公司 | 成都珞石机械 - 模温机、油温机、油加热器生产厂家 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 科普仪器菏泽市教育教学仪器总厂| 运动木地板厂家_体育木地板安装_篮球木地板选购_实木运动地板价格 | 沈阳激光机-沈阳喷码机-沈阳光纤激光打标机-沈阳co2激光打标机 |