深圳南财多媒体有限公司介绍

OpenAI最新模型o3展現強大推理能力
2024-12-26 13:02:03 來源:科技日報 編輯:
12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱,o3具備更先進、近似人類的推理能力,在代碼編寫、數學競賽和掌握人類博士級別的科學知識等方面,均超越了其“前輩”o1。

不過,英國《新科學家》網站在12月22日的報道中指出,盡管o3“實現了令人矚目的性能飛躍”,但仍未達到業內翹首以盼的通用AI(AGI)水平。

多方面表現出色

OpenAI公司透露,在解決更復雜的多步驟問題時,o3模型會花更多時間計算答案,然后再給出回應。這一推理能力的提升,使o3在多項測試中表現出色。

大型語言模型熱衷于在各種數學基準測試上瘋狂“刷分”,o3也不例外。在2024年美國數學邀請賽中,o3模型的準確率高達96.7%,僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。

Frontier Math測試難度極大,曾被華裔數學家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而,o3只需思考幾分鐘便能解答其中一道題目,而人類數學家則要花費數小時到數天。

在對科學知識的掌握方面,o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現,涵蓋化學、物理和生物學方面的專業知識)基準測試中,o3的準確率達到87.7%,超過了人類博士的70%,也比之前o1表現高近10%。

此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上,o3的準確率約為71.7%,比o1高20%以上。在Codeforces編碼競賽平臺中,o3的得分為2727,相當于榜單上第175名人類編程員的水平,而o1得分僅為1891。

在展示了o3取得的這些傲人成績后,OpenAI首席執行官奧爾特曼強調,o3的出現標志著AI進入了下一個發展階段,這些模型可處理需要大量推理的復雜任務。

與人類智能仍有差異

《新科學家》網站還報道,在被視為AGI重要衡量標準的抽象與推理語料庫-AGI(ARC-AGI)大賽中,o3模型也創下新紀錄:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴格的算力限制,在該算力限制下,o3的挑戰以失敗告終。

不過,在超出官方算力限制172倍的高算力下,o3采用“蠻力”取得了87.5%的成績,達到了代表人類水平的85%門檻。

對于o3的表現,谷歌前工程師、ARC-AGI主要創建者弗朗索瓦·肖萊在博客中寫道,這是AI能力的一次驚人且重要的躍升。但o3尚未實現AGI,因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題,這表明其與人類智能存在根本差異。

AGI是一個假想中的未來系統,它能夠模仿人類思維、決策,擁有自我意識,并能自主行動。然而,AGI目前主要活躍在科幻作品中,尚未走進現實。

升級迭代并非易事

o3不僅是OpenAI公司的最新力作,也是AI巨頭競逐大型語言模型的生動寫照。

兩年前,OpenAI發布了ChatGPT,由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準確、更具創造性的GPT-4,再到o1,直至o3,OpenAI在不斷精進自家產品。

其他頂級AI開發商也在利用日益先進的技術,推動自家產品迭代升級。此前不久,谷歌推出了其旗艦模型“雙子座”(Gemini)的新版本,據稱其速度是上一代的兩倍,并且能夠“思考、記憶、規劃,甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。

然而,迭代之路并非坦途。包括OpenAI和谷歌在內的幾家領軍企業,正面臨新模型開發耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發工作進展緩慢。據悉,僅6個月的訓練,單計算成本就高達約5億美元,而性能僅比該公司現有產品略勝一籌。

關鍵詞:

相關閱讀
分享到:
版權和免責申明

凡注有"環球傳媒網 - 環球資訊網 - 環球生活門戶"或電頭為"環球傳媒網 - 環球資訊網 - 環球生活門戶"的稿件,均為環球傳媒網 - 環球資訊網 - 環球生活門戶獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網 - 環球資訊網 - 環球生活門戶",并保留"環球傳媒網 - 環球資訊網 - 環球生活門戶"的電頭。

主站蜘蛛池模板: 拉力机-拉力试验机-万能试验机-电子拉力机-拉伸试验机-剥离强度试验机-苏州皖仪实验仪器有限公司 | 山东艾德实业有限公司 | ORP控制器_ORP电极价格-上优泰百科| 网带通过式抛丸机,,网带式打砂机,吊钩式,抛丸机,中山抛丸机生产厂家,江门抛丸机,佛山吊钩式,东莞抛丸机,中山市泰达自动化设备有限公司 | 地图标注-手机导航电子地图如何标注-房地产商场地图标记【DiTuBiaoZhu.net】 | 熔体泵_熔体出料泵_高温熔体泵-郑州海科熔体泵有限公司 | 活性炭-蜂窝-椰壳-柱状-粉状活性炭-河南唐达净水材料有限公司 | IHDW_TOSOKU_NEMICON_EHDW系列电子手轮,HC1系列电子手轮-上海莆林电子设备有限公司 | 废气处理_废气处理设备_工业废气处理_江苏龙泰环保设备制造有限公司 | 黑龙江京科脑康医院-哈尔滨精神病医院哪家好_哈尔滨精神科医院排名_黑龙江精神心理病专科医院 | 棕刚玉_白刚玉_铝酸钙-锐石新材料 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 智能楼宇-楼宇自控系统-楼宇智能化-楼宇自动化-三水智能化 | 北京亦庄厂房出租_经开区产业园招商信息平台 | 云阳人才网_云阳招聘网_云阳人才市场_云阳人事人才网_云阳人家招聘网_云阳最新招聘信息 | 右手官网|右手工业设计|外观设计公司|工业设计公司|产品创新设计|医疗产品结构设计|EMC产品结构设计 | 脱硫搅拌器厂家-淄博友胜不锈钢搅拌器厂家 | 高空重型升降平台_高空液压举升平台_高空作业平台_移动式升降机-河南华鹰机械设备有限公司 | 成人纸尿裤,成人尿不湿,成人护理垫-山东康舜日用品有限公司 | 重庆中专|职高|技校招生-重庆中专招生网| 骁龙云呼电销防封号系统-axb电销平台-外呼稳定『免费试用』 | 纸箱抗压机,拉力机,脂肪测定仪,定氮仪-山东德瑞克仪器有限公司 | 办公室家具_板式办公家具定制厂家-FMARTS福玛仕办公家具 | 玻璃瓶厂家_酱菜瓶厂家_饮料瓶厂家_酒瓶厂家_玻璃杯厂家_徐州东明玻璃制品有限公司 | 心得体会网_心得体会格式范文模板 | 北京中航时代-耐电压击穿试验仪厂家-电压击穿试验机 | 撕碎机,撕破机,双轴破碎机-大件垃圾破碎机厂家 | 天津拓展_天津团建_天津趣味运动会_天津活动策划公司-天津华天拓展培训中心 | 江苏全风,高压风机,全风环保风机,全风环形高压风机,防爆高压风机厂家-江苏全风环保科技有限公司(官网) | MTK核心板|MTK开发板|MTK模块|4G核心板|4G模块|5G核心板|5G模块|安卓核心板|安卓模块|高通核心板-深圳市新移科技有限公司 | 中原网视台| 设定时间记录电子秤-自动累计储存电子秤-昆山巨天仪器设备有限公司 | 杭州|上海贴标机-百科 | PE一体化污水处理设备_地埋式生活污水净化槽定制厂家-岩康塑业 | 高空重型升降平台_高空液压举升平台_高空作业平台_移动式升降机-河南华鹰机械设备有限公司 | 食药成分检测_调料配方还原_洗涤剂化学成分分析_饲料_百检信息科技有限公司 | 空气能采暖,热泵烘干机,空气源热水机组|设备|厂家,东莞高温热泵_正旭新能源 | 工控机,嵌入式主板,工业主板,arm主板,图像采集卡,poe网卡,朗锐智科 | 山东石英砂过滤器,除氟过滤器「价格低」-淄博胜达水处理 | 体检车_移动CT车_CT检查车_CT车_深圳市艾克瑞电气有限公司移动CT体检车厂家-深圳市艾克瑞电气有限公司 | 能耗监测系统-节能监测系统-能源管理系统-三水智能化 |