当地时间周五,OpenAI在为期12个工作日的新品发布活动的最后一天展示了o1模型的下一代o3,并表示该模型有o3版本和精简版o3-mini。OpenAI CEO山姆·奥尔特曼(Sam Altman)强调了o3在推理、编码能力方面的提升,并表示o3模型不会立即推出股市中的杠杆资金,OpenAI会在1月底前正式推出o3 mini,并在之后推出完整版的o3。
山姆·奥尔特曼表示,o3是一个非常聪明的模型。OpenAI总裁Greg Brockman(格雷格·布鲁克曼)表示,公司最新的o3模型取得了突破,o3版本和o3-mini版本正在提供给研究人员进行安全测试。
据OpenAI介绍,公司将在确保新模型的可靠性和安全性后再提供给更广泛的用户使用,OpenAI强调了公司会专注于使AI系统与人类的价值观和社会利益保持一致。在命名方面,OpenAI之所以不起名o2而是起名o3,是因为有英国电信运营商名为O2。
OpenAI在今年9月已推出了o1模型,该模型可深思熟虑后回答问题,可处理需要复杂推理的任务。o1在国际数学奥林匹克竞赛(IMO)的资格考试中得分83%,对比之下,GPT-4o仅正确解决了13%的问题。在此基础上,据OpenAI评估,o3在软件工程、编写代码、掌握人类博士级别科学知识能力等方面强于o1。
据OpenAI给出的SWE-bench Verified代码生成评估基准,在软件工程的能力测评中,o3的准确度得分71.7,超过得分48.9的o1和41.3的o1 preview。在编程网站Codeforces的竞争性代码测评中,o3得分2727,对比之下,o1、o1 preview得分分别为1891和1258。在2024年AIME数学竞赛题目测试中,o3的准确度得分为96.7,超过o1和o1 preview的得分83.3和56.7。在衡量模型在博士级别科学问题上表现的GPQA Diamond测试中,o3得分87.7,超过o1的78和o1 preview的78.3。
而在以100%为最高分的ARC-AGI评估中,o1系列得分在8%~32%之间,o3最低得分75.7%、最高得分87.5%,表现明显好于o1系列。ARC-AGI是用来测试AI模型对困难数学和逻辑问题推理能力的基准测试。ARC Prize 基金会总裁Greg Kamradt表示,能成功击败ARC-AGI的AI系统将代表通往通用人工智能的重要里程碑。OpenAI表示,o3在ARC-AGI评估中获得了破纪录的分数,o3的最高分数也达到了代表人类水平的门槛85%,o3在某些条件下可以接近实现AGI(通用人工智能)。
成本上看,ARC Prize基金会创始人FrançoisChollet则在测试报告中表示,模型通用性需要付出高昂成本,o3 在低计算量模式下完成每个ARC-AGI任务需要 17~20 美元,高计算量模式下完成每个任务需要数千美元,模型的性价比在接下来的几个月和几年里将有所提高。
“目前,辽宁省贸促会已与拉美地区27个国家的72家经贸机构建立了友好联络交往,并依托这些在拉美的伙伴关系渠道,持续促进辽宁省与拉美的贸易与投资往来。”庞宝国称,希望通过此次出访,与广大拉美国家的贸易投资促进机构和商协会进一步拓展交往、深化合作,进一步推动辽宁省与拉美地区经贸交流与创新发展,实现互利共赢。
长浏快线是全国首条中低速磁浮市域快线,起于黄花机场T3航站楼,止于浏阳关口站,全长48.73公里,设计时速为160公里。目前,世界上已商业化运营的中低速磁浮线路时速一般不超过120公里,而长浏快线设计时速为160公里,是世界最快中低速磁浮快线。
在OpenAI推出o1系列模型后,OpenAI的一些竞争对手也在部署这种偏重推理的模型。本月早些时候,谷歌发布了旗舰模型Gemini的新版本,该新版本在思考、记忆、计划等方面能力有所提升。业内另外一些企业也在参考o1的长思维链推理路径优化自身的模型,有大模型业内人士向记者表示,这种路径可以降低大模型的错误率,未来也有可能用于解决重大科学问题。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者郑栩彤
相关阅读 ChatGPT诞生两年,“通专融合”大模型未来怎么走?“通专融合”是建立在过去一段时间大模型研发基础上的思考和总结,是更适合未来大模型的发展路径。
169 12-14 18:24 OpenAI推出强化微调,CEO称是今年最大惊喜之一OpenAI研究员演示,强化微调后的o1 mini测试通过率甚至比正式版o1高24%,比未强化微调的o1 mini提高了82%。
223 12-07 08:18 MiniMax刘华:基础大模型公司将只剩个位数,十万卡是少数公司的追求国内大模型创业公司中,MiniMax副总裁刘华认为基础大模型赛道将局限于少数企业,包括大厂和创业公司,而其他公司将转向AI应用开发。
233 12-06 20:56 中国追赶OpenAI这波新浪潮还有多远?第一财经从ChatGPT问世之初便紧密跟踪这一趋势,通过专业视角为公众提供了深入的分析与解读。
35 11-14 21:08 大模型“攻坚战”腾讯再押注开源,这次用到合成数据了模型越来越大,自然数据增长速度跟不上模型对数据的需求股市中的杠杆资金,合成数据比例将越来越高。
70 11-07 19:30 一财最热 点击关闭Powered by 香港联华证券_国家允许的配资平台_国内可查十大配资平台 @2013-2022 RSS地图 HTML地图