BBIN·宝盈集团(中国)有限公司官网

奶茶榨汁机BY笔趣阁林妙妙对话中国信通院魏凯：AI下半。竽Ｐ鸵偎祷，多做事

2026-06-12 05:08:50 来源：于巧梅

字号：默认大超大 | 打印 |

今年2月DeepSeek爆火，震惊国内外。实际上，在此之前，中国信息通信研究院（下称：中国信通院）的大模型评测团队就观察到国内模型性能迅速提升的势头，他们当中就包括中国信通院人工智能研究所所长魏凯。魏凯说：“2024年一年，国内包括DeepSeek在内的多个大模型团队，一直从多角度努力，不断提升模型性能，基本上每个月都能看到新的进展。在bbin平台官网的测试中，DeepSeek在2024年4月的模型性能排名还比较靠后，8月的版本已经是TOP10里的玩家了，到了10月的版本已经是前几名了，12月发布的DeepSeek-V3成为当时基础能力第一名的模型，而且是开源的，非常了不起。” 中国信通院是工业和信息化部直属科研事业单位，在人工智能领域承担决策支撑、新技术研究、标准研制、检验检测、咨询服务和国际合作等任务。2023年，魏凯带领团队推出“方升”大模型基准测试体系，依托“人工智能关键技术与应用评测部重点实验室”，制定测试标准，建设测试平台和数据集，定期对国内外大模型进行测试，目前已经构建了近700万条测试数据集。 “方升”是战国时期的度量衡标准器，也是现存最早的度量衡标准器。魏凯说：“现在国内外大模型基准测试很多，但缺乏标准化的测试方法和体系，刷榜作弊也时有发生。bbin平台官网推出‘方升’，就是希望能够推动大模型基准测试的标准化。” 2.一个真正的人工智能应用软件，它的组成部分有大模型，有数据库、知识库以及各种调用工具，并不只是单纯依靠模型本身。 7.到了AI下半。竽Ｐ鸵蚴涑鲂畔ⅲ踔潦涑鲂畔⒉皇侵饕康，主要是把活干好。少说话，多做事，是大模型从生成式（Generative）AI走向代理型（Agentic）AI的主要目标。魏凯：根据bbin平台官网过去一年的测试，通义千问、DeepSeek、豆包、混元、文心等模型表现一直比较好。bbin平台官网也会测OpenAI、Anthropic、谷歌的模型，他们的表现也非常优异。最新测试看，基础模型TOP10中，中国的模型大概是6个左右，美国有4个。 bbin平台官网观察到一个现象，最近大家更新的频率越来越快，导致TOP1的模型在那个位置待的时间越来越短了。近半年来基础模型的更新频繁，性能上你追我赶，排名经常轮动，但历次榜单中总是这几个模型的新版处在榜单前列。魏凯：现在可能不到3个月，现在十几天就会变化。去年5月，OpenAI的GPT-4o是最好的模型，它在第一名的位置上保持了200多天的纪录。但现在，排名十几天就会变一次，竞争特别激烈。这也是为什么现在大模型玩家越来越少了，因为每次训练至少要几百万美元，保鲜期却很短，你训完以后，再过几天，又要接着训，所以，支撑基础大模型创新，必须要有雄厚的资源保障。魏凯：不管是后训练还是预训练，它都是训练阶段。对下游应用企业来说，会越来越少的参与到训练环节，一些公司可能会做一些微调，但随着基座模型能力快速迭代，做微调的用户企业也变少了。对广大用户侧的企业来说，如何通过提示词工程、检索增强、工作流等工程化方法，把大模型能力充分激发出来，开发针对特定场景的智能体，变得越来越重要了。围绕这方面需求的创新创业机会，也会越来越多。魏凯：你向大模型提的问题好坏决定了它回答的质量的高低，bbin平台官网可能都会有这样的直观体验，所以写提示词也是有技术含量的。在提示词之上，又加上了工作流，加上Agent，你看Manus和Cursor（AI编程智能体公司），他们就不做基础模型，就是调用别人的。基于别人的大模型，开发出高水平的智能体，技术含量也会很高，而这还并不需要重投入。魏凯：智谱的技术团队实力很强，他们还重组资源来坚持长期投入。基础模型的比拼，看技术团队的实力，也看耐久力，“粮食”储备够不够多是一个关键。魏凯：投入海量数据和算力，开展大模型预训练，对于模型基础能力提升至关重要，预训练，是让大模型大量阅读和刷题，可以类比在学校中学习，而这些数据都是人类积累下来的，本质上还是向人类学习。但预训练不是提升模型能力的唯一路径，在后训练阶段利用强化学习，潜力也非常巨大。强化学习不太依赖人类提供的数据，而更强调从实战经验中学习，可以类比为在工作实践中学习。目前，bbin平台官网也要警惕一种高估大模型能力的倾向，错误地认为大模型无所不能，这是不准确的。在产业化应用中，bbin平台官网要通过详细的评测，了解大模型能力边界，将任务需求与模型能力准确匹配。让大模型干它不擅长的活，一定会出问题。魏凯：大方向是减少幻觉，但目前的技术路线不能100%保证没有幻觉。大模型生成内容，是靠神经网络参数来“回忆”，而不是一种精确查询。魏凯：把确定性的东西都放在数据库里，让大模型检索，可以有效减少输出幻觉。就像律师或法官，在法庭打官司的时候，如果要引用法律条文，一定是查原文，这样才能确保完全准确。到了一些严肃场景，还是得靠确定性的查询，所以一个真正的人工智能应用软件，它的组成部分有大模型，有数据库、知识库以及各种被调用的工具，它并不只能单纯依靠模型本身来满足需求。模型本身就像一个中枢神经系统，它能调度，但它难以做到100%准确回忆，也不会直接干活，要具备“干活”能力，还是得靠调用其他的工具，那就是Agent。魏凯：Agent实际上是运行在大模型上面的软件，利用大模型意图理解和规划能力，调用专业工具，实现复杂的功能。其实早在两年前业内已经在提Agent了，2023年年中，信通院发布的人工智能十大关键词，就已经将Agent纳入其中。两年来，得益于基座模型水平的提升，Agent的智能水平也在不断进化。过去的Agent还要靠人写提示词，做成工作流，告诉它第一步干什么，第二步干什么，第三步干什么。今天的Agent可以自己规划工作流，自己产生思维链，与两年前基于人为提示词和工作流的智能体相比，智能水平显著提升。人的工作一直在往后退，AI的自主性更强了。魏凯：我记得DeepSeek推理模型刚出来的时候，还专门有个教程说，不要让用户写提示词，否则影响模型的自主思考过程。现在并非不需要关注提示词了，提示词仍然非常重要。目前Agent已经内置精心设计的系统提示词，这部分提示词写得越好，模型能力就被激发得越充分，整体效果就越好。魏凯：从技术上讲，大模型是一个操作系统，Agent就是一个应用程序。从功能上说，Agent非常像数字员工。未来，会慢慢进化出各种岗位特定的Agent，每个人可能会拥有很多Agent，有的是生活助手，有的是工作助手。魏凯：未来是可能的，Agent会成为数字员工，人和数字员工合作，能力会越来越强。所以未来善用AI的人，可以拥有几乎无限个数字员工，从而成为一个超级个体，一个人可以指挥“千军万马”，这个意义上，一人公司不是梦。魏凯：哪家公司也没有明显的优势，现在都处于胶着状态，所有人都想抢，手机操作系统厂商、一些智能硬件公司，还有超级APP厂商，包括新兴创业公司都想抢夺用户的入口。魏凯：还早，Agent可能不是一个产品，用户自己都可以开发一个，但功能很单一。未来，Agent会很有市。笠道锘嵊泻芏喔哺嵌嘀止δ艿腁gent。所以Agent可能不是一个产品，而是好多功能的集合，但Agent开发平台可能是少数。魏凯：这是两回事儿，不一定，超级APP只会沉淀很浅层的数据，大量用户数据不会在APP上，因此，聊天机器人类型的超级APP，如果不附加其他深度应用功能，就很难构造自己的数据飞轮。 DeepMind布局的强化学习路线，以及在蛋白质、材料、生物、数学等领域研发的垂直领域专业模型，对推动科学进展意义重大，如果能产业化，将会对实体经济产生重大影响。因此，AI大模型的赛道无限广阔，语言和多模态模型，只是一个分支，AI能用于创新和研发，可能会极大加速人类创新速度，需要引起高度关注。魏凯：外界绝对低估谷歌了。Transformer、MoE、蒸馏等技术都是谷歌创立的，而且，谷歌的大模型Gemini排名一直在前面，包括云、大数据等概念和核心技术也是谷歌最早提出来的。你看谷歌（DeepMind）的布局方向，那些才是真正的高价值场景，为什么大家说聊天机器人找不到场景，因为聊天就这么回事，但DeepMind的探索不一样，它可以优化工艺流程，发现新药、新材料，对实体经济的价值很大。国内也有一些公司在布局这些领域，但整体力量还比较薄弱，因为这方面难度很高。就像规模定律（Scaling Law）已经探明了，模型这条路可行，才有了今天的繁荣。今天，虽然DeepMind的创始人哈萨比斯获得了诺贝尔化学奖，激发了大家的兴趣，但这个领域的技术门槛很高，失败风险也很高，需要长期投入。魏凯：目前的大模型还不能很好地理解空间关系，也不能很好地掌握时间序列、因果关系、物理定律等。大语言模型掌握了语言序列的分布，通过语言来理解世界，是简介的、不可靠的。要让AI实现通用智能，还需要建立世界模型。魏凯：我认同山姆·阿尔特曼（OpenAI联合创始人）等人对AGI的观点，他们觉得这个词不太重要，bbin平台官网只需要关心AI今天做得比昨天好，明天比今天好。比较容易定义目标、容易采数据的任务，AI很快就能突破，干得比人好。比如自动驾驶，就是很容易定义目标的任务，编程也是，这些领域会最早被突破。魏凯：现在的人工智能都是基于神经网络去训练，但神经网络是个黑盒子，你不知道它学的效果怎么样，就跟学生一样，怎么看他学得好坏，那就需要考试，月考、周测、期中考试、高考等。现在的人工智能也是这样，神经网络训练叫涌现，或者叫生成，结果不确定，因为它本质是黑盒子，只有通过测试，才能知道它的能力有没有达到。测试基准（Benchmark）是衡量大模型水平高低的一把尺子。所以，每家大模型公司发布新模型的时候，都会引用一个测试结果，来说明它的产品性能；对内，公司的研发人员也得看评测结果，来决定是否结束训练，如果没达到目标，就需要继续训练。应用开发商也得测大模型，哪个好用，哪个不好用。整体来说，基准测试（Benchmark）是个指挥棒，牵引着技术往前走，所以，谁能定义Benchmark，谁就定义了方向，因为神经网络人工智能最强大的地方在于，只要你定目标，它就能学到，跟目标接近。魏凯：红杉中国推出xbench，实际上面向的是真实场景，比如AI在办公室能不能当文员，能不能当客服接线员，而不是早期的基准测试以学科考试题为主，比如高考题，或者研究生水平推理测试（GPQA）。那些学科考试类的评测，在学术上有价值，但并不能真正代表到真实用户场景中，AI具备完成任务的能力。魏凯：第一，bbin平台官网的题目有学科考试类的题，增加了大量垂直行业的题目，比如它是不是能理解接线员的问题，bbin平台官网就更偏重行业应用的问题。第二，现在的大模型测试很容易被骗，很多Benchmark的数据集是开源的，一些人会把它混到训练数据集里，大模型做过这些题，它当然能答对。现在，bbin平台官网很多题不是开源的，是bbin平台官网内部开发的。魏凯：大模型发展从2020年到现在，已经5年了。大家都在针对一个目标往前奔，在考试上追求高分数，为什么中国和美国大模型的差距会缩。恳蛭蠹业哪勘暌恢，目标已经明确，路线也清楚了（Scaling）。现在的大模型侧重内容“生成”，给用户提供大量信息，这也会造成新的信息过载，但实际上并没有减轻人的工作量。下一阶段，精简输出信息，提升思考深度，增强使用能力是主要方向，意图理解、任务规划、深度研究、软件工程等能力就变得非常重要。通过标准和测试，引导推动大模型面向产业实际需求，解决高价值场景中的关键问题，提升人工智能赋能实体经济的效能，这就是bbin平台官网“方升”大模型基准测试体系建设的方向。

奶茶榨汁机BY笔趣阁林妙妙

                                奶茶榨汁机BY笔趣阁林妙妙网友们被这段中美友谊故事深深感动，人民日报国际部发布的新媒体视频，很快便获得了几百万点击量、近5000条评论。殷玉珍与萨科尔斯基的暖心故事，正是中美民间友好交往的缩影。回溯中美交往史，不仅有宏大的外交叙事，更沉淀着无数普通民众真诚相待、守望相助的温情瞬间。萨科尔斯基至今依旧记得，2000年他在呼和浩特一所学校礼堂说的话：“我们同住在一个地球上，理应和睦相处，亲如一家。”他说，美中两国人民都向往和平与安宁，彼此的差异从未阻断民间善意，真诚与包容始终是跨越分歧、凝聚共识的关键。正如美国中美研究中心高级研究员苏拉布·古普塔所言，许许多多两国普通民众的友好交往故事，构成了美中民间友好的底色。尝到甜头，我慢慢开始研究科技股。国内对科技股的炒作分两种，一种是炒概念，0到1的那种。比如当年的低空经济，管你有没有业绩，先炒再说，泡沫过几年再消化。奶茶榨汁机BY笔趣阁林妙妙美人的自我改造(完)BY完TXT百度网盘在这条开户街上，大型中资银行虽然纷纷收紧对仅持有内地身份证的内地客的服务，但仍有部分目前条件宽松的外资银行成为内地客的密集涌入地。在尖沙咀的香港汇丰银行网点内，不少拿着内地身份证或港澳通行证的投资者挤在大堂进行线上开户申请，其中还有讲着西南方言的内地投资者。在签完合同回来的酒局上，他跟我说了句掏心窝子的话，我觉得特别实在。他说：“我压根就没指望这房子以后能帮我赚多少钱，我就是图个眼前的日子。每天骑个自行车十分钟就能到工位，下了楼走两步就是活生生的菜市场，抬脚就能进地铁站，我想要的就是这种肉身能抓得住的安稳日子。”
                            

                                20260612 ? 奶茶榨汁机BY笔趣阁林妙妙该疗法可有效抑制红细胞镰变，显著减少血管闭塞危象和溶血。与基于CRISPR技术的基因编辑疗法相比，CS-206注射液具有不需要切断DNA双链即可对单个碱基进行精准校正的底层技术优势，不会引发患者基因组DNA大片段缺失、染色体突变、脱靶突变等风险，更安全高效；同时还能使患者迅速地完成造血重建，更快速并大幅提升胎儿血红蛋白水平从而降低镰刀状血红蛋白的占比，更高效且稳定地阻止红细胞发生镰变。《父子俩共同上林初瑶的小说叫什么名》在最无助和关键的时刻，最终还是闺蜜田荣华的帮助下，才找到了最关键的证据。而李祯也是带着官兵直接半路拦截住了田家通番的货物，直接当场人赃并获，这一次，田家的罪证是坐实了。但罪魁祸首田本昌早就给自己找好的替死鬼，于是在公堂上直接拿出了那一张田本盛签下的货单，而这一切都甩锅给了自己的亲弟头上。
                            

奶茶榨汁机BY笔趣阁林妙妙

? 周建华记者刘立成摄

                                20260612 ? 奶茶榨汁机BY笔趣阁林妙妙外卖平台佣金计算规则较为复杂，在不同城市也有所差异，且因为价格、距离、天气等因素，以及自配送、平台配送、第三方配送等都会呈现一定波动。而部分代理商运营的非直营城市里，也存在代理商为商家私自上涨佣金的现象。《破罐破摔(N)作者:白云间》信息茧房加剧对立的问题确实存在，但现在很多网站也在尝试通过新的算法来改变这种局面，比如不再只推送你喜欢的内容，也会推送和用户观念相反的内容，还有通过大模型对出现的新言论进行事实核查等等。也就是说，尽管一种新技术在刚出现的时候会有各种各样的问题，但我们可以通过理性加以纠正。在追求性别平等的道路上没有一帆风顺，但这也说明我们正在扬帆远航，进步是真实存在的，但不代表，进步的曲线会随着时间推移自动上升。就像女性可以生孩子，但分娩过程不太可能丝滑流畅，往往是充满了痛苦。同样，我们不可能一觉醒来，发现性别压迫、民粹主义或者社会不平等全部自动消失了，相信进步，为之奋斗，才能让梦想照进现实。
                            

奶茶榨汁机BY笔趣阁林妙妙

? 李海明记者张晓华摄

                            ? 除了芯片，英伟达还发布了DSX平台，进一步推进其"AI工厂"战略。所谓AI工厂，可以理解为未来专门生产AI能力和Token的数据中心。DSX覆盖AI工厂从设计、仿真到部署、运营的全流程，企业甚至可以在正式建设之前，先完成整个工厂的数字化模拟和验证，从而降低建设成本和运营风险。黄仁勋认为，随着生成式AI和智能体快速普及，Token正在从计算结果演变为能够直接创造价值的生产资料，全球对于AI工厂的需求也将持续增长。电影《贪欢》完整版
                        

【我要推荐】更多推荐：弗洛伦蒂诺确认将创建子公司，转移皇家马德里足球业务并出售部分股份

扫一扫在手机打开当前页

中国政府网 | 关于本网 | 网站声明 | 联系 bbin平台官网 | 网站纠错

主办单位：奶茶榨汁机BY笔趣阁林妙妙　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452　京ICP备05070218号　京公网安备11010202000001号

国务院客户端

国务院客户端小程序

中国政府网微博、微信

主办单位：中国政府网　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

网站地图XML