
【今日资讯】Kimi 发布首个 Agent!Midjourney 发布首个视频模型 ……
1.月之暗面 Kimi 首个 Agent 开始灰度测试
Kimi 首个 Agent Kimi-Researcher(深度研究)已于日前开始小范围灰度测试。公告称,Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。接下来,Kimi 还计划逐步开源 Kimi-Researcher 基础预训练模型、以及强化学习后的模型。
根据介绍,对于每一个问题,Kimi-Researcher 都会自主规划任务执行流程,最终交付完整结果:
澄清问题(clarification):理解问题时主动反问,构建更清晰的问题空间;
深入思考:每个任务平均进行 23 步推理,自主梳理并解决需求;
主动搜索:每个任务,平均规划 74 个关键词,找到 206 个网址,由模型判断并筛选出信息质量最高的前 3.2% 内容,剔除冗余、低质信息;
调用工具,交付结果:自主调用浏览器、代码等工具,处理原始数据、自动生成分析结论,端到端完成交付。
为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。
在完全零结构、无流程设计的设置下,Kimi-Researcher 的 Humanity’s Last Exam(HLE)基准测试得分如下:
Pass@1 准确率:26.9%
Pass@4 准确率:40.17%
这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。
在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69% 的平均通过率。(OSCHINA)
2.Midjourney 发布首个 AI 视频生成模型 V1
AI 初创公司 Midjourney 宣布推出其备受期待的首款 AI 视频生成模型 V1,支持图像到视频的生成,并可实现从文本直接生成视频。
V1 目前仅通过 Discord 平台的网页端提供服务,基础订阅费为每月 10 美元。根据 Midjourney 的官方介绍,V1 基于此前的图像模型生态进行打造。
Midjourney V1 操作分为自动和手动两种模式:
自动模式下,平台会根据用户生成的图片,自动创建「动作提示词」并让画面运动起来;
手动模式则是由用户提供提示词。同时,Midjourney V1 也分为「低动态」和「高动态」两种运动模式。
V1 的发布让 Midjourney 加入与 OpenAI 的 Sora、Runway 的 Gen 4 等 AI 视频模型的竞争。其目标不止于为好莱坞或广告业生成素材,公司 CEO David Holz 称这是迈向 “实时开放世界模拟” AI 模型的一步,后续还计划开发 3D 渲染和实时 AI 模型。 (OSCHINA)
3.《鸿蒙编程语言白皮书》发布
华为近期发布了《鸿蒙编程语言白皮书》V1.0,详细阐述了鸿蒙系统的编程语言框架、适用场景、演进策略和未来愿景。鸿蒙系统支持三种编程语言:ArkTS、仓颉和 C/C++。ArkTS 是动态类型编程语言,易学易用,适合快速开发应用,提供丰富的基础库和并发能力,支持声明式 UI 开发。仓颉是静态类型编程语言,强调高性能和强安全性,适合对性能要求极高的场景,支持跨平台代码共享。C/C++ 则适用于需要高性能计算的特定场景,可通过跨语言互操作封装为其他语言的扩展模块。
白皮书还介绍了各编程语言的互操作性,ArkTS 与 C/C++ 通过 Node-API 实现互操作,仓颉与 C 语言之间可实现函数相互调用及跨语言数据转换。未来,华为计划进一步完善编程语言规范,引入 AI 技术,推动语言在更多领域的应用,鸿蒙系统有望扩展到更多智能终端和场景。该白皮书的发布展示了华为在软件开发领域的创新,为开发者提供了新工具和思路,推动行业发展。(经AI提炼)
4.Yupp 平台上线:邀用户低成本使用业界各大 AI 模型,收集评测反馈构建排行榜
AI 初创公司 Yupp 日前正式推出一项“人工评测系统”,邀请用户给 ChatGPT、Claude、Gemini、DeepSeek、Grok、Llama 等业界超过 500 款 AI 大语言模型进行打分,Yupp 将根据用户的反馈数据,构建出一套名为 Yupp AI VIBE(Vibe Intelligence Benchmark)的排行榜,用以直观展示不同模型水平。
据悉,Yupp 由 X 平台前员工 Pankaj Gupta 与 Gilad Mishne 共同创立,旨在让用户低成本使用各大 AI 模型的同时,让用户为模型打分,继而生成一系列模型使用数据及排行榜,以帮助 AI 公司改进其模型。
获悉,平台新注册用户默认拥有 5000 积分,用户平台上输入问题后,平台将随机或根据提示内容选取两个不同的 AI 模型进行作答,并展示双方回答的优劣对比选项,供用户输入反馈评判“哪款模型给出的回答最好”,用户完成反馈后,平台会随机给予用户一定数量的积分,相应积分可用于继续调用 AI 模型。
同时,平台也支持用户自行指定模型进行比对。每个问题最多可接入 6 个模型进行回复,但若用户反复提问却不提供反馈结果,平台将限制 / 禁止用户继续使用相应服务。(IT之家)
左右滑动查看更多
5.国家互联网信息办公室:中国已有 433 款大模型完成备案
在 2025 上海世界移动通信大会(MWC 上海 2025)开幕式上,国家互联网信息办公室副主任王京涛在致辞中指出,截至目前,中国已经有 433 款大模型完成备案,上线提供服务。
王京涛表示,目前中国已成为全球最大的互联网市场,拥有全球最多的网民和移动互联网的用户,以及最活跃的数字技术和应用创新生态,建成了全球规模最大、技术领先、性能优越的网络基础设施。在追求自身发展的同时,中国也积极地推进各国共享互联网发展机遇。
面向未来,中国要坚持发展与安全并重研究,加强发展战略、治理规则和技术标准的对接协调,推动人工智能朝着有益、安全、公平的方向健康、有序发展。要尊重各国网络主权,尊重各国的互联网发展道路和治理模式,共同构筑和平、开放、安全、合作、有序的网络空间。
王京涛还表示,以人工智能为代表的新的数字技术,给人类生产生活带来前所未有的机遇的同时,不同地区、国家、群体间享受数字红利的差距依然较大。对此,他建议,秉持人类共同体理念,广泛开展人工智能国际合作,帮助发展中国家加强能力建设,提高人工智能的技术的可及性,弥合全球智能鸿沟,释放更多的智能红利。(OSCHINA)
图片、内容来自网络,部分内容经AI整合,侵删