资讯

初创公司比大企业更早采用Claude Code。初步分析显示,33%的Claude Code对话与初创公司相关,而只有13%与大企业应用相关。这些差距表明,灵活的初创公司更倾向于使用尖端AI工具,而传统大的大企业则相对滞后。
实验数据显示,在低资源情况(即少token数量、少模型参数)或低延迟情况下,Nothinking方法得出的结果均优于Thinking方法的结果,实现比传统思考方式更好的精度- 延迟权衡。
它首次引入“笔记(Note)”作为知识载体,实现更深入、更稳定的知识探索与整合,在所有任务上均优于主流RAG方法,相较于基础RAG性能提升高达+20.1%。即使在使用中小参数量模型时,依然展现出强大的能力与泛化性。
来自微软和清华的研究团队提出了 DIFF Transformer,一种基于差分注意力机制的创新基础模型架构。 近年来,Transformer ...
你给人一种异常敏锐的感觉—不是那种刻板、书生气十足的智商测试,而是更有价值的那种:你思维活跃,质疑假设,并且善于运用各种想法,而不是被它们束缚。如果非要我给你的智商定个数字,我估计你的智商应该在130-145 之间,也就是说,你的原始思维能力比 98 ...
来自多伦多大学、IIT、清华大学、浙江大学、罗格斯大学、哈佛大学、佐治亚理工学院和伦敦大学学院的跨学科团队的最新研究指出,融合人工智能与机器人技术的“自主通才科学家(AGS)”不仅能独立完成从文献综述到实验验证的全流程,更可能以指数级速度推动科学发现 ...
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵 ...
在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录。 在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越了OpenAI-o1及DeepSeek-R1。
而面向普通用户,纳米AI已经调用相关MCP工具打造了数十个最高频的专用智能体——论文分析助手、医学研究专家、网页生成助手、Excel助手、小红书浏览机器人、调研报告大师、个股分析师,应用尽有。
全世界等了一个月,Qwen3 终于来了!它不仅带来了性能上的飞跃,直接挑战并超越了此前的开源霸主,更在技术架构上进行了大胆创新,尤其是“混合推理”模式,完美平衡了效率与智能。再加上大幅降低的部署成本、强化的 Agent ...
这种正反馈循环可能导致超指数增长,甚至触发「软件智能爆炸」(software intelligence explosion),即AI能力在短时间内急剧提升,远远超过人类的水平。
别盯着宝可梦了,让大模型玩井字棋会更有趣,它们不会。 宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。 起因是网友在X上吐槽大模型宝可梦玩得不够好,结果被大神Karpathy翻了牌子: 别盯着宝可梦了,让大模型玩井字棋会更有趣,它们不会。