趣站

GRPO在《时空谜题》中击败o1、o3

近日,海外大模型产品平台 OpenPipe 上发布了一项研究,阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Resear ...

清程极智 CEO 汤雄超:训推一体机并非 AI Infra 的未来

早在超算时代,清华大学高性能计算研究中心便一直是解决算力需求相关软件问题的行家。“目前 AI Infra 赛道几家国内厂商中,只有我们有过十万台服务器的超大规模国产算力集群的使用和调优经验。”汤雄超向 ...
我要啦免费统计