新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。在第一阶段,

斥资36亿!OpenAI考虑收购前苹果设计师AI初创公司

快科技4月8日消息,据报道,OpenAI近期正就收购AI硬件初创公司io Products展开深入谈判,这笔潜在交易或将重塑人工智能硬件市场格局。据知情人士透露,OpenAI高层曾考虑以至少5亿美元(约合人民币36.41亿元)的价格收购这家由OpenAI CEO萨姆阿尔特曼与前苹果传奇设计师乔纳森艾维联合创立的公司。乔纳森艾维作为苹果前首席设计官,曾主导iPhone、MacBook等划时代产品

阿里AI模型获FDA认定“突破性医疗器械”

近日,阿里巴巴的 AI 模型 DAMO PANDA 获得了美国食品和药物管理局(FDA)的 “突破性医疗器械” 认证。这一成就标志着阿里巴巴在胰腺癌早期筛查领域取得了重大突破,为该疾病的早期诊断提供了新的可能性。DAMO PANDA 是阿里巴巴达摩院研发的一款专注于胰腺癌筛查的 AI 模型。其主要功能是通过分析平扫 CT 影像,精准识别出人眼难以察觉的细微病灶。这项技术的推出,旨在解决胰腺癌早期筛

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o

在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而,在处理复杂推理问题时,如何准确评估模型每一步的回答质量,依然是一个亟待解决的难题。为此,清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM),为过程监督推理提供了创新解决方案。传统的过程奖励模型(PR

华为诺亚方舟实验室携手港大发布最强开源扩散语言模型 Dream 7B,打破文本生成格局

人工智能领域再添一颗耀眼新星!近日,华为诺亚方舟实验室与香港大学自然语言处理组(HKU NLP Group) 联合发布了名为 Dream7B 的全新语言模型。这款模型被誉为“迄今为止最强大的开源扩散大型语言模型”。Dream7B 的问世,不仅在性能上超越了现有的扩散语言模型,更在通用能力、数学、代码以及规划能力上,比肩甚至超越了同等规模的顶尖自回归(AR)语言模型。这一突破性的进展,预示着文本生成

生成很强,推理很弱:GPT-4o的视觉短板

声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:文摘菌,授权站长之家转载发布。如果让AI画一只狗站在“左边”,但事先告诉它“左就是右”,你觉得它能反应过来吗?最近,UCLA的一项新研究用一系列精心设计的实验,揭开了GPT-4o在图像理解和推理上的短板——它画得漂亮,却未必真懂你的意思。论文主线很直接,GPT-4o的画图能力确实惊艳,但真正涉及理解图像、语境推理

亚马逊推出革命性 AI 语音模型 Nova Sonic,价格更具竞争力!

亚马逊近日发布了其最新的 AI 语音模型 ——Nova Sonic,这一新技术标志着该公司在人工智能语音领域的重要进展。Nova Sonic 能够快速处理语音输入并生成自然流畅的语音输出,其在速度、识别准确性以及对话质量等方面已达到了与 OpenAI 和谷歌等行业领军企业的顶尖水平。与其他 AI 语音模型相比,Nova Sonic 在性价比方面表现突出,价格竟然比 OpenAI 的 GPT-4o

刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区公众号,授权站长之家转载发布。今天凌晨1点,OpenAI开源了一个全新的AI Agent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。根据OpenAI公布的测试数据显示,目前知名大模型打

Meta高管回应Llama 4训练作弊传言:坚决否认不实指控

在近日的社交媒体上,Meta 公司的高层对关于其新 AI 模型 Llama4的 “不当训练” 指控进行了澄清,称这些说法完全不属实。指控声称 Meta 在其新推出的 Llama4Maverick 和 Llama4Scout 模型上,通过在特定基准测试的 “测试集” 上进行训练,以此来人为提高模型的性能表现。Meta 的生成式人工智能副总裁艾哈迈德・阿尔・达赫勒(Ahmad Al-Dahle)在社交

字节跳动发布高效预训练长度缩放技术,突破长序列训练瓶颈

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框