Phi-4-reasoning – 微软推出的Phi-4推理模型系列
Phi-4-reasoning是什么 Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mi...
HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架
HoloTime是什么 HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为沉浸式的 4D ...
T2I-R1 – 港中文联合上海AI Lab推出文生图模型
T2I-R1是什么 T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低层次像...
Cobra – 清华、港中文和腾讯开源的漫画线稿上色框架
Cobra是什么 Cobra(Efficient Line Art COlorization with BRoAder References)是清华大学、香港中文大学和腾讯ARC实验室推出的漫画线稿上...
KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架
KeySync是什么 KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现,首先生成关键帧捕捉音频的关...
Omni Reference – Midjourney V7推出的图像参考功能
Omni Reference是什么 Omni Reference 是 Midjourney 推出的全能参考功能,支持用户将特定的人物、物体或场景从参考图像中嵌入到生成的图像中。Omni Referen...
3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架
3DV-TON是什么 3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是阿里巴巴达摩院、湖畔实验室和浙江...
ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
ACE-Step是什么 ACE-Step 是 ACE Studio 和 StepFun 联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。ACE-Step结合扩散模型...
ReasonIR-8B – Meta AI 推出专为推理密集型检索任务设计的模型
ReasonIR-8B是什么 ReasonIR-8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.1-8B 训练,采用双编码器架构,将查询和文档分别编码为嵌入向量...
Voila – 开源端到端语音大模型,实现低延迟语音对话
Voila是什么 Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自然的交互体验。Voila 集成...