EliGen – 浙大联合阿里推出的新型实体级可控图像生成框架 EliGen是什么 EliGen是浙江大学和阿里巴巴集团联合开发的新型的实体级可控图像生成框架,通过引入区域注意力机制,无需额外参数即可将实体提示和任意形状的空间掩码无缝集成到扩散变换器中。EliGe... Ai项目 5个月前01,7450
Hibiki – Kyutai Labs 推出的实时语音翻译模型 Hibiki是什么 Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语音和目标语... Ai项目 5个月前02,2800
HMA – MIT联合Meta等推出的机器人动作视频动态建模方法 HMA是什么 HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训... Ai项目 5个月前02,6300
DeepRant 鲸喷 – 专为游戏玩家设计的多语言快捷翻译开源工具 DeepRant 鲸喷是什么 DeepRant 鲸喷是专为游戏玩家设计的多语言快捷翻译工具。DeepRant能帮助玩家在国际服务器中快速进行文字交流,消除语言障碍。玩家在游戏中选中文字后按下快捷键,翻... Ai项目 5个月前02,4450
StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像 StochSync是什么 StochSync(Stochastic Diffusion Synchronization)是创新的图像生成技术,专门用于在复杂空间(如360°全景图或3D表面纹理)中生成... Ai项目 5个月前02,2000
Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架 Sonic是什么 Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识... Ai项目 5个月前02,3600
FireRedASR – 小红书开源的自动语音识别模型 FireRedASR是什么 FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),在歌词识别... Ai项目 5个月前02,1700
MVoT – 微软联合剑桥和中科院推出的多模态推理可视化框架 MVoT是什么 MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式,基于生成图像可视... Ai项目 5个月前02,9800
DynVFX – AI视频增强技术,将新动态内容与原始视频无缝融合 DynVFX是什么 DynVFX是创新的视频增强技术,能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉语言模型(VLM),实现了在不依赖复杂用户输入的情况下... Ai项目 5个月前02,6800
WorldSense – 小红书联合上海交大推出的多模态全面评测新基准 WorldSense是什么 WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSens... Ai项目 5个月前02,4800