Freestyler – 西工大联合微软和香港大学推出的说唱乐生成模型 Freestyler是什么 Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型,能直接根据歌... Ai项目 2个月前1,7650
SnapGen – Snap联合港科大等机构推出的移动端文生图模型 SnapGen是什么 SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024×1024像素)的图像... Ai项目 2个月前1,1650
CosyVoice 2.0 – 阿里开源的语音生成大模型 CosyVoice 2.0是什么 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块... Ai项目 2个月前1,3750
Megrez-3B-Omni – 无问芯穹开源的端侧全模态理解模型 Megrez-3B-Omni是什么 Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现出... Ai项目 2个月前1,2600
Veo 2 – 谷歌 DeepMind 推出的 AI 视频生成模型,支持高达 4K 分辨率 Veo 2是什么 Veo 2 是 Google DeepMind 推出的 AI 视频生成模型,能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作,理解镜头控制指令,能模... Ai项目 2个月前1,6050
RDT – 清华开源的双臂机器人扩散基础模型 RDT是什么 RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类... Ai项目 2个月前1,3150
Apollo – Meta 联合斯坦福大学推出的大型多模态模型 Apollo是什么 Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解在LMMs中的关键驱动因素,推出“Scaling Co... Ai项目 2个月前1,4750
BrushEdit – 腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复 BrushEdit是什么 BrushEdit是腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型(MLLMs)和双分支图... Ai项目 2个月前1,3300
Bocha Semantic Reranker – 博查推出的语义排序模型 Bocha Semantic Reranker是什么 Bocha Semantic Reranker是博查AI推出的语义排序模型,能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semant... Ai项目 2个月前1,4900
Ruyi – 图森未来推出的图生视频大模型 Ruyi是什么 Ruyi是图森未来推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casu... Ai项目 2个月前1,3400