ClearerVoice-Studio – 阿里通义实验室开源的语音处理框架 ClearerVoice-Studio是什么 ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算... Ai项目 2周前4,6450
PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型 PaliGemma 2是什么 PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型(VLM),作为PaliGemma模型的升级版。结合SigLI... Ai项目 2周前5,4850
Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架 Optimus-1是什么 Optimus-1是哈尔滨工业大学(深圳)和鹏城实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验,让智能体更好地执行复杂任务... Ai项目 2周前5,2550
Fox-1 – TensorOpera 开源的小语言模型系列 Fox-1是什么 Fox-1是TensorOpera推出的一系列小型语言模型(SLMs),包括Fox-1-1.6B和Fox-1-1.6B-Instruct-v0.1。Fox-1模型在3万亿个网络抓取的... Ai项目 2周前5,9700
Llama 3.3 – Meta AI推出的纯文本语言模型 Llama 3.3是什么 Llama 3.3是Meta AI推出的70B 参数模型,大型多语言预训练语言模型,性能与40B参数的Llama 3.1相当。模型专为多语言对话优化,支持英语、德语、法语、意... Ai项目 2周前9,8150
Aurora – xAI为Grok AI助手推出的新图像生成模型 Aurora是什么 Aurora是xAI为AI助手Grok新增的图像生成模型。Aurora擅长创建逼真的图像,擅长人物肖像。Aurora能生成包括公共和版权人物在内的图像(如米老鼠)。Aurora 的... Ai项目 2周前4,7600
One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术 One Shot, One Talk是什么 One Shot, One Talk是先进的图像生成技术,能从单张图片中生成具有个性化细节的全身动态说话头像,支持逼真的动画效果,包括自然的表情变化和生动的... Ai项目 2周前5,2650
GLM-4V-Flash – 智谱 AI 推出的首个免费多模态模型API GLM-4V-Flash是什么 GLM-4V-Flash 是智谱AI推出的首个免费多模态模型API,GLM-4V-Flash 模型拥有图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分... Ai项目 2周前6,1950
clone-voice – 开源的声音克隆工具,支持16种语言 clone-voice是什么 Clone-voice是开源的声音克隆工具,基于深度学习技术分析和模拟人类声音,实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言,能将文本转换为... Ai项目 2周前5,7300
SNOOPI – AI文本到图像生成框架,提升单步扩散模型的效率和性能 SNOOPI是什么 SNOOPI是创新的文本到图像生成框架,基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导 – SwiftBrush)和NASA(负向... Ai项目 2周前5,8000