SmolVLM – Hugging Face推出的轻量级视觉语言模型 SmolVLM是什么 SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求... Ai项目 5个月前2,4600
MyTimeMachine – AI个性化面部年龄转换技术,实现20至40年的时间跨度 MyTimeMachine是什么 MyTimeMachine(MyTM)是先进的个性化面部年龄转换技术,基于大约50张个人照片,跨越20至40年的时间跨度,训练一个适配器网络个性化预训练的全局老化模型... Ai项目 5个月前2,4600
MagicDriveDiT – 华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法 MagicDriveDiT是什么 MagicDriveDiT是香港中文大学、香港科技大学、华为云和华为诺亚方舟实验室共同推出基于DiT架构的新型视频生成方法,专为自动驾驶应用设计,实现高分辨率和长视频... Ai项目 5个月前2,4600
联通元景 – 中国联通AI开源的中文原生文生图模型 联通元景是什么 联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合语言编码模块,优化中文长文本和特色词汇理解,提升图像生... Ai项目 5个月前2,4600
SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型 SocioVerse是什么 SocioVerse(众生) 是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型(LLM)驱动的智能体和包含1000万真实用户的数据池... Ai项目 5个月前2,4600
Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型 Seer是什么 Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目标信号(如... Ai项目 5个月前2,4600
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入 Emotion-LLaMA是什么 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力... Ai项目 5个月前2,4600
RealtimeSTT – AI实时语音转文本库,自动检测说话的开始与结束 RealtimeSTT是什么 RealtimeSTT是开源的实时语音转文本库,专为低延迟应用设计。有强大的语音活动检测功能,可自动识别说话的开始与结束,通过WebRTCVAD和SileroVAD进行精... Ai项目 5个月前2,4600
H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型 H-Optimus-0是什么 H-Optimus-0是法国初创公司Bioptimus发布的世界上最大的开源病理学AI基础模型。模型拥有11亿参数,是在专有数据集上训练的,数据集包含从4000个临床实践... Ai项目 5个月前2,4600
PaSa – 字节跳动推出的学术论文检索智能体 PaSa是什么 PaSa是字节跳动研究团队(ByteDance Research)推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引文网络,为用户提... Ai项目 5个月前2,4600