OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集 OmniAlign-V是什么 OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据... Ai项目 12个月前05,1700
OmniTalker – 阿里推出的实时文本驱动说话头像生成框架 OmniTalker是什么 OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 Thinker... Ai项目 12个月前05,1700
WriteHERE – 开源的AI长文写作框架,单次生成超长文本 WriteHERE是什么 WriteHERE是Jürgen Schmidhuber领衔的团队开源的AI长文写作框架。WriteHERE基于异质递归规划(Heterogeneous Recursive ... Ai项目 12个月前05,1700
DeepSeek-R1T-Chimera – TNG开源的语言模型 DeepSeek-R1T-Chimera是什么 DeepSeek-R1T-Chimera 是TNG科技公司推出的开源语言模型。结合 DeepSeek V3-0324 和DeepSeek R1两种模型的... Ai项目 3周前5,1650
RDT – 清华开源的双臂机器人扩散基础模型 RDT是什么 RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类... Ai项目 3周前5,1650
cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载 cobalt是什么 cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置,支持多... Ai项目 3周前5,1650
Chirp 3 – 谷歌云推出的高清语音合成模型 Chirp 3是什么 Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近真实人类发音。通过... Ai项目 12个月前05,1650
VPP – 清华和星动纪元推出的首个AIGC机器人大模型 VPP是什么 VPP(Video Prediction Policy)是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型,学习互联网上的大量视频数据,直接预测未来场景生成机器... Ai项目 3周前5,1600
MatterGen – 微软推出的无机材料生成模型 MatterGen是什么 MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,生成跨越周期表的稳定、多样化的无机材料。MatterG... Ai项目 3周前5,1600
Phi-4-Mini – 微软推出专注于文本任务的小型语言模型 Phi-4-Mini是什么 Phi-4-Mini 是微软 Phi-4 系列中最新推出的专注于文本任务的小型语言模型,参数量为 38 亿。基于密集的解码器-only Transformer 架构,结合分... Ai项目 12个月前05,1600