AnimateAnything – 浙江大学联合北航推出的统一可控视频生成技术 AnimateAnything是什么 AnimateAnything是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything能精确操作视频,包括控制相机轨迹、文本提... Ai项目 2周前6,2800
RAG-Diffusion – 南京大学推出的区域感知文本到图像生成方法 RAG-Diffusion是什么 RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Dif... Ai项目 2周前4,7700
FitDiT – 腾讯联合复旦推出的高保真虚拟试穿技术 FitDiT是什么 FitDiT是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT用服装纹理... Ai项目 2周前4,9400
Documind – 开源AI文档处理工具,将PDF转换为图像提取结构化数据 Documind是什么 Documind是开源的AI文档处理工具,能从PDF文档中提取结构化数据。Documind具备将PDF转换为图像、用OpenAI API进行信息提取,根据用户定义的模式格式化输... Ai项目 2周前4,4400
MARS – 字节推出优化大模型训练效率的框架 MARS是什么 MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归... Ai项目 2周前5,1550
Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式 Verifier Engineering是什么 Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战... Ai项目 2周前5,4900
XiYan-SQL – 阿里推出文本到SQL的多生成器集成框架 XiYan-SQL是什么 XiYan-SQL是阿里巴巴推出的自然语言到SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升SQL查询生成质量。XiYan-SQL引入M-Sch... Ai项目 2周前7,2200
KuaiFormer – 快手推出的检索框架,基于Transformer KuaiFormer是什么 KuaiFormer是快手技术团队推出的基于Transformer的检索框架,用在大规模内容推荐系统。基于重新定义检索流程,从传统的分数估计任务转变为Transformer... Ai项目 2周前5,3950
EyeDiff – 文本到图像扩散模型,自然语言生成多模态眼科图像 EyeDiff是什么 EyeDiff是文本到图像的扩散模型,基于自然语言提示生成多模态眼科图像,提高常见和罕见眼病的诊断准确性。模型在多个大规模数据集上训练,能准确捕捉关键病变特征,并与文本提示高度一... Ai项目 2周前4,6850
BlueLM-V-3B – ViVo联合香港中文大学推出的算法和系统协同设计方法 BlueLM-V-3B是什么 BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署多模态大型语言模型(MLLM)至移动设备。模型以小尺寸... Ai项目 2周前4,8400