一、大模型架构与训练优化
1. LLaMA Pro系列
通过拓展Transformer模块实现后预训练,避免灾难性遗忘,在代码和数学任务中表现优异
相关论文:《LLM后预训练方法》(arXiv:2401.02415v1)
2. 微调技术
BitFit方法仅训练偏差项和任务头,用30%数据即可匹配全模型微调效果
论文《大模型微调评测》(arXiv:2401.04051v1)对比了BitFit与适配器模块的优劣
二、多模态与推理能力
1. Mulberry模型
结合蒙特卡洛树搜索与集体学习,构建多模态数据集Mulberry-260k,具备逐步推理能力
论文发表于2024年12月(arXiv版本v2)
2. 长文本处理
LongBench v2基准测试包含503个多选题,专门评估大模型处理长上下文能力
三、可靠性研究
《更大且更易于指导的语言模型变得不那么可靠》(Nature)指出:
大模型在超低难度任务中仍会失败,缺乏"安全操作区域"
任务回避行为(如回复"我不知道")加剧了不可靠性
四、行业标杆模型
1. Llama 3系列
Meta AI发布的《The Llama 3 Herd of Models》(arXiv:2407.21783)
2. 医疗AI突破
浙江大学UniMedI框架:利用诊断报告统一多模态医学图像表示
复旦大学数字孪生脑平台:模拟860亿神经元规模
五、前沿趋势报告
2024年十大AI论文涵盖NLP、多模态、AI安全等领域,包括:
计算机视觉与神经网络的创新结合
生成式AI工具开发(医学/教育领域应用突出)
如需具体论文链接或领域细分(如代码生成、智能体等),可进一步补充说明。
留言(●'◡'●)