
这项由浙江大学计算机科学与技术学院的张文琦等研究者与阿里巴巴达摩院合作完成的突破性研究,于2025年1月发表在arXiv预印本平台上,论文题目为《2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining》。对这项研究感兴趣的读者可以通过项目主页 https://multimodal-interleaved-textbook.github.io/ 和代码仓库 https://github.com/DAMO-NLPSG/multimodal_textbook 了解更多详情。
想象一下,如果让一个AI学生坐在教室里听了2.5年的课,从数学、物理到化学、地球科学,它会变得有多聪明?浙江大学和阿里巴巴的研究团队就做了这样一件事,他们收集了2.2万小时的在线教学视频,相当于一个学生连续上了2.5年的课,然后用这些"课堂笔记"训练出了一个特别擅长学习的AI模型。
研究团队发现,传统的AI训练方法就像让学生只看图片配文字的闪卡来学习,虽然能记住一些基本知识,但很难理解复杂的概念。而真正的学习应该像在课堂上一样,老师一边讲解一边在黑板上画
 
                                     
                                     
                                     
                                     
                                     
                                     
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
            