2026年,经济合作与发展组织(OECD)发布了其教育数字化旗舰出版物的最新版本——《OECD数字教育展望2026:探索生成式AI在教育中的有效应用》(OECD Digital Education Outlook 2026: Exploring Effective Uses of Generative AI in Education)。这份报告由OECD教育与技能司下属的教育研究与创新中心(CERI)牵头,由Stéphan Vincent-Lancrin主编,汇集了来自全球的实证研究、设计实验和专家访谈,构建了一幅关于生成式人工智能(Generative AI, GenAI)如何影响教育的全景图。
不同于以往讨论中对AI的简单二元判断——"拥抱"或"禁止"——这份报告试图回答一个更为精细的问题:GenAI在什么条件下才能真正增进学习、赋能教师、提升教育系统效能? 本文将按照报告的三大核心板块——学生学习、教师赋能、系统管理——逐层解读这份重要政策文件的核心发现和政策启示,并结合育见0-6的关注视角进行分析。
这份报告最核心、也最具警示意义的发现,可以用一个悖论来概括:使用GenAI成功完成一项教育任务,并不自动意味着学习的发生 [source: Executive Summary, p.11]。
报告引用了一项在土耳其进行的大规模随机对照实验来说明这一点。在该实验中,1000名9至11年级高中生在六次90分钟的数学练习中被分为三组:使用传统教材自学组、使用通用GPT聊天机器人组("GPT base")、以及使用经过教育学配置的GPT辅导机器人组("GPT tutor")。结果显示,使用通用GPT的学生在练习中的正确率比自学组高出48%,使用教育型GPT辅导的学生更高出127%。然而,当在闭卷考试中评估实际学习效果时,使用通用GPT的学生比自学组的成绩反而低了17% [source: Bastani et al., 2024; Chapter 1, p.20-21]。
这一发现揭示了GenAI在教育应用中的根本张力:通用型GenAI工具可以提升学生的任务表现(task performance),但如果被当作捷径使用,反而会削弱认知投入和深度学习 [source: Chapter 1, p.20]。报告将这种现象称为"元认知懒惰"(metacognitive laziness)——学生跳过了诊断自身困难、寻求帮助、评估帮助内容并自行实施的完整学习过程,直接接受AI给出的现成答案 [source: Chapter 1, p.21]。
在更大的政策背景中,这意味着各国教育系统不能简单地将GenAI"放进课堂"就期待学习效果的提升。教育界面临的真正挑战是:如何从通用型聊天机器人转向有教育学目标的专用AI工具——GenAI必须成为"学习伙伴"而非"学习捷径" [source: Executive Summary, p.12]。
报告首先勾勒了一幅GenAI在教育领域的全球扩散图景。截至2025年4月,基于大语言模型(LLM)的聊天机器人(如ChatGPT、Gemini、Claude、DeepSeek等)已占据GenAI工具公共使用流量的95%。在2024至2025年间,ChatGPT的独立用户数增长了42%,单次访问时长从7分钟翻倍至15分钟 [source: Liu, Huang and Wang, 2025; Chapter 1, p.14-15]。
但这种增长存在显著的不平衡:2025年,高收入国家占GenAI使用量的60%(2024年为55%),中等收入国家为39%,低收入国家不到1% [source: Chapter 1, p.15]。报告指出,新加坡、卢森堡、立陶宛等国的ChatGPT使用率最高(互联网用户中的占比超过40%),而印度、南非、中国等国的渗透率仍较低。
在学生层面,GenAI的使用已从边缘走向主流:
值得注意的是,学生使用GenAI的主要动机是效率和便利,而非深度学习。一项七国欧洲调查显示,最常见的课外使用方式是"获取信息"(56%)和"获得概念解释"(45%),约三分之一的学生将其用于"获得任务的完整解决方案",仅约20%用于自我调节功能(如制定个性化学习计划)[source: Vodafone Foundation, 2025; Chapter 1, p.16-17]。
关系解读:GenAI在学生群体中的快速扩散,意味着教育系统已经无法选择"要不要面对GenAI"——即使学校不引入GenAI工具,学生在校外已经大量使用。这种"倒逼"效应迫使政策制定者从"是否允许"转向"如何引导"。同时,使用动机以效率为主而非学习为主的现实,恰好印证了报告所揭示的核心悖论:学生倾向于将GenAI当作完成任务的捷径,而非深度学习的工具。
报告第一部分(Part 1)聚焦"增强学生学习",通过多章内容系统性地梳理了GenAI对学习效果的影响。这一部分最关键的发现可以概括为:GenAI的学习效果高度取决于其设计方式和使用场景——同样是GenAI,既可以促进学习,也可以损害学习。
通用型GenAI的风险——认知卸载与深度学习丧失
多项研究表明,当学生不加引导地使用通用型GenAI时,会出现"认知卸载"(cognitive offloading)现象。一项美国神经科学研究让五所大学的学生在三种条件下写20分钟作文——纯靠自己、使用搜索引擎、使用ChatGPT。结果显示:使用ChatGPT的学生在一小时后仅能准确回忆12%的作文内容,而另外两组为89%。尽管ChatGPT组的作文质量评分更高,但学生对自己观点的概括能力更低、作品之间的内容相似度更高 [source: Kosmyna et al., 2025; Chapter 1, p.21]。
教育型GenAI的潜力——有设计的AI辅导可以超越传统课堂
另一方面,当GenAI被有目的地配置为教育工具时,其效果令人鼓舞。报告引用了一项在哈佛大学进行的随机对照实验:在一门本科物理入门课中,学生被分为课堂学习组和在家使用GenAI辅导组。两组采用相同的"主动学习"教学法,只是传递方式不同。结果显示,GenAI辅导组的学习增益显著高于课堂组(效应量d=0.63),且学生报告了更高的参与动机 [source: Kestin et al., 2025; Chapter 1, p.22]。
在中国,一项基于GenAI的个性化阅读教学工具被配置为实施"基于问题的学习"策略,与传统的非个性化教学相比,显著提升了学生的阅读表现和学习动机 [source: Huang et al., 2025; Chapter 1, p.22]。
苏格拉底式对话——GenAI辅导的核心教学法
报告第3章专门探讨了基于对话的AI辅导系统如何通过苏格拉底式提问法(Socratic questioning)促进深度学习。与传统的对话树式AI辅导系统不同,基于GenAI的辅导系统能够生成灵活的、适应个体学习者需求的对话,通过精心设计的提问引导学生自主建构知识,而非直接给出答案。这种方法根植于维果茨基的"最近发展区"(Zone of Proximal Development)理论和"脚手架"(scaffolding)理念 [source: Li and Hu, 2026; Chapter 3, p.66-67]。
GenAI与创造力——"慢用"优于"快用"
报告第5章引用了Ronald Beghetto关于GenAI与创造力关系的深入分析。Beghetto提出了"快速使用"(Fast AI use)与"缓慢使用"(Slow AI use)的区分:快速使用是将AI作为内容生成器快速产出作品,而缓慢使用则将AI作为探索和反思的支架。研究表明,缓慢使用方式更有利于培养创造力 [source: Beghetto, 2026; Chapter 5, p.117-121]。一项关于创意写作的研究发现,使用GenAI进行头脑风暴的参与者在故事创意和写作质量两个维度上都优于独立创作组,但集体创意多样性下降——指向GenAI可能导致"思想同质化"的风险 [source: Doshi and Hauser, 2024; Chapter 1, p.24]。
GenAI反馈——可比拟人类但缺乏"动机维度"
报告系统性地梳理了GenAI在提供反馈方面的研究。总体而言,基于LLM生成的反馈在任务正确性维度上可以匹配甚至略优于人类教师的反馈,且更具可读性和风格化。然而,人类反馈在"过程反馈"(学习策略、自我调节)维度上略有优势,更为重要的是,学生普遍认为人类反馈比AI反馈更可信、更有意义、更具激励性 [source: Dai et al., 2024; Kaliisa et al., 2025; Chapter 1, p.24-25]。这意味着GenAI反馈在"关系维度"和"动机维度"上仍然难以替代教师的角色。
关系解读:报告的第一部分传递了一个清晰的信息——GenAI在教育中的效果并非由技术本身决定,而是由教育学设计决定。没有教学法指导的GenAI使用可能比没有GenAI更糟糕;有精心设计的GenAI应用则可以实现传统教学难以达到的个性化和互动性。这对政策制定者意味着,投资的重点不应仅仅是技术基础设施,更应是教师的AI素养和教育学设计能力。
报告第二部分(Part 2)聚焦"增强教师表现",这也是报告最具政策敏感性的部分。根据OECD 2024年教学与学习国际调查(TALIS),OECD国家平均36%的初中教师报告在过去12个月中使用过AI辅助教学,但各国差异巨大——新加坡和阿联酋超过75%的教师使用AI,而法国和日本不到20% [source: OECD TALIS 2024; Chapter 1, p.17]。
教师使用GenAI的主要用途和态度
教师使用AI主要集中在备课和效率提升领域:68%用于学习和总结教学主题,64%用于生成教案 [source: TALIS 2024; Chapter 1, p.18]。约40%的教师认为AI能帮助其个性化支持学生,约50%认同AI有助于创建或改进教案。但同时,每十位教师中有七位认为AI可能使学生将他人作品据为己有,六成以上教师担心AI会放大偏见或损害数据安全 [source: TALIS 2024; Chapter 1, p.18-19]。
四分之三的教师报告自己缺乏使用AI进行教学的知识和技能,约半数教师认为AI不应被用于教学。十分之一的教师报告其学校明确禁止使用AI [source: TALIS 2024; Chapter 1, p.18]。
"替代-互补-增强"框架
报告第7章(Cukurova, 2026)提出了一个关键的概念框架,用于理解人类教师与AI之间的不同协作模式:
报告还提出了五种递进式的"教师-AI协作"模式:事务型(Transactional)→ 情境型(Situational)→ 操作型(Operational)→ 实践型(Praxical)→ 协同型(Synergistic),从简单的AI执行教师指令到深度的相互学习和共同进化 [source: Chapter 7, p.136-139]。
教师生产力的实证——备课时间减少31%
报告引用了一项在英国68所中学、259名教师中进行的随机对照实验:接受了GenAI使用指导的教师,其每周备课和资源准备时间从平均81.5分钟减少至56.2分钟,减少了31%,且教案和资源的质量未受影响 [source: Roy et al., 2024; Chapter 1, p.27]。
从通用工具到教育专用工具——教师自主权的核心议题
报告第8章聚焦一个关键问题:目前大多数GenAI工具是为通用目的设计的,很少与教育课程对齐。报告主张教育专用GenAI工具应该与教师和学生共同设计(human-centred design),让教育者能够控制机器的行为方式以及学生与之交互的方式。例如,教师应能设定AI"幻觉"(hallucination)的容忍度、控制学生需要练习的批判性思维程度等 [source: Topali, Ortega-Arranz and Molenaar, 2026; Chapter 8, p.147-162]。
关系解读:教师赋能部分的核心张力在于"效率"与"专业性"之间的取舍。如果教师将过多任务外包给AI,可能停止自身的专业成长,并削弱与学生的关系。报告的"增强"模式提出了一种理想路径:教师和AI协作产出优于任何一方单独工作的结果,同时教师在过程中也获得专业提升。这对早期教育领域具有特别的启示意义——在学前教育中,教师-儿童的关系质量(即"过程质量")本身就是教育质量的核心组成部分,任何削弱这种关系的技术应用都需要审慎对待。
报告第三部分(Part 3)将视角从课堂扩展到教育系统和机构层面。
教育路径优化与学分互认
高等教育面临的一个持久挑战是不同院校和项目之间的课程等效性认定。报告指出,GenAI可以通过基于嵌入向量(embedding)的模型处理课程描述和学生入学记录,帮助识别跨院校的课程等效关系。目前的研究显示,GenAI在识别等效课程方面的表现与人类判断高度一致 [source: Pardos and Borchers, 2026; Chapter 11, p.200-211]。
标准化评估的创新
GenAI在标准化考试开发中的潜力引人注目。LLM可以自动生成多选题和短答题,且在题目质量的心理测量属性上与人类出题者相当甚至略优——尤其在高低能力考生之间的区分度上表现更好 [source: Bhandari et al., 2026; Chapter 1, p.29]。更有趣的是,GenAI正在催生全新的评估形式:如多邻国英语测试(Duolingo English Test)利用GenAI开发了交互式写作任务(聊天机器人在写作过程中实时反馈)和口语对话评估(与AI进行"自然语言"对话)等传统技术无法实现的评估类型 [source: von Davier, 2026; Chapter 12, p.215-218]。
教育研究的变革
报告第13章指出,GenAI正在深刻改变教育研究的方式。研究者越来越多地使用GenAI辅助写作和编辑论文、进行文献综述。但GenAI也带来新的研究可能性:合成数据(synthetic data)的生成可以在不侵犯隐私的情况下为教育研究提供数据支持;基于多智能体(multi-agent)的GenAI模型可以用于需要跨学科视角的研究 [source: Guellec and Vincent-Lancrin, 2026; Chapter 13, p.220-239]。
关系解读:系统管理层面的GenAI应用看似远离课堂,但其影响深远。当GenAI开始重塑评估方式、学分认定和研究方法论时,整个教育体系的"规则"都在发生变化。对于早期教育领域而言,虽然标准化考试和学分互认并非其核心关切,但GenAI在教育研究领域的应用(如合成数据、AI辅助文献综述)可能为长期缺乏大规模数据支持的学前教育研究带来新的方法论工具。
报告附录1.A系统性地梳理了各国围绕GenAI教育应用出台的政策文件和实践项目。
政策文件层面:大多数OECD国家在2023年以后更新或发布了针对GenAI的教育策略。政策响应主要集中在三个维度:长期战略制定、实操指南和监管框架开发、以及GenAI素养教育和专业发展 [source: Annex 1.A, p.37]。在2025年欧洲学校网调查中,23个受访国中10个OECD和加入国报告已正式将GenAI纳入其教育体系的策略,9个国家正在制定相关政策 [source: European Schoolnet, 2025; Chapter 1, p.37]。
国别实践亮点:
| 韩国 | ||
| 爱沙尼亚 | ||
| 英国(英格兰) | ||
| 法国 | ||
| 荷兰 | ||
| 芬兰 |
[source: Annex 1.A, p.37-38; Box 1.2, p.31-32]
关系解读:各国政策响应呈现出明显的分层格局。一些"先行者"国家(如爱沙尼亚、韩国、英国)已从指南层面进入系统级实施,而更多国家仍停留在制定策略或指导文件阶段。值得注意的是,报告强调各国普遍倾向于"引导知情判断"而非"全面禁止",这反映了一种新兴的政策共识:GenAI已不可回避,关键在于如何负责任地整合。
实证导向的分析框架:与此前许多关于AI与教育的讨论不同,本报告的核心论证几乎全部基于随机对照实验、大规模调查和系统性文献综述,而非推测或个案。报告引用的土耳其数学练习实验、哈佛物理课实验、英国教师备课效率研究等,都具有较高的方法论质量,为政策讨论提供了坚实的证据基础 [source: Chapter 1, p.20-28]。
"替代-互补-增强"框架的政策实用性:这一概念框架不仅清晰地界定了人机协作的不同层次,更为政策制定者提供了一个决策工具——哪些教师任务可以安全地交由AI替代、哪些需要保持人类主导、哪些应追求协同增强 [source: Chapter 7, p.130-144]。
跨教育层级的覆盖:报告从K-12到高等教育,从学生学习到教师表现再到系统管理,建构了一个多层级的分析框架。特别是第三部分对教育系统基础设施(学分互认、标准化评估、教育研究)的讨论,将GenAI的影响延伸到了课堂之外的制度层面。
TALIS 2024数据的独特价值:本报告首次大规模地呈现了OECD国家教师对AI态度和使用情况的跨国比较数据,填补了此前依赖小样本或单国调查的空白 [source: OECD TALIS 2024; Chapter 1, p.17-19]。
"数字鸿沟"到"AI鸿沟"的延伸关注:报告敏锐地指出,GenAI的扩散正在加剧而非缩小全球教育不平等。高收入国家占GenAI使用量的60%,低收入国家不到1% [source: Chapter 1, p.15]。同时报告也看到了积极面——巴西农村地区的大规模实验表明,小型语言模型在断续网络环境中通过移动设备离线运行,也能为弱势地区学生提供有意义的支持 [source: Chapter 6, p.122-125]。
早期教育视角的缺失:这是从育见0-6视角出发最为显著的局限。报告的13章内容几乎完全聚焦于K-12高年级和高等教育场景。0-6岁阶段的儿童既不是GenAI的直接使用者(也不应该是),但学前教育的教师、课程设计和系统管理同样面临GenAI带来的深刻变革。报告未能触及学前教师如何利用GenAI优化观察记录、个别化教育计划、家园沟通等核心工作场景。
长期效果的证据缺口:报告坦承,目前大多数研究基于短期干预而非长期追踪 [source: Chapter 1, p.31]。我们仍然不知道学生持续使用GenAI一学期、一学年甚至更长时间后,其元认知能力、自主学习习惯和深度理解能力会发生怎样的变化。
公平性分析的不充分:虽然报告提及了全球层面的"AI鸿沟",但对同一国家内部不同社会经济背景学生面对GenAI的差异性影响分析不够深入。家庭数字资本的差异可能使GenAI成为新的不平等放大器——资源丰富家庭的孩子可能在家长指导下更有效地使用GenAI学习,而弱势家庭的孩子则更可能将其作为认知捷径。
伦理和价值观讨论的不足:尽管报告多次提及数据隐私、算法偏见等问题,但对GenAI在教育中引发的更深层伦理问题——如AI生成内容对儿童世界观的塑造、AI"陪伴"对儿童社会情感发展的影响、以及AI化教育与"以儿童为中心"理念之间的张力——缺乏系统性的讨论。
文化多样性视角的欠缺:报告的研究证据和政策案例主要来自OECD成员国(以欧美为主),对非洲、拉丁美洲、东南亚等地区的GenAI教育应用关注较少。考虑到GenAI的训练数据和输出偏向英语和西方文化 [source: Chapter 1, p.14],这种文化视角的缺失尤为值得关注。
这份报告出现在一个关键的历史节点上。2022年末ChatGPT的发布至今不过三年多时间,GenAI已从一项新奇技术演变为全球教育系统必须面对的现实力量。报告所揭示的核心悖论——"任务表现提升≠学习发生"——触及了教育哲学的根本问题:教育的目的究竟是让学生更高效地产出(output),还是在产出的过程中获得成长(growth)?
如果我们接受后者,那么GenAI在教育中的价值就不在于它能多快、多好地帮学生完成作业,而在于它能否在这个过程中让学生的思维更深入、更批判、更自主。报告提出的"缓慢使用"(Slow AI use)理念,实际上呼应了教育领域一个更古老的智慧——学习需要时间、需要困难、需要挣扎。GenAI的真正价值可能不在于消除学习中的困难,而在于让困难变得更"有产出性"(productive struggle)。
对于其他国家尤其是中国的启示在于:我们正处在GenAI教育政策的窗口期。在许多国家仍在犹豫是否允许学生使用GenAI时,那些率先建立"有教育学指导的GenAI使用框架"的国家可能将获得显著的教育竞争优势。但这一优势的获取,不是靠简单地引入技术,而是靠对教师专业能力的投资和对教育学原则的坚守。
当AI能够生成完美的作文、精确的数学解答和流利的外语对话时,教育还剩下什么是不可替代的?也许,答案正是那些AI最无法模拟的——好奇心、同理心、创造力、判断力,以及人与人之间真实的教学关系。
💡 育见观察
这份报告让我们看到,生成式AI对教育的冲击不仅仅是一个技术问题,更是一个教育学问题、一个政策设计问题,甚至是一个关于"学习本质"的哲学问题。
从全球早期教育的视角看,虽然这份报告几乎没有直接讨论0-6岁阶段,但其核心发现对学前教育领域具有深远的间接启示。正如我们在此前对芬兰数字化教育政策和爱尔兰数字素养战略的解读中所讨论的,数字技术进入早期教育的方式必须与这个年龄段的发展特点和教育理念高度契合。当报告指出"GenAI反馈在关系维度和动机维度上无法替代人类教师"时,这一结论在学前教育场景中尤为突出——对于0-6岁的儿童而言,教师-儿童关系本身就是教育的核心介质,任何替代性技术的引入都必须以不损害这一关系为前提。
然而,我们也不应忽视GenAI为学前教育教师带来的巨大赋能潜力。如果一位幼儿园教师能将备课时间减少31%(如英国研究所示),那她就有更多时间投入到与儿童的深度互动中——而这恰恰是学前教育最核心的质量指标。报告提出的"增强"模式对学前教育尤其有意义:AI不是取代教师对儿童的观察和回应,而是帮助教师更高效地记录、分析和反思这些互动,从而让教师的专业判断力在AI的辅助下得到提升而非削弱。
当我们将目光投向GenAI素养教育的讨论时,一个值得深思的问题浮现了:如果各国已经开始在小学甚至学前阶段纳入AI素养目标,那么"理解AI不是万能的"这一认知,是否应该成为21世纪儿童最早需要建立的数字素养之一?在一个AI无处不在的世界里,帮助幼童建立"人与机器的边界意识",可能与教会他们读写算一样重要——但这需要的不是让幼儿接触更多屏幕,而是让他们在丰富的真实世界体验中理解"什么是人能做而机器不能做的"。
信息来源