过年期间将DeepSeek-R1 7b模型部署到了我的Mac上,感觉Thinking部分对于理解用户意图、推理、推理的深度,在教育行业产品应用都是非常有用的。
2018年我在一家K12公司做产品经理,但是我们的客户主要是大几百家分散全国的高中学校,其中有一段时间我负责题库产品的优化迭代,主要是英语和数学两个题库的相关的产品工作。主要任务:
- 提升试题难度精度
- 优化试题的解析和演算逻辑,降低人工打标成本
- 最终形成一键组卷(现在叫智能组卷)产品交付给客户
这三个任务对于但当时的我来说,还是存在着不小的挑战的,特别当时是我刚开始独立负责产品工作。当然,对于有挑战性的工作,我的心态就是对目标要有长期耐心、高频沟通来对认知纠偏。这里不赘述其中的过程,主要还是围绕上面的三个任务来展开。
提升试题难度精度
首先我们的客户是分散全国的,地域上有广东客户,有新疆客户。有人教A、人教B版、湘教版、沪教版、苏教版等多个教材版本。学校有省级师范高中,市级高中,普通高校,还有一些私立学校。因为客户群体的差异很大,在CTO的支持下我们走访了不少学校,针对年级主任、学科组长、任课教师和学生都做了访谈,了解大家对于试题难度的理解和期望。
最终我们对所有的题库产品进行了如下的难度拆解,并在此基础上形成了产品卖点:
- 难度维度变化:之前我们的难度只有人工打标的初始难度,现在我们分成了初始系统难度、系统动态难度、客户域难度、考区难度、学段难度等;
- 针对客户域、考区难度、学段难度形成产品卖点,比如客户A可以了解同一试题在其他客户B的难度是多少(这里就可以让教师和学科组长很明确区分同一试题对重点高中和普高的差距);
- 动态难度:动态难度的意义在于应对变化,包括教师和学生的能力提升、学生的流动等,通过定期的难度更新可以让难度更加精准和全面;
优化试题打标,降低人工打标成本
针对试题做解析成本是很高的,主要体现在慢慢的打标和人工的标注成本,但是在Deepseek上,我们可以通过AI来实现自动化的解析和演算逻辑,降低成本,同时保证精度。
打标的过程包括知识点、考点(对应高考大纲)、解题方法等不同的维度,2018年我们主要还是依赖的人工打标(主要是找师范院校的大学生来完成的),然后进行校对和发布,并且配合上反馈功能来进行纠偏。
我们当时其实也有一些使用人工智能来进行打标的实验,但是在试题的解析和演算逻辑上的表述上是完全没法实现商业应用的,另外还有效率和错误错误率的问题,最终我们实现的只能是系统粗打标(主要是知识点、考点这一块的精度尚可),自动化解析和演算逻辑撰写还是由人工来完成的。
在2025年来看,使用AI来完成试题解析和演算逻辑的成本是可以充分缩减的,同时精度也是可以提高的。至少是能完成试题的解析和演算逻辑的任务,也能够实现自动化的解析和演算逻辑撰写的功能。然后由人工校对即可。
所以看到现在AI的能力,还是很惊艳的,可惜现在已经不是18年互联网教育的火热的时代了。
一键组卷(现在叫智能组卷)产品交付
智能组卷系统放在最后是因为试题是试卷的基础,组卷需要对试题进行整体的规划,这里就包含了试题难度。同时试卷难度是基于试题难度的。
组卷系统需要:
- 设计考察范围:在应用层面可能是小测验、章节测验、期中期末考等
- 题型、题量设计:题型包括单选、多选、判断、填空、主观等,题量需要考虑考生的能力等级等
- 试卷难度设计:和试题不一样,试卷的难度需要有梯度,方便区分学生的能力水平,而且试卷难度和教师考试后针对试卷进行错题讲解的行为是有关系的。试卷难度合理能节省教师的错题讲解时间。
因此想把组卷系统在商业应用层面做好是非常考究的,做的好就是省时间好用,做不好就是浪费时间的同时,形成教师群体的刻板印象,不愿意再尝试。所以我们再实际发布的时候,也是采用了灰度发布,一步步的推广出去的。这样商业风险更低一些。
总结
题库是互联网教育中的基础产品和服务,既可以题库作为产品出售,也可以在此基础上延伸出增值服务。因此题库的丰富度、实现效率和成本和基于题库的商业化是题库类产品需要考虑的3个核心问题。