打印文章

遗传算法在试题组卷中的应用

作者：sccdz 文章来源：中国文秘网点击数1411 更新时间：2006-4-5 0:53:23 文章录入：中国文秘网责任编辑：中国文秘网

遗传算法在试题组卷中的应用

燕山大学研究生部刘彬金涛李阳明卢纪生

摘要：本文运用遗传算法的全局寻优对考试中的自动化组卷进行了研究，并得到了一个解决适合考方要求的试题模型的好的算法。

关键词：遗传算法全局寻优自动化组卷

1 引言

计算机辅助考试系统的自动组卷的效率与质量完全取决于抽题算法的设计。如何设计一个算法从题库中既快又好的抽出一组最佳解或是抽出一组非常接近最佳解的实体，涉及到一个全局寻优和收敛速度快慢的的问题，很多学者对其进行了研究。遗传算法以其自适应寻优及良好的智能搜索技术，受到了广泛的运用。Potts J C等人基于变异和人工选择的遗传算法对最优群体规模进行了论述；Hamilton M A等结合遗传算法把其运用到神经网络中，并取得了良好的效果[4]；也有众多的学者对保留最佳状态的遗传算法的收敛速度做了讨论。通过理论推导和事实运用，发现遗传算法在寻优和收敛性方面都是非常有效的。

本文结合遗传算法的原理和思想，对考试自动出题组卷的问题进行了研究，找到了一种获得与考试试题控制指标符合的试题模型的解决方法。

2 问题描述

自动组卷是考试系统自动化或半自动化操作的核心目标之一,而如何保证生成的试卷能最大程度的满足用户的不同需要,并具有随机性、科学性、合理性,这是实现中的一个难点。尤其在交互式环境下用户对于组卷速度要求较高，而一个理论上较完美的算法可能会以牺牲时间作为代价，往往不能达到预期的效果。因此，选择一个高效、科学、合理的算法是自动组卷的关键。

以往的具有自动组卷功能的考试系统大多采用随机选取法和回溯试探法。随机选取法根据状态空间的控制指标，由计算机随机的抽取一道试题放入试题库，此过程不断重复，直到组卷完毕，或已无法从题库中抽取满足控制指标的试题为止。该方法结构简单，对于单道题的抽取运行速度较快，但是对于整个组卷过程来说组卷成功率低，即使组卷成功，花费时间也令人难以忍受。尤其是当题库中各状态类型平均出题量较低时，组卷往往以失败而告终。

回溯试探法这是将随机选取法产生的每一状态类型纪录下来，当搜索失败时释放上次纪录的状态类型，然后再依据一定的规律（正是这种规律破坏了选取试题的随机性）变换一种新的状态类型进行试探，通过不断的回溯试探直到试卷生成完毕或退回出发点为止，这种有条件的深度优先算法，对于状态类型和出题量都较少的题库系统而言，组卷成功率较好，但是在实际到一个应用时发现这种算法对内存的占用量很大，程序结构相对比较复杂，而且选取试题缺乏随机性，组卷时间长，后两点是用户无法接受的，因此它也不是一种很好的用来自动组卷的算法。

分析上述两种算法的优缺点，不难发现，在限制条件状态空间的控制下，随机选取法有时能够抽取出一组令用户满意的试题。只不过由于它随机选取试题的范围太大，无法确定目前条件下哪些区域能够抽取合适的试题，反而可能在那些已经证明是无法抽取合适试题的区域内反复选题，进行大量的无效操作进入死循环，最终导致组卷失败。回溯试探法组卷成功率高，但它是以牺牲大量的时间为代价的，对于现今越来越流行的考生网上随机即时调题的考试过程来说，它已不符合要求。因此,必须结合以上两种方法寻找一种新的改进算法，这种算法要具有全局寻优和收敛速度快的特点。遗传算法（Genetic Algorithms）以其具有自适应全局寻优和智能搜索技术，并且收敛性好的特性能很好的满足自动考试组卷的要求。

3 遗传算法描述

遗传算法是一种并行的、能够有效优化的算法，以Morgan的基因理论及Eldridge 与Gould间断平衡理论为依据，同时融合了Mayr的边缘物种形成理论和Bertalanffv一般系统理论的一些思想，模拟达尔文的自然界遗传学：继承（基因遗传）、进化（基因突变）优胜劣汰（优的基因大量被遗传复制，劣的基因较少被遗传复制）。其实质就是一种把自然界有机体的优胜劣汰的自然选择、适者生存的进化机制与同一群体中个体与个体间的随机信息交换机制相结合的搜索算法。运用遗传算法求解问题首先需将所要求解的问题表示成二进制编码，然后根据环境进行基本的操作：selection，crossover，mutation……这样进行不断的所谓“生存选择”，最后收敛到一个最适应环境条件的个体上，得到问题的最优解。[6,7]

4 遗传算法应用

一般来说，用户在自动组卷时会对试卷的质量提出多方面的要求，如总题量、平均难度、题型比例、章节比例、重点章节比例、知识点的交叉与综合等，自动组卷就应最大程度的满足用户的要求。因此，在组卷之前，我们首先为自动组卷过程建立控制指标相应状态空间D，

D=[]

D的每一行由某一试题的控制指标组成，如题号、题型、章节、难度等，并且这些属性指标都进行编码表示成二进制形式，而每一列是题库中的某一指标的全部取值。在具体出题时，考方可能不会用到所有的指标，所以D包含的个体d_target可以表示为d_request和d_void，d_request表示考方要求的控制指标，d_void表示考方不要求的控制指标。即

[1] [2] [3] 下一页

打印本文

关闭窗口