采用模糊协同过滤技术实现网络课程推荐的研究

2023-02-18

一、研究背景

(一) 网络学习系统面临的问题

网络的普及带动了网络学习的发展。网络学习并不等于将传统的学习内容简单地放到网络上。它一样要遵循学习的规律, 包括激发学习动机、深入学习相关内容、与同伴讨论、课程练习和知识运用。因为网络知识分布的特点, 基于网络的学习可以建立索引学习 (Index Learning) 、搜寻学习及循序学习等。

网络学习遇到的难点是在浩瀚的学习资料中容易迷失方向, 感觉找不到适应自己的学习材料。而网络学习系统的开发者也困扰着, 究竟学习者对什么感兴趣。解决者这两方面问题的途径, 就是自动化的推荐技术。

本文试图通过协同过滤技术, 找到和在线使用者相同嗜好的其他学习者, 并推荐其他用户喜欢的信息给线上用户。本研究将应用模糊集合理论来解决切割点不明确的问题并与协同过滤方法整合来建立一个在线教材推荐系统。

(二) 个性化

个性化的观念最早出现在制造业, 它的名称为大量定制化。随着科技的进步, 制造的成本降低, 成本不再是业者唯一考虑。业者纷纷注意到定制化概念。将定制化应用于服务业, 就是所谓个性化。

网站个人化的层次分为三类[1]:定制化、学习社群行为和学习者喜好。

(三) 信息过滤

网络时代, 解决信息过载的方法, 可分为信息撷取 (Information Retrieval, IR) 与信息过滤。信息撷取由用户以主动方式获得信息, 信息过滤则有三种主要方式, 文献[2]将信息过滤分为内容基础过滤、协同过滤及经济式过滤三类。

信息过滤中, 内容基础过滤与信息撷取方法类似。主要根据用户的数据和以前看过的文件, 以选择其他相似的文件。协同过滤以学习者相似度进行推荐。经济式过滤根据信息取得的成本考虑, 以过滤信息。

(四) 信息过滤与个性化

将信息过滤技术应用于个性化, 主要从三个角度实现[4]:

1. 以规则为主的过滤法

请网络用户填写相关数据, 如用户年龄、性别、希望网站提供哪类商品信息、消费习惯等等。如此网站服务提供者可根据此信息, 提供用户个性化的信息, 达到个性化目标。

2. 协同过滤

此种技术藉由累计学习者浏览行为, 以提供相似使用者类似信息, 又称为群体过滤 (Group Filtering) 。如计算机公司网站, 根据大量的学习者浏览行为, 找到喜爱程序设计的学习者, 也会喜欢VB.NET程序设计。当有一位喜爱设计程序的用户上网浏览时, 系统便会推荐VB.NET程序设计。

3. 学习型代理人

系统自动追踪用户在网络上的使用行为, 根据使用者浏览的网页, 调整下次网页呈现的内容。此种技术, 系统具有学习的功能。因自动记录用户的浏览行为, 使用者不需额外输入数据。

(五) 推荐系统

往往在日常生活中, 我们需要在没有个人经验下抉择[5], 这时我们需要别人的推荐, 方式包括口碑相传、推荐信、在报纸上的电影和书籍评论, 或一般性调查。推荐系统可以帮助这种流程。在与在线消费者的互动过程中, 推荐系统采用统计和知识发现的技巧以处理产品推荐的问题[5]。

目前网络上较常被使用的推荐方法归纳为非个性化推荐、属性式推荐、物品关系型推荐、人物关系型推荐四大类[6]。

(六) 目前推荐系统存在的不足

虽然以内容为基础的推荐已经被发展为多个系统, 而且实际运用在商业上, 但是这类系统存在几项缺点有待改善, 是目前成效最差的推荐方法。分别说明如下[7]:

1. 无法深入分析

以目前的技术, 只能得到内容中部分文字数据, 某些领域的项目特征值无法获取。如以网页推荐为例, 掺杂有电影、音乐等多媒体数据不易分析。导致不同网页之间的相似度比对困难, 无法做到有效的网页推荐。另外, 还有其他会影响用户体验, 如信息截取 (IR) 技术忽略美感质量, 影像中包含文字数据, 网络下载速度等等。

2. 太过专门化

系统以用户的轮廓推荐, 学习者被限制看他过去曾评分的类似项目。推荐系统没有密切观察用户兴趣的改变。解决的方法是加入随意的注记。如信息过滤的内容, 交叉和变化操作。

3. 要求学习者反馈

评比增加学习者负担, 学习者大都不愿多花时间做评比, 因此会导致评比不足。而评比不足会降低系统效能。此问题可以采用隐性评比的方式, 解决学习者不愿花费时间与精力在评比上。

4. 学习者兴趣的影响

学习者兴趣的预测精准度, 影响推荐结果。如果推荐系统误判用户的兴趣, 会推荐出学习者完全没兴趣的项目。

二、研究目的和架构

(一) 研究目的

协同过滤依据用户的历史数据, 提供个性化的推荐。本研究采用协同过滤推荐教学单元内容, 为了改良协同过滤的缺点, 结合模糊理论, 产生推荐清单, 推荐给在线学习者。本研究的目的包括:

(1) 提出一个结合模糊理论与协同过滤的新的推荐模型。

(2) 建立一个具有个性化的推荐系统架构, 以提供在线学习者, 教学单元推荐列表。

(3) 本系统架构所得到的推荐效能, 要优于传统协同过滤。

(二) 研究架构

本研究可以共分为四个阶段进行:第一阶段是弄清楚研究的背景、动机及目的。从网络学习网站, 学习者的角度找出问题的症结。第二阶段是为文献探讨, 研究本论文相关技术, 包括网络学习、网络挖掘、个性化、推荐系统、协同过滤、隐性指标及模糊理论。第三阶段思考研究方法, 包含系统架构、隶属函数模块、项目为主模糊协同过滤模块和推荐模块。第四阶段为实证研究, 包含研究工具、数据源与预处理, 模型建立与推荐、实验设计和实验结果。第五阶段为总结结论, 为本研究下结论并指出所作贡献。

三、相关技术分析

(一) 网络挖掘

可以将网络挖掘分成三个处理步骤:前置处理、挖掘算法及模式分析[8]。

1. 前置处理

主要是处理网站日志的一连串动作, 在进行数值挖掘之前, 必须对网站日志的数据加以筛选与过滤, 以满足算法输入数据型态的设定。前置处理主要分成几个步骤:资料清除、用户界定、周期界定、路径补全、交易界定。

2. 挖掘算法

挖掘算法包括分类、估计、预测、特征描述、差异、相似聚类、聚类、时间变化分析和说明。

3. 模式分析

方法大致分为三种, 以人类为主, 以查询为主和以焦点挖掘为主。

(二) 协同过滤

协同过滤推荐系统采用”协同过滤”来做推荐。这类推荐系统是首先尝试使用人工智能技术进行个性化的方法。它搜集学习者在网站上的相关信息, 并加以分析与比对相似度, 将有相同喜好或是相似行为的学习者归为同一群组。当学习者再次进入网站时, 推荐系统会推荐用户所属群组, 其他人有兴趣的网页给学习者, 也就是同好之间相互推荐彼此喜爱的事物, 可以挖掘出消费者潜在需求。

1. 协同过滤流程

文献[5]将协同过滤分为三个部分。输入数据的呈现、邻居的形成及推荐的产生。

(1) 输入数据的呈现

将消费者的购买行为模式, 利用M×N的矩阵表示。其中列表示顾客集合, 行表示产品项目的集合, 矩阵中的数字表示评比信息。

(2) 邻居的形成

在协同过滤中最重要的一个步骤, 就是计算出顾客间的偏好相似度, 以成为未来推荐的参考。

(3) 推荐的产生

在计算出顾客的偏好相似度后, 相似度较高的顾客群, 成为推荐的参考名单。从具有相似偏好的顾客群当中, 找出该群组成员当中, 受欢迎的前N项推荐项目。

2. 协同过滤的算法种类

文献将协同过滤的算法[9], 分为两类, 包括Memory-Based CF和Model-Based CF, 兹分述如下:

(1) Memory-Based CF

在推荐时, 计算用户的历史纪录, 找出和用户相似的群组。其中最常用的方法为最接近邻居法[12]。

(2) Model-Based CF

将用户的历史数据, 通过统计分析或机器学习的方法, 建立用户偏好模型。紧接着利用此一模型产生推荐。目前使用的方法包括关联法则 (Association Rule) 等等[10]。

3. 近邻的查询方式

在数值挖掘中, 可以有两类近邻的查询方式, 包括目标物相关性之相似度查询及所有成对之相似度查询[10]。说明如下:

(1) 目标物相关性之相似度查询在查询的过程中, 先有目标物和数据库, 然后根据使用者设定的距离, 查询目标物的近邻。

(2) 所有成对之相似度查询

从所有的元素中, 找到彼此间距离在学习者设定的范围之内的配对。

4. 找寻近邻种类

在找寻近邻时可分为三类[10][11]:

(1) 欧几里得距离 (Euclidean distance)

两组数列的欧几里得距离定义如下:考虑{Ai}为目标数列, {Bi}为数据库中的一组数列。已知{Ai}与{Bi}两数列长度为n, 则

(2) 相关 (Correlation)

考虑{Ai}为目标数列, {Bi}为数据库中的一组数列。已知{Ai}与{Bi}两数列长度为n, 那么{Ai}与{Bi}的相关性如下:

(3) 汉明距离 (Hamming Distance)

考虑{Ai}为目标数列, {Bi}为数据库中的一组数列。而且{Ai}与{Bi}的元素都是二进制的数字, 两数列长度为n。对两组二进制数作Exclusive-Or运算可以得到数列{Ci}, 即表示成下列公式:

汉明距离为二进位个数中1的个数。举例说明A=011001, B=000111, 则C=A⊕B=011110, 汉明距离为4。

文献[8]指出标准协同过滤缺点:缺少外显学习者评比、评比数据稀疏及数据量很大。像簇的网页使用探勘技术, 从用户的交易脱机发现模式, 可以改进协同过滤扩充性问题。不过要付出减少推荐的正确性的成本, 但可用关联法则解决。

(三) 用户喜好的评价指标

用户喜好的评价指标[12]指经由纪录用户的网络使用行为, 判断用户对被推荐项目的喜好程度。也就是在推荐的过程中, 学习者不须主动提供任何信息, 系统便能对用户提供信息, 以便用户后续浏览行为或行动, 而此信息是用户很有兴趣获得的。

文献[13]认为可以观察学习者行为 (隐性) 而不是直接要求学习者反馈 (外显) , 以了解学习者的兴趣。虽然隐性的方法, 比外显的方法较不正确, 但不会浪费学习者的时间或心力。使用时间和学习者对网页的兴趣有关。

(四) 模糊理论

在真实世界中, 人的感觉、想法和结论存在不确定性及模拟两可, 如他很可爱, 某地不好玩。可爱、好玩观念均很模糊, 无法用传统的数学观念加以表达。

四、设计方案

(一) 系统架构设计

本研究所提出的系统架构 (如图1) , 按照一般系统的架构, 即整个系统的输入, 针对输入做处理的模块和整个系统的输出, 分述如下:

1. 输入

本研究以学习者的学习纪录作为系统的输入, 学习者包含在线学习者与一般学习者所组成。在线学习者指正在教学网站上学习的学习者。而一般学习者为在线学习者之外的学习者, 其学习纪录已存在学习纪录中 (.txt) 。以在线学习者与一般学习者的学习纪录当作输入, 经由数据处理, 得到对在线学习者个人化的推荐信息。

2. 处理

本研究的处理模块包含三个部分:归属函数模块、项目为主模糊协同过滤模组及推荐模组。

3. 输出

系统的输出, 是提供在线学习者一连串教学单元列表, 提供在线学习者学习上的参考。而此推荐的教学单元列表, 是由推荐模块而来。将所得到教学单元列表, 根据预测分数由大到小排列, 找出前N项作为推荐清单, 并纪录在线学习者后续学习行为, 以为系统改进参考。

(二) 隶属函数模块设计

协同过滤模型可以以学习者或项目两种角度建立。以学习者为基础的协同过滤指出和在线学习者相同兴趣的学习者, 且推荐他们喜欢的项目给在线学习者。但有扩充性的问题, 所以不适合在线处理。

在进行模糊值计算之前, 先将教学单元, 依序且无重复地存入矩阵中, 以便后续辨识某个教学单元的编号, 如“一般安全卫生教育训练课程概述”为编号1的教学单元。教学单元与课程名称的组合, 才能唯一辨识各个教学单元。

图2为隶属函数模块流程, 包括四个部分, 分别说明如下:

1. 汇聚学习纪录

教学单元预测问题可视为学习者会话S的集合和教学单元P的集合。其中。每个会话si∈S表示成教学单元参考空间的n维向量。也就是, 其中di表示会话si中, 教学单元pk的浏览时间。假设在si中浏览到的教学单元A (si) P, 预测系统要处理A (si) 和P中不属于A (si) 的每个教学单元, 以便提供预测清单。

2. 时间计算

教学单元浏览时间是一个测量学习者兴趣的好指标。学习者花在一个教学单元的时间愈多, 就表示他越喜欢该教学单元。学习时间是本研究的观察重点。

在未计算模糊值之前, 先将以时、分及秒为单位的学习时间, 转化为以秒为单位, 以便进行模糊值的计算。

3. 计算da和dc

假设有两个隶属函数 (MembershipFunctions) fv+和fv, 他们分别对应喜欢和不喜欢的模糊程度。这两个隶属函数可以用图3梯形函数 (Trapezoidal Functions) 表示如下:

至于计算模糊值, 可以用区间的模糊表示重新定义会话si如下:

当学习者的学习时间大于dc值, 且小于或等于dmax时喜欢的模糊值为1。如果学习者的学习时间介于da和dc之间, 那么模糊值为。如果学习da者的学习时间介于dmin和da之间, 那么喜欢的模糊值为0。如果学习者的学习时间小于dmin之间, 那么喜欢的模糊值为-1, 表示无效的参考。

如果学习者的学习时间介于dmin和da之间, 那么不喜欢的模糊值为1。如果学习者的学习时间介于da和dc之间, 那么不喜欢的模糊值为。如果学习者的学习时间介于dc和dmax之间, 那么不喜欢的模糊值为0。如果学习者的学习时间小于dmin之间, 那么不喜欢的模糊值为-1, 表示无效的参考。以公式表示如下:

其中⊥表示无效值, 即目前教学单元不是一个有效的参考。

(三) 模糊协同过滤模块设计

面向学习者的模糊协同过滤, 是以学习者关系为基准计算相似度。而以项目为主的模糊协同过滤, 以教学单元关系为基准计算相似度。亦即以项目为主的模糊协同过滤, 指出不同教学单元相似度, 推荐和在线学习者之前拜访的教学单元最相似的教学单元集合。

项目为主模糊协同过滤模块包括计算推论关系和累计推论关系。

根据这样的原则, 教学单元属性pi属于p, 在会话空间的m维度向量。每个教学单元会话参考以三个值表示, 包括会话id, 和此会话对某个教学单元喜欢和不喜欢的模糊程度。以如下表示:

教学单元推论计算以脱机处理, 根据教学单元属性, 计算每对教学单元相似度。任何两个教学单元属性pi和pj, 推论关系计算如下:

所有包含pi和pj的学习者都要计算。如果模糊值没意义时, 最小值为0。推论关系储存在推论矩阵, 以便后续的教学单元推荐。

(四) 推荐模块的设计

推荐模块是当要提供在线学习者, 教学单元推荐时, 系统所进行的运算。此模块根据”隶属函数模块”和“项目为主模糊协同过滤模块”的输出信息进行运算。这些运算包括计算未学习列表、产生预测分数和选取前N项。最后将前N项教学单元, 推荐给在线学习者。以下说明未学习列表、产生预测分数的运算。

1. 计算未学习清单

根据隶属函数模块, 得到的教学单元, 及在线学习者的学习纪录, 得到在线学习者未学习的教学单元。而这些未教学单元, 可作下一步预测分数的计算, 以便决定哪些教学单元可推荐给学习者。

教学单元推荐是属于在线过程, 当学习者和系统互动时, 它存取的历史纪录用来发现其他类似属性未拜访的教学单元。当要推荐新教学单元给学习者ua, 检查学习者拜访过的教学单元, 确认新教学单元是不是在最相似教学单元邻居中。只关心在最相似教学单元邻居中的教学单元pj。

2. 产生预测分数

从隶属函数模块中得到教学单元模糊值, 从“项目为主模糊协同过滤模块”中产生推论关系再加上“未学习清单”, 如此便可算出“未学习列表”的预测分数。在计算的过程中, 一个未教学单元和每个在线学习者拜访过的教学单元的推论关系, 和每个在线学习者拜访过的教学单元的模糊值相乘之后, 累计所有乘积后, 便得到一个未教学单元的预测分数。

因为教学单元会收到来自其他教学单元正面或负面影响, 教学单元预测分数整合正面和负面贡献, 其公式如下:

其中α[0, 1]为衰减系数, 用以限制负面贡献的影响。

对教学单元正面和负面贡献, 包含其他教学单元可以影响教学单元喜欢或不喜欢的所有范围。

B (pi) 是在线学习者教学单元pi的邻居, 对所有教学单元pi加总, 而此pi的教学单元邻居为pj。未拜访的教学单元以预测分数排序, 且选择前N个教学单元。

五、系统的实现

(一) 开发工具

本开发工具软件说明如下:

操作系统采用Windows XP, 程序撰写语言为VB.NET (微软公司产品) 。

(二) 数据源与预处理

本研究资料来源为某政府网络学习网站, 网络学习系统包含教材、学生、题库及成绩等数据库。其模块包含课程阅读、成绩计算及测验。本研究选出w个非0项目, 将其余去除。比较推荐系统所推荐的前N个教学单元和被删除掉的项目, 以评估推荐效果。

从网络学习网站的Oracle学习平台上得到66门课各学员的学习资料。存入Excel文件后, 共66个工作表 (如表1) 。

将每张工作表合并成一个工作表后, 共29638笔。转存为副文件名csv, 以利后续VB.NET读文件。将学习纪录合并文件, 依主要键“学习者账号”升序, 次要键”最近上课日期”升序。

去除阅读时间小于3秒, 大于1200秒, 剩余笔数28650。

(三) 模型建立与推荐

从文件的读取中, 产生教学单元, 共366个SCO, 如表2。

将每位用户数笔学习纪录整合成一笔, 学习时间由时分秒转成以秒为单位, 并依教学单元编号, 存入该笔数据的字段中。, 如表3。

读文件的过程中, 另产生每个教学单元被读取过的时间, 如表4。

根据每个教学单元的所有读取时间由小到大排序。将排序后教学单元读取时间去除同一个教学单元的相同读取时间。由去除相同读取时间的矩阵中, 取得每个教学单元第百分之五的浏览时间da, 第百分之九十五的浏览时间dc。由此得到每个学习者对每个教学单元浏览时间的喜欢模糊值。如表5。得到每个用户对每个教学单元浏览时间的不喜欢模糊值。

(四) 实验设计

1. 参数设定

为便于评估本研究中效益, 定义下列参数:

最小浏览时间为dmin:3秒。最大浏览时间为dmax:1200秒。参数da的值:教学单元浏览时间中, 第百分之a。参数dc的值:教学单元浏览时间中, 第百分之c。

窗口大小个数:2。

最相似教学单元邻居个数:所有教学单元。推荐教学单元个数N:2、3、5、7、9、11。根据经验法则dmin=3秒, dmax=1200秒。dmin和dmax可以减少不可靠教学单元的参考。去除教学单元浏览时间小于dmin, 且限制教学单元浏览时间不能大于dmax。

da和dc的计算有两种方式, 分别对每个教学单元的浏览时间或对所有教学单元浏览时间。第一, 对每个教学单元浏览时间, 排序教学单元浏览时间, 计算da为教学单元浏览时间中, 第百分之a的浏览时间, dc为教学单元浏览时间中, 第百分之a的浏览时间。第二, 对所有教学单元浏览时间, 排序教学单元浏览时间, 计算da为教学单元浏览时间中, 第百分之a的浏览时间, dc为教学单元浏览时间中, 第百分之a的浏览时间。

移动窗口大小2, 用以获得在线学习者的历史深度, 也就是在线学习者在获得推荐前, 所看过的教学单元。因在线学习者可能看过数个教学单元, 为检验推荐效果, 设定在线学习者看过2个教学单元, 其余看过的教学单元, 提供推荐系统用来比对是否会出现在推荐清单中。选择邻居大小k值时, 推荐系统的效能和质量要加以取舍。k值小会导致高效率低质量, 本研究k值为在线学习者未浏览过的所有教学单元。为了比较本研究和传统协同过滤的效能, 本研究未固定推荐教学单元个数。

2. 评估因子

为了衡量本研究推荐的效益, 本研究采用立即击中率 (Hit-Ratio) 及后续击中率 (Click-Soon-Ratio) 为评估因子。

如果推荐的教学单元是学习者立即会浏览的教学单元, 就表示击中。本研究计算所有的学习者, 继而求其平均值, 以当作推荐质量的度量基准。

如果推荐的教学单元是学习者接下来会浏览的教学单元, 就表示击中。本研究计算所有的学习者, 继而求其平均值, 以当作推荐质量的度量基准。

(五) 实验结果

1. 所有教学单元使用相同da与dc

使用模糊集合理论的主要课题之一, 是如何定义归属函数。检查a和c不同组合对推荐质量的影响。首先固定窗口大小为2。表6显示不同a和c的立即击中率。字段为a与c的不同组合。列表推荐个数及看过几个教学单元才推荐, 如top3p3中, top3为推荐前3个教学单元, p3表至少看过3个教学单元才加计效能。

单一时间表所有的学习者的da与dc均相同。如第2列第3行数值为0.147, 表da取所有阅读时间升幂排序后, 第百分之5个, dc取所有阅读时间升幂排序后, 第百分之95个, 推荐前3个教学单元, 且每个学习者看过3个教学单元的才加计效能, 立即击中率为0.147。而第3列第4行数值为0.133, 推荐前3个教学单元, 且每个学习者看过4个教学单元的才加计效能, 立即击中率为0.133。

表7显示不同a和c的后续击中率。字段为a与c的不同组合。如第2列第3行数值为0.464, 表da取所有阅读时间升幂排序后, 第百分之5个, dc取所有阅读时间升幂排序后, 第百分之95个, 推荐前3个教学单元, 且每个学习者看过3个教学单元的才加计效能, 后续击中率为0.464。而第3列第4行数值为0.536, 推荐前3个教学单元, 且每个学习者看过4个教学单元的才加计效能, 后续击中率为0.536。

2. 不同教学单元有自己da与dc

表8显示不同a和c的立即击中率。字段为a与c的不同组合。为每个教学单元均有自己的da与dc。如第2列第3行数值为0.163, 表da取所有阅读时间升幂排序后, 第百分之5个, dc取所有阅读时间升幂排序后, 第百分之95个, 推荐前3个教学单元, 且每个学习者看过3个教学单元的才加计效能, 立即击中率为0.163。如第3列第4行数值为0.14, 表da取每个教学单元阅读时间升幂排序后, 第百分之10个, dc取每个教学单元阅读时间升幂排序后, 第百分之90个, 推荐前3个教学单元, 且每个学习者看过4个教学单元的才加计效能, 立即击中率为0.14。

表9显示不同a和c的后续击中率。字段为a与c的不同组合。如第2列第3行数值为0.515, 表da取所有阅读时间升幂排序后, 第百分之5个, dc取所有阅读时间升幂排序后, 第百分之95个, 推荐前3个教学单元, 且每个学习者看过3个教学单元的才加计效能, 立即击中率为0.515。如第3列第4行数值为0.538, 表da取每个教学单元阅读时间升幂排序后, 第百分之10个, dc取每个教学单元阅读时间升幂排序后, 第百分之90个, 推荐前3个教学单元, 且每个学习者看过4个教学单元的才加计效能, 后续击中率为0.538。

3. 与传统协同过滤比较

时间因素影响推荐效果。a与c界定不同, 连带每个隶属函数的模糊值也不同, 推荐效果迥异。因而本研究设计三个实验, 包含因时间界定不同, 而分出来的两个模糊协同过滤实验, 另一个则为传统协同过滤时间实验。模糊协同过滤的两个实验, 一个时间针对所有教学单元的所有浏览时间;另一个时间则针对每个教学单元, 学习的浏览时间。

表10中时间界定da取第20%的浏览时间, 取第80%的浏览时间为dc。列表示为各种算法, 分别为模糊 (所有教学单元da与dc相同) 、传统协同过滤及模糊 (不同教学单元有自己的da与dc) , 栏表示为推荐个数, 推荐教学单元个数越多, 击中率越高。加。而且可以观察得出, 在所有推荐个数中, “不同教学单元有自己的da与dc”模糊协同过滤优于“所有教学单元da与dc相同模糊协同过滤”, “所有教学单元da与dc相同模糊协同过滤”优于传统协同过滤。

表11中时间界定da取第0%的浏览时间, 取第100%的浏览时间为dc。列表示为各种算法, 分别为模糊 (所有教学单元da与dc相同) 、传统协同过滤及模糊 (不同教学单元有自己的da与dc) , 栏表示为推荐个数, 推荐教学单元个数越多, 击中率越高。

本研究将推荐的个数从2变动到11。而且固定移动窗口为2。图4显示本研究与传统协同过滤效能比较。以学习时间的第20%当作da, 学习时间的80%当作dc。当推荐个数增加, 所有的方法均增加。在所有推荐个数中, “不同教学单元有自己的da与dc”模糊协同过滤优于“所有教学单元da与dc相同模糊协同过滤”, “所有教学单元da与dc相同模糊协同过滤”优于传统协同过滤。

接下来本研究以学习时间的第0%当作da, 学习时间的100%当作dc, 观察推荐效果。推荐的个数从2变动到11。而且固定移动窗口为2。图5显示本研究与传统协同过滤效能比较。当推荐个数增加, 所有的方法均增加。而且可以观察得出, 在所有推荐个数中, “不同教学单元有自己的da与dc”模糊协同过滤优于“所有教学单元da与dc相同模糊协同过滤”, “所有教学单元da与dc相同模糊协同过滤”优于传统协同过滤。

根据研究结果, 可归纳出以下几点:

(1) 使用模糊协同过滤较传统协同过滤佳。

(2) 以学习时间的第50%当作da, 学习时间的50%当作dc的推荐效果劣于其他模糊协同过滤。

(3) 每个教学单元有自己的da和dc推荐效果较优于所有教学单元一个da和dc。

(4) da和dc差距不为0, 会有较佳推荐效果。

六、研究结论

推荐技术能解决信息过量的问题。个性化的推荐系统自动建立用户的数据, 以提供用户兴趣的信息。协同过滤可以以学习者或项目为主。以学习者为主的协同过滤, 可以找到和在线学习者相同嗜好的其他学习者, 并推荐其他用户喜欢的信息给线上学习者。以项目为主的协同过滤, 则依在线学习者曾使用或评分的信息来寻找其他最相似的信息。由于以项目为主的协同过滤方法可以事先建立模型, 故较适合实时在线处理。

然而传统的协同过滤方法要求学习者主动的提供其喜爱, 导致了一些如额外的用户作业、使用习惯的改变、数据稀疏等问题。解决的方法之一就是使用隐藏式的指标, 其中最重要的指标是学习者对网页的浏览时间。由于网页的浏览时间是个连续值, 必须先做离散处理。最常用的方式就是将其分成数个不同区间类别, 然后再用传统的协同过滤方法来分析。这种明确的切割容易造成“尖锐边缘”的问题。本研究将应用模糊集合理论来解决切割点不明确的问题并与协同过滤方法整合来建立一个在线教材推荐系统。

本研究提出一个结合模糊理论与协同过滤的新的推荐模型, 以改善传统协同过滤的缺点;建立一个具有个性化的推荐系统架构, 以提供在线学习者教学单元推荐。所以不会像传统的在线学习, 每个学习者只能从课程目录选择, 当对课程陌生时很难以抉择。本系统架构所得到的推荐效能, 优于传统协同过滤, 有更高的击中率, 可让被推荐者更满意, 更符合所需。

【相关链接】

网络课程就是通过网络表现的某门学科的教学内容及实施的教学活动的总和, 是信息时代条件下课程新的表现形式。它包括按一定的教学目标、教学策略组织起来的教学内容和网络教学支撑环境。其中网络教学支撑环境特指支持网络教学的软件工具、教学资源以及在网络教学平台上实施的教学活动。网络课程具有交互性、共享性、开放性、协作性和自主性等基本特征。

应当指出的是, 由于教学内容包含教学资源, 所以网络课程通常应当包括教学资源在内 (至少应当包括部分教学资源) ;只涉及教材本身的网络课程不是理想的 (至少是不完整的) 网络课程。但是, 在实际开发过程中, 为了便于开展工作 (例如分工或并行运作的需要) 有时也把教学资源独立出来, 甚至将它与网络课程并列--称作"网络课程与网络资源开发"。不过, 这时应当特别注意:这种区分只是开发的需要, 而网络课程原本是应当把网络资源包括在内的。

简而言之, 网络课程就是通过某种软件在网络上进行的远程课程。中国很多企业培训的现状却是"四动":上课时激动, 课后感动, 工作中有点冲动, 最后还是一动不动。这是培训界的顽疾, 如何让培训从"四动"变成企业发展的源动力呢?

在竞争如此激烈的时代, 知识的保鲜期越来越短, 学习是每一个企业人和企业保持持久竞争力的唯一途径, 优秀的企业就是一所大学, 员工在发挥潜能和学习充电的循环中不断为自己、企业和社会创造财富, 只有这样, 才会有幸福的员工、基业长青的企业、和谐的社会。2013年2月, 新加坡国立大学与美国公司Coursera合作, 加入大型开放式网络课程平台。除了可通过网络平台把国大的特色课程面向国际, 校方也计划让学生最早从2013年8月起, 利用平台修读各种课程。

大型开放式网络课程 (massive open online coursesas, 简称MOOC) 在2012年日益受到瞩目。以Coursera为例, 这家公司原本已和包括美国哥伦比亚大学、普林斯顿大学等全球33所学府合作。公司宣布有另外29所大学加入他们的阵容。新国大是第一所与Coursera达成合作协议的新加坡大学, 它2014年会先通过该公司平台推出量子物理学和古典音乐创作的课程。

国大常务副校长 (学术事务) 兼教务长陈永财教授称, 其实这项合作最大好处是, 校方日后能在这个平台上发展专属国大生使用的空间, 让更多在籍学生能够接触他们喜欢的课程。他解释, 碍于讲堂空间限制, 许多颇受欢迎经济、商业、心理学和法律课程最多只能让600名学生选修。有了这个专属平台, 无法选修课程的学生仍可以从网络上学习, 增广知识。校方希望2013年8月能在平台上先推出一两个热门课程。虽然高科技可协助更多人掌握专业知识, 但面对面的授课过程仍是高等教育不可或缺的一环。陈永财教授说:"多数网络课程属于基础课, 高端或较复杂的课程还是必须有面对面的接触。"

2014年10月, 广东省教育厅发布《关于普通高等学校实施学分制管理的意见》 (下简称《意见》) 。未来高校将探索对幕课等互联网学习平台的学分互认, 同时探索校外选课, 鼓励区域内高校联合开课, 推进师资、课程的共享与学分互认。学生可以自主选择授课时段、任课教师, 确定学业进程。弹性修业年限下, 修满学分可提前毕业, 特殊情况也可申请暂时中断, 分阶段完成学业。

摘要：一直困扰网络学习系统的是如何满足学习者个性化的学习需求, 现在常见的方法是通过网页日志分析学习者行为, 然后推荐合适的课程内容给学习者。本研究将提出一种新的分析学习者行为的方法, 它不是基于某个学习者的行为分析, 而是通过协同过滤技术找出和在线学习者有类似兴趣的其他学习者, 将一部分在线学习者的经验推荐给其他在线学习者。研究将协同过滤技术和模糊集合技术集成到一起来构建一个课程推荐系统。本研究给出的模型包括三部分:数据预处理、教学单元推论和教学单元预测。预处理包括数据清除和每个教学单元模糊值的计算。教学单元推论以教学单元的数据计算教学单元间的相似度。教学单元预测提供在线用户未学习的学习单元推荐列表。本研究也运用“立即击中率”和“后续击中率”评估推荐质量。实验结果显示建议的方法比未使用时间信息的传统协同过滤效果较好。

关键词：模糊集合,协同过滤,网络教材

参考文献

[1] Colin G., Harrison, A., K.Caglayan Agent sourcebook.New York:John Wiley and Sons, 1997.

[2] Resnick, P., Iacovou, N., Suchak M., Bergstrom, P., and Riedl, J. (1994) GroupLens:An Open Architecture for Collaborative Filtering of Netnews, In Proceedings of ACM Conference on Computer Supported Cooperative World, 175-186.

[3] Dean, R. (1998) .Personalizing your website.http://builder.cnet.com/Buiness/Personal/index.html.

[4] Resnick, Paul and Varian, Hal R. (1997) Recommender Systems, Communications o the ACM, 40 (3) , 56-58.

[5] Sarwar, B., Karypis, G., Konstan, J., and Riedl, J. (2000) .Analysis of Recommendation Algorithms for E-Commerce, Proceedings o the 2nd ACM E-Commerce 2000 Conference, 158-167.

[6] Schafer, J.Ben, Konstan, Joseph, and Riedl, John. (1999) .

[7] Balabanovic, Marko, and Shoham, Yoav. (1997) Content-Based, Collaborative Recommendation, Communications of the ACM, Vol.40, No.3.

[8] ]Cooley, R., Mobasher, B., and Srivastava, J (.1999) .Data Preparation for Mining World Wide Web Browsing Patterns, Knowledge and Information System, Vol.1 (1) .

[9] Breese, J.S., Heckerman, D., and Kadie, C. (1998) .Empirical Analysis of Predictive Algorithms for Collaborative Filtering, Proceedings of the 14th Annual Conference on Uncertainty in Artificial Intelligence, 43-52.

[10] Chen, Ming-Syan, Jiawei Han and Philip S.Yu. (1996) .Data Mining:An Overview from a Database, IEEE Transactions on Knowledge and Data Engineering, 8 (6) , 866-833.

[11] Yu, Philip S. (1999) .Data Mining and Personalization Technologies, Proceedings of the International Conference on Database System for Advanced Applications, 6-13.

[12] Oard, D.W., and Kim, J. (1998) .Implicit Feedback for Recommender Systems, Proceedings of the AAAI Workshop on Recommender Systems, 81-83.

[13] Kim, H.-R.and Chan P.K. (2005) .Implicit Indicators for Interesting Web Pages.In Technical Report-CS2005-05.Department of Computer Sciences, Florida Institute of Technology.

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处