第一章 单元测试

1、单选题:
下面哪句话是正确的( )
选项:
A:机器学习模型的精准度越高,则模型的性能越好
B:其余选项说法都不对
C:增加模型的复杂度,总能减小测试样本误差
D:增加模型的复杂度,总能减小训练样本误差
答案: 【增加模型的复杂度,总能减小训练样本误差

2、单选题:
评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题( )
选项:
A:向模型中增加更多的特征
B:减少模型中特征的数量
C:增加更多的数据
D:向模型中增加更多的特征和增加更多的数据
E:其余选项全是
答案: 【向模型中增加更多的特征

3、单选题:
以垃圾微信识别为例,Tom Mitchell的机器学习的定义中,任务T是什么?( )
选项:
A:T是识别
B:T是不必要条件
C:T是垃圾微信
D:T是性能度量
答案: 【T是识别

4、多选题:
如何在监督式学习中使用聚类算法( )?
选项:
A:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征
B:首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法
C:在应用监督式学习之前,不能创建聚类
D:在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征
答案: 【在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征;
首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法

5、多选题:
想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型( )?
选项:
A:尝试使用在线机器学习算法
B:使用PCA算法减少特征维度
C:对训练集随机采样,在随机采样的数据上建立模型
答案: 【尝试使用在线机器学习算法;
使用PCA算法减少特征维度;
对训练集随机采样,在随机采样的数据上建立模型

6、多选题:
机器学习兴起于( )。
选项:
A:1960年
B:1990年
C:1970年
D:1980年
答案: 【1990年;
1980年

7、多选题:
监督学习包括是( )。
选项:
A:分类
B:关联算法
C:聚类算法
D:回归
答案: 【分类;
回归

8、判断题:
机器学习可以对电子商务产品评价进行好评与差评分类。( )
选项:
A:错
B:对
答案: 【

9、判断题:
机器学习必备知识包括数学基础、心理学基础、算法设计基础、商业模式基础。( )
选项:
A:对
B:错
答案: 【

第二章 单元测试

1、单选题:
关于k-NN算法,以下哪个选项是正确的?
选项:
A:可用于分类
B:可用于回归
C:可用于分类和回归
答案: 【可用于分类和回归

2、判断题:
k-NN算法在测试时间而不是训练时间上进行了更多的计算。
选项:
A:错
B:对
答案: 【

3、单选题:
假设算法是k最近邻算法,在下面的图像中,____将是k的最佳值。
选项:
A:20
B:10
C:3
D:50
答案: 【10

4、单选题:
一个kNN分类器,该分类器在训练数据上获得100%的准确性。而在客户端上部署此模型时,发现该模型根本不准确。以下哪项可能出错了?注意:模型已成功部署,除了模型性能外,在客户端没有发现任何技术问题
选项:
A:可能是模型未拟合
B:其余三个选项都不是
C:不能判断
D:可能是模型过拟合
答案: 【可能是模型过拟合

5、单选题:
以下是针对k-NN算法给出的两条陈述,其中哪一条是真的?1、我们可以借助交叉验证来选择k的最优值2、欧氏距离对每个特征一视同仁
选项:
A:1和2都不是
B:2
C:1和2
D:1
答案: 【1和2

6、单选题:
你给出了以下2条语句,发现在k-NN情况下哪个选项是正确的?1、如果k的值非常大,我们可以将其他类别的点包括到邻域中。2、如果k的值太小,该算法会对噪声非常敏感
选项:
A:1
B:1和2都不是
C:2
D:1和2
答案: 【1和2

7、单选题:
在下图中,下列哪一个k值可以给出最低的留一法交叉验证精度?
选项:
A:2
B:1
C:5
D:3
答案: 【2

8、单选题:
如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这是否意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率呢?
选项:
A:不行,因为还有一些模型不确定的东西,例如噪声
B:是的,因为这个模型泛化能力已经很好了,可以应用于任何数据
答案: 【不行,因为还有一些模型不确定的东西,例如噪声

9、单选题:
关于K折交叉验证,下列说法正确的是?
选项:
A:K值并不是越大越好,K值过大,会降低运算速度;
B:选择更大的K值,会让偏差更小,因为K值越大,训练集越接近整个训练样本
C:选择合适的K值,能减小验方差
D:其余选项都正确
答案: 【其余选项都正确

发表评论

电子邮件地址不会被公开。 必填项已用*标注