MCPcopy Index your code
hub / github.com/apachecn/ailearning / binSplitDataSet

Function binSplitDataSet

src/python/9.RegTrees/regTrees.py:39–60  ·  view source on GitHub ↗

binSplitDataSet(将数据集,按照feature列的value进行 二元切分) Description:在给定特征和特征值的情况下,该函数通过数组过滤方式将上述数据集合切分得到两个子集并返回。 Args: dataMat 数据集 feature 待切分的特征列 value 特征列要比较的值 Returns: mat0 小于等于 value 的数据集在左边 mat1 大于 value 的数据集在右边 Raises:

(dataSet, feature, value)

Source from the content-addressed store, hash-verified

37
38
39def binSplitDataSet(dataSet, feature, value):
40 """binSplitDataSet(将数据集,按照feature列的value进行 二元切分)
41 Description:在给定特征和特征值的情况下,该函数通过数组过滤方式将上述数据集合切分得到两个子集并返回。
42 Args:
43 dataMat 数据集
44 feature 待切分的特征列
45 value 特征列要比较的值
46 Returns:
47 mat0 小于等于 value 的数据集在左边
48 mat1 大于 value 的数据集在右边
49 Raises:
50 """
51 # # 测试案例
52 # print 'dataSet[:, feature]=', dataSet[:, feature]
53 # print 'nonzero(dataSet[:, feature] > value)[0]=', nonzero(dataSet[:, feature] > value)[0]
54 # print 'nonzero(dataSet[:, feature] <= value)[0]=', nonzero(dataSet[:, feature] <= value)[0]
55
56 # dataSet[:, feature] 取去每一行中,第1列的值(从0开始算)
57 # nonzero(dataSet[:, feature] > value) 返回结果为true行的index下标
58 mat0 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]
59 mat1 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
60 return mat0, mat1
61
62
63# 返回每一个叶子结点的均值

Callers 3

chooseBestSplitFunction · 0.85
createTreeFunction · 0.85
pruneFunction · 0.85

Calls

no outgoing calls

Tested by

no test coverage detected