hub / github.com/apachecn/ailearning / binSplitDataSet

Function binSplitDataSet

src/python/9.RegTrees/regTrees.py:39–60 · view source on GitHub ↗

binSplitDataSet(将数据集，按照feature列的value进行二元切分) Description：在给定特征和特征值的情况下，该函数通过数组过滤方式将上述数据集合切分得到两个子集并返回。 Args: dataMat 数据集 feature 待切分的特征列 value 特征列要比较的值 Returns: mat0 小于等于 value 的数据集在左边 mat1 大于 value 的数据集在右边 Raises:

(dataSet, feature, value)

Source from the content-addressed store, hash-verified

37
38
39	def binSplitDataSet(dataSet, feature, value):
40	"""binSplitDataSet(将数据集，按照feature列的value进行二元切分)
41	Description：在给定特征和特征值的情况下，该函数通过数组过滤方式将上述数据集合切分得到两个子集并返回。
42	Args:
43	dataMat 数据集
44	feature 待切分的特征列
45	value 特征列要比较的值
46	Returns:
47	mat0 小于等于 value 的数据集在左边
48	mat1 大于 value 的数据集在右边
49	Raises:
50	"""
51	# # 测试案例
52	# print 'dataSet[:, feature]=', dataSet[:, feature]
53	# print 'nonzero(dataSet[:, feature] > value)[0]=', nonzero(dataSet[:, feature] > value)[0]
54	# print 'nonzero(dataSet[:, feature] <= value)[0]=', nonzero(dataSet[:, feature] <= value)[0]
55
56	# dataSet[:, feature] 取去每一行中，第1列的值(从0开始算)
57	# nonzero(dataSet[:, feature] > value) 返回结果为true行的index下标
58	mat0 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]
59	mat1 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
60	return mat0, mat1
61
62
63	# 返回每一个叶子结点的均值

Callers 3

chooseBestSplitFunction · 0.85

createTreeFunction · 0.85

pruneFunction · 0.85

Calls

no outgoing calls

Tested by

no test coverage detected