sklearn中的train_test_split函数可以将数据集拆分为训练集和测试集,这里可以使用random_state参数来控制随机种子的生成,从而保证每次运行的结果一致。
使用方法
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
random_state参数可以接受以下几种类型的数据:
- 整数:表示随机种子的种子值;
- None:表示不使用随机种子;
- np.random.RandomState实例:用于提供随机种子;
- 其他可调用对象:用于提供随机种子。
如果不设置random_state参数,每次运行函数,结果都会有所不同,这时候可以使用random_state参数来设置一个固定的整数,这样每次运行函数的结果都会一致。
通过使用sklearn的train_test_split函数,可以将数据集拆分为训练集和测试集,并且可以通过设置random_state参数来保证每次运行函数的结果一致。