如何在Kaggle上打比赛
发布时间:2021-03-02 12:16:26 所属栏目:动态 来源:互联网
导读:个数据文件train.csv包含一组特性及其对应的用于培训目的的目标标签。该数据集由以下属性组成: Id: tweet的数字标识符。当我们将我们的预测上传到排行榜时,这将是非常重要的。 关键字:推文中的一个关键字,可能在某些情况下没有。 位置:发送推文的位置,这
|
个数据文件train.csv包含一组特性及其对应的用于培训目的的目标标签。该数据集由以下属性组成:
让我们并进一步了解这个。在下面的代码中,您将注意到我使用了一个set_option 命令。这个来自Pandas库的命令允许您控制dataframe结果显示的格式。我在这里使用这个命令,以确保显示文本列的全部内容,这使我的结果和分析更容易查看: 据清理对于任何机器学习任务,在我们可以训练一个模型之前,我们必须执行一些数据清理和预处理。这在处理文本数据时尤为重要。
为了简化我们的第一个模型,并且由于这些列中有许多缺失的数据,我们将删除位置和关键字特性,只使用来自tweet的实际文本进行训练。我们还将删除id列,因为这对训练模型没有用处。 (编辑:盐城站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


