加入收藏 | 设为首页 | 会员中心 | 我要投稿 盐城站长网 (https://www.0515zz.cn/)- 运维、云管理、管理运维、智能数字人、AI硬件!
当前位置: 首页 > 站长资讯 > 动态 > 正文

如何在Kaggle上打比赛

发布时间:2021-03-02 12:16:26 所属栏目:动态 来源:互联网
导读:个数据文件train.csv包含一组特性及其对应的用于培训目的的目标标签。该数据集由以下属性组成: Id: tweet的数字标识符。当我们将我们的预测上传到排行榜时,这将是非常重要的。 关键字:推文中的一个关键字,可能在某些情况下没有。 位置:发送推文的位置,这

个数据文件train.csv包含一组特性及其对应的用于培训目的的目标标签。该数据集由以下属性组成:

  • Id: tweet的数字标识符。当我们将我们的预测上传到排行榜时,这将是非常重要的。
  • 关键字:推文中的一个关键字,可能在某些情况下没有。
  • 位置:发送推文的位置,这也可能不存在。
  • 文本:推文的全文。
  • 目标:这是我们试图预测的标签。如果这条推文真的是关于一场灾难,它将是1,如果不是,它将是0。

让我们并进一步了解这个。在下面的代码中,您将注意到我使用了一个set_option 命令。这个来自Pandas库的命令允许您控制dataframe结果显示的格式。我在这里使用这个命令,以确保显示文本列的全部内容,这使我的结果和分析更容易查看:
 

据清理

对于任何机器学习任务,在我们可以训练一个模型之前,我们必须执行一些数据清理和预处理。这在处理文本数据时尤为重要。

为了简化我们的第一个模型,并且由于这些列中有许多缺失的数据,我们将删除位置和关键字特性,只使用来自tweet的实际文本进行训练。我们还将删除id列,因为这对训练模型没有用处。

(编辑:盐城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读