赛题以预测用户未来点击新闻文章
为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据
,包括30万用户
,近300万次点击
,共36万多篇不同的新闻文章
,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户
的点击日志数据作为训练集
,5万用户
的点击日志数据作为测试集A
,5万用户
的点击日志数据作为测试集B
。
详细数据链接如下:
名称 | 大小 | 备注 |
---|---|---|
articles.csv | 9.89MB | 新闻文章信息数据表 |
articles_emb.csv | 973.15MB | 新闻文章embedding向量表示 |
testA_click_log.csv | 20.47MB | 测试集用户点击日志 |
train_click_log.csv | 43.5MB | 训练集用户点击日志 |
sample_submit.csv | 831KB | 提交样例文件 |
articles_emb.csv: (MD5:1f8a7fc79e0ad13311e27e3408d0287b)
字段表:
因为不同文件链接字数太长, 这里是将其下载了放到了一个位置, 需要的可以自取:
link:https://pan.baidu.com/s/1pLm_DQvDm5FSTHaW5Britw?pwd=ww50
passwd:ww50
我的项目结构如下图所示:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os articles = pd.read_csv('data/articles.csv')
articles_emb = pd.read_csv('data/articles_emb.csv')train_clicks = pd.read_csv('data/train_click_log.csv')
test_clicks = pd.read_csv('data/testA_click_log.csv')
变量表如下所示:
上一篇:torch.autograd