1.处理文件
本次数据量巨大,且同一类数据被切割为了好几个文件。所以先将同类数据整合到一起。方便处理。
1 | def data_get(path_dir): |
然后将整合后的各个文件需要的数据再次进行提取。放到一个文件里方便处理。如下所示。
1 | Input1 = pd.read_csv('data1.csv', encoding="gbk").iloc[:,0:7] |
这样输入数据和预测数据就都整合放到了两个文件中。
2.爬虫爬取数据(另记录)
用爬虫爬取数据也是获取数据的重要途径,要学会分析url以及使用正则表达式。本次获取的是北京的天气。
1 | months = ["01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12"] |
有一个网站PM2.5历史数据_空气质量指数历史数据_中国空气质量在线监测分析平台历史数据 (aqistudy.cn)反爬虫十分到位。目前还没有爬成功,日后有这方面学习需求的话再做研究。
3.处理数据
有些神经网络需要数据是三维的。形如
1 | [[[-1.92283338 -1.38891292 -0.98388424 ... -1.15294841 -0.7899982 |
这是行×步长1×列的。
处理成这样需要使用reshape
或resize
函数。一维转二维,二维转三维。这里如果除不尽该如何处理?
4.可视化
1 | import seaborn as sns |