
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.2.3 抓取历史天气数据
在获取完某月的天气数据之后,接下来尝试抓取整个历史天气数据,网站提供的最早天气数据为2011年。如下程序用来抓取2011年1月—2020年12月的天气数据:



通过对天气网的页面进行解析可知,每个月的历史天气的命名规则为“http://lishi.******.com/城市名称/年月.html”。上述程序定义了两个函数:一是get_url(city)函数,用于获取指定城市2011年1月—2020年12月的天气数据的网址;二是get_weather_month(url)函数,用于获取特定年月的天气数据。经过主函数的循环调用,进而获取2011年1月—2020年12月的所有天气数据。部分历史天气数据如表2-2所示。
表2-2 部分历史天气数据

至此,抓取到了2011年1月—2020年12月深圳的天气数据。数据以“02_all_weather.xlsx”的形式保存在计算机指定的文件夹中,同时作为后续数据分析的数据来源。