中国人工智能学会第九届全国大数据与社会计算学术会议(CAAI BDSC 2024)优秀论文
项广鑫, 文佳亮, 陈瑗瑗, 张一雯, 黄诗怡, 汉景源, 彭佳捷, 易红超, 李家宝, 麻战洪
【目的】人口空间大数据虽具备样本量大、时空分辨率高等优势,但其准确性不足制约了定量研究的可靠性。现有方法因缺乏权威基准或依赖大数据生产商的“黑盒”算法,难以实现校准。【方法】本文提出一种基于行政层级约束优化的人口大数据校准普适方法,以法定、权威的第七次人口普查数据为锚点,空间关联七普常住人口数据与2020年百度常住人口大数据,构建行政层级约束下的运筹学模型,通过求取偏差值的全局最优解,达到校准人口大数据的目的。以湖南省第七次人口普查常住人口数据为锚点,以湖南省的2020年度百度常住人口大数据为示例进行了校准。【结果】校准后的湖南全省2020年百度人口大数据常住人口与七普常住人口的偏差比降至-1.01%(降幅25.87%),市、县级偏差比分别收敛至[-2.05%, +0.92%]与[-2.06%, +1.99%],且未改变原始偏差趋势。与国家统计局城区人口数据的验证结果显示,采用该方法计算得出的城区人口总数与国家统计局数据偏差比在-2.7%~+1.7%。根据人口大数据估算的绿心地区常住人口与实地调查的常住人口数量的偏差比为+0.47%。【结论】校准结果和2次验证结果充分表明本文提出的方法有效,为依据人口大数据估算非人口普查年份的人口数量、人口空间化分布数据提供可能。