用三组概念和三个故事告诉你空间数据分析的简要过程
图片来自视频
今天我想用三组概念、三个故事跟大家分享一下空间数据分析的简要流程。 首先,无论你来学什么,高效学习至少要有三个关键点。
首先是学习空间分析的目的。
首先,本课程的目标是让大家学会使用Python进行空间数据处理。 Python 是一种开源脚本语言。 考虑到可能有很多文科出身的同学对科学或者编程不太熟悉,我就从浅入深的跟大家分享一下。 我来分享两个问题。 开始之前的第一个问题是,为什么空间数据处理能力在这样的时间点变得越来越重要。
第二个问题是,为什么要做数据分析? 数据分析本身的价值是什么? 因为我们知道,数据分析行业,或者说整个数据行业,现在有着惊人的利润率。 为什么这样一个产业能够产生巨大的价值? 这两个问题就和大家分享一下。
视频中的图像 什么是数据?
简单来说,数据是信息的载体、符号,可以在我们的历史记录中看到,是一种文本数据。 佳能是一种音频数据。 例如韩文系统页面图片就是一种图片数据。 通俗地说,数据是信息的载体。 一是完成了信息的保存,二是信息的传输。 影响。 数据是存储在手机或电脑中的数字事物。 但从古至今,任何具有承载信息功能的东西都可以成为数据。 因此,广义的数据始于人类文明和知识,当人类创造符号时,当穴居人在洞穴中雕刻第一幅壁画记录第一个故事时,数据就已经产生了。
为什么数据很重要?
自人类文明诞生以来,数据就是人类文明和历史的载体。 数据出现之前存在什么是未知的。 数据始终伴随着人类文明和历史的进程,因此数据很重要。
图片来自视频。 二、什么是空间数据?
它与传统数据或一般数据有何不同? 空间数据主要反映物体的位置、形状、大小、分布等,四个维度各有不同。 这四个维度可以描述物体的现象或量化。 空间数据主要分为两类,一类是图形数据,另一类是图像数据。 这两类数据各有其属性、优缺点,也是处理的重点。 我们稍后再分析。 例如,右侧梅花卫星云图显示的是台风正在我国东南沿海登陆。 如何描述台风的空间数据? 它的位置用台风眼来表示,它的大小用台风的直径来表示。 在地图上可以看到台风的位置和分布。 黄线是海岸线,绿框是轮廓。 台风影响范围为整个东南沿海,还有浙江、苏南、江西、福建等大片地区受到影响。 以下是台风梅花的空间数据可以讲述的一些故事。
第二,这个图形数据,现在我们看到微信云图,其实就是一个图像的数据。 稍后我们会讲它的图形数据是什么。 说到这里,我们简单思考一下,为什么空间数据很重要? 与传统数据相比,这些描述对象特征的附加维度是否使其变得重要?
图片来自视频
事实上,每个人都有不同的背景,尤其是我们的课程。 不同的学生有不同的背景,答案也不同。 所以从我的角度来看,空间数据可以与其他类型的数据结合起来,帮助提取一些未知的信息。 空间数据分析可以定量地回答之前提到的一些问题,以及未来会遇到的与空间相关的问题。 笛卡尔是我非常敬佩的哲学家,他想和大家分享他的一些理论。 为什么空间数据很重要。 首先,笛卡尔在《第一哲学》中提出了物质概括的概念。 什么意思? 广义上讲,一切物质都是生活在三维空间中的人。 一切人和物都必须具有长、宽、高的空间属性。 这一属性决定了三维世界中的任何物质或个体都必须具有空间信息,并会产生空间数据。 它决定了在这样的世界里,任何两种物质都不能同时出现在同一个空间。 之中。 对于人类社会来说,空间是一种独特、稀缺的资源,具有排他性。
通过了解空间的特性,我们可以理解为什么北京的房子永远不够用,为什么交通拥堵永远无法通过拓宽道路来解决,为什么人类永远无法两次踏入同一条河流。 空间数据分析就是根据空间的特征来回答这些问题。
图片来自视频
接下来,我将通过三个故事或者三个常见的空间分析案例与大家分享空间分析的具体过程。
第一个故事是疫情地图案例
图片来自视频
非常经典的疫情地图。 如果你主修公共卫生、公共管理或城市规划,你应该看过这张地图。 19世纪,欧洲特别是英国正处于工业革命和城市化进程中。 当时的城市并没有像现在这样拥有丰富的地下管线或城市上部空间的建筑物。 当时的城市里,生活污水、垃圾随处倾倒。 整条街道弥漫着各种异味,工业化造成的空气污染也非常严重。 19世纪的伦敦经历了严重的雾霾,导致许多人患上肺癌或呼吸系统疾病而死亡。 在19世纪的伦敦,如果不幸感染霍乱,会因过度脱水而出现呕吐、腹泻、休克或其他并发症的严重症状,最终死亡。 当时,除英国外,整个欧洲都处于霍乱频繁爆发的状态。 每次霍乱爆发都会导致数万人丧生。
目前霍乱的流行情况是怎样的? 很多人猜测是瘴气造成的,因为伦敦的空气质量特别差,他们认为是脏气体扩散造成的。 当时一旦爆发霍乱,人们采取的措施就是外出时捂住口鼻,或者像今天一样戴口罩。 1854年9月,伦敦再次爆发霍乱。
当时政府采取了以呼吸道传染病为主的防控措施,要求每个人都捂住口鼻。 城市垃圾、排泄物没有得到处理。 所有霍乱患者的排泄物与其他生活垃圾一起收集。 注入太武河。 后来救世主出现了,麻醉师钟雪。 在助手的帮助下,他查看了这张地图,看到了这个当时死亡病例较多的地方有黑色的柱子。 事实上,它是由一根一根的黑色短线组成的。 和其他地方一样,每条黑线都代表一次死亡。 这个地方死亡人数最多,因为它们堆得高高的,聚集在一起。 他和助手对苏河区死亡居民与城市设施的关系进行了调查,绘制了这样一张疫情地图。
从标记的地图中可以看到,布罗德街附近有一个水泵。 水泵周围发生大量死亡事件。 水泵上的黑点就是那个水泵。 但在马路对面的北侧,如果上面的是北侧的话,死亡人数会明显减少。
与鲁南相比,为什么? 因为路的北侧有一家啤酒厂,所以路北侧的居民大部分都是啤酒厂的工人,而这些工人大部分都可以免费喝到啤酒厂的啤酒。 因此,霍乱病例将会少得多。 通过一张疫情图,连雪推断,霍乱的感染最终可能与水源有关,实际上是一种消化道传染病。 由此产生的发现刺激了整个城市供水和污水处理系统的发展。 就像我们今天的城市一样,饮用水和生活废水与排水系统是分开的。
这张图也被视为整个疾病研究流行病学图谱的开始。 利用这种地图方法探索了传染病传播与空间的关系,进一步推动了后续干预霍乱这一公共疾病的措施,发挥了非常重要的作用。 这个案例至今仍是公共卫生、地理学、城市规划等学科领域的经典案例。 就像我们面临的新型冠状病毒疫情一样,从2020年开始,高德地图和百度地图上都出现了很多疫情,大家在地图应用中都会用到相关地图。 所以今天的疫情地图大家应该很熟悉了。 这就是最经典案例的开始。
为什么标题叫《二维的突破》? 意味着从二维空间数据的分析转向三维、四维数据的分析。 接下来我们看一个思考案例。 美国麻省理工学院城市感知实验室对COVID-19疫情期间城市居民行为数据变化进行了案例研究。 本案是一个动态案件。
图片来自视频
首先,研究团队在COVID-19大流行后收集了格尔莫居民和整个城市的两类数据。 一是推送数据,二是她做了一份问卷。 当你发推文时,你可以标记你的位置信息,这为空间分析提供了空间数据的属性。 然后你可以看到它提供了两个视角。 一种是自上而下的视角,它可以让你直接直观地看到我们的数据在空间中的二维视角,以及分布的聚合过程。 从三维角度来看,此时的数据强度可见一斑。 在此界面中,数据强度是调查对象的活跃程度。 这张图显示,在新冠病毒中,柱子越高,在这个位置发推文的人就越多。 蓝色代表疫情期间的同组数据。 Twitter 上的数据是什么样的? 刚才的红色数据是疫情发生之前的数据,这样我们就可以比较同一时间和空间内疫情造成的人类行为模式的变化。
图片来自视频
接下来,我们看一下地理数据。 最常见的用法是将空间数据与某个维度的其他数据组合起来。 在下面显示的折线中,横坐标是日期,纵坐标是当天新增的 COVID-19 确诊病例数。 通过对空间数据和COVID-19确诊病例数据的联合分析,研究小组发现了不同群体如何以不同的方式受到COVID-19的影响。 上面部分是通过数据的空间聚类得到热图。 该方法是利用大量的点数据进行复合密度分析,并利用微分算法生成相对平滑的热区和冷区。 我们刚才做的是通过热点区域来衡量城市居民对周边生活服务设施的访问频率。 例如,住宅区周边的便利店或超市是提供生活必需品的重要场所。 蓝色图显示了居民参观周边公园的频率。 红色的已经介绍过了,是疫情前大家经常聚集的地方,蓝色的是疫情开始后的维度数据。 下面你可以看到有四个关键点。 第一点是风险增加。 斯德哥尔摩出现第二例确诊病例后,在一个历史节点,我们对比了疫情前两个数据的差异。 大家可以看到,在疫情开始之前,大家经常去的地方,自从疫情开始之后,我们就几乎不再去这些地方了。 疫情开始后,大家的活动半径明显缩小了。
图片来自视频
第二个关键节点是,随着新冠疫情的发展,斯特格尔莫出台了居家政策,所有工作场所都被关闭。 每个人都开始在家工作,但公共图书馆保持开放。 这样的数据反映出96%的图书馆仍然开放。 疫情前后的行为数据比较明显,可见强度上存在差距。 像下面这个数据的右下角,你也可以看到不同的指标,比如这个是229%,然后库就打开了。 第四个关键点是聚集规模限制,也就是说政府出台了禁止所有人聚集的政策。 然后你可以看到右下角的维度是夜生活降低了89%的强度,像这样的餐厅降低了43%的强度。 这是流行病分析中常用的一个比较明显的数据分析模型。
第二个故事,数字孪生
图片来自视频
您可能听说过更多,什么是数字孪生? 其实相对于我们刚才看到的数据可视化来说,它是通过各种手段收集现实世界,创造出一个虚拟世界。 数字孪生是与物理世界建立一一对应的数字实体。 比如,沿着北京长安街,建天安门、故宫、大剧院,然后沿着长安街向东,王府井的所有建筑都建起来。 这是物理世界到数字世界的映射。 双胞胎的意义在于,他们可以从数字世界反向映射到物理世界。 同时,物理世界中存在大量的传感器和响应,可以有对动作做出响应的机械或电子设备。
图片来自视频
数字孪生应用最广泛的场景是城市和城市中的智慧园区。 数字孪生城市是当前城镇化进程中最重要、最热门的赛道,包括城市建设。 相对成熟的数字园区做得比较好。 因为在数字化园区,尤其是工厂,机械化程度是比较高的。 如果对数字实体进行操作,则可以直接映射到物理机械实体。 例如,如果中控关闭或打开某个发动机,则相应物理实体的发动机将采取相应的动作来关闭或打开该发动机。 例如,在北京,京东和美团拥有非常发达和先进的送货机器人。 在数字空间中操作机器人,使物理世界中的机器人做出一些动作,就是数字孪生的双向映射。 数字孪生实际上为数字或空间数据分析带来了机会。 对于数据分析师来说,最麻烦的问题之一已经解决了,那就是数据源的问题。 整个数字孪生一旦建立起来,就可以源源不断地实时从物理世界获取源源不断的数据,尤其是空间数据,可以帮助分析人员,尤其是空间数据分析人员得出想要的结果。
第三个故事,基于空间信息的Python空间地理数据分析
图片来自视频
其实空间数据和地理数据是有一些区别的,也可以理解为空间数据。 意味着空间数据的范畴是更大的地理数据。 由于它是现在空间数据中最大的一类空间数据,因此将地理数据作为分析的主要对象和操作的实体。 通过练习地理数据的分析过程,掌握了地理数据的分析之后,面对其他类型的空间数据时的思路和方法都是一样的。
大家都知道Apache开发了很多项目,包括我们的Java或者大数据分析。 可以知道MA的mapreduce或者hadoop都是他们做的。
为什么说人体图也是一种空间数据呢? 事实上,只要分析的对象实体具有空间属性,就可以使用空间分析方法来分析空间数据。 这样的话,当我们把鼠标放上去的时候,鼠标所在的器官就会高亮显示。 对于右边的数据,你可以使用左边的代码来决定我的数据右边的直方图代表什么。 现在让它代表不同器官的体积。 可以看到肝脏的体积,两个肺是最大的。 然后是肾脏,只画一个肾脏。 这是胰腺的体积,它是整个身体中最小的。 这是小肠、大肠和心脏。 这样一个空间分析的过程。
其实你学过中医吗? 如果说中医是关于阴阳和五行的平衡,那么它也是关于不同器官之间的相互作用。 从西医的角度来看,心脏病有时会影响肺或肝。 2016年参与了互联网医疗项目,当时整个互联网医疗行业都在尝试用大数据的方法去建模,把我们的西医或者中医做成一个模型,然后进一步用机器学习来修改我的模型,最终完成一个人工智能诊断系统。 。 可见,它是一种对空间数据的分析,也是一种可以帮助诊断不同疾病或器官之间相互作用的方法。
图片来自视频
第二个例子是一个很有趣的画面,就是可以经常吃牛排或者有的福建同学喜欢吃牛肉火锅。 牛肉的不同部位有不同的味道和质地,肉的价格也不同。 该图表显示了不同地点的牛肉价格。 当鼠标放在不同位置时,浮窗会显示最高值为100,最低值为5。在85位置进行相对比较,就知道牛排的位置了。 深红色标注的特别贵,黄色标注的相对便宜。 同时这张图片还有一个功能,那就是可以过滤。 例如,如果你想吃50到70元的牛肉,你应该选择哪个位置? 你可以拖动底部的轴,将上限设置为70。如果是一家牛肉餐厅,顾客想以合理的价格吃到牛肉,他们就会知道选择这些类型的牛肉来提供给顾客。
图片来自视频
我们怎么理解呢? 我在课堂上学习了地理空间数据分析的方法。 如何在宇宙空间分析中使用它? 地球其实就是去掉海水后左边的形状。 它非常不规则,就像形状凹凸不平的土豆一样。 我们现在看到的包括百度地图和谷歌地图,它们使用椭圆模型将地球理想化为正椭圆形。 制作椭圆的过程并不意味着在地球的最外边缘放置一个椭圆来包围它。 事实上,它夷平了一些高山,例如喜马拉雅山。 它肯定被夷为平地,然后填满了许多峡谷,例如马里亚里海沟。 ,将红海附近的沟壑填满,得到一个椭球体。 世界上有多个椭球体,为什么会有多个? 因为它是基于椭球体的,所以下一步是建立我们的坐标系。 我们现在已经熟悉了北纬35度,我们的气温,东经80度是我们的温带,应该是国内地区。 80度到125度之间的区域是北京时间。 那么这样一个以经度和纬度为标志的坐标就称为大地坐标系。 它是一个坐标系。 可以看到原点是地球的中心,它的原点从这里发出一个xyz 3轴,这就是众所周知的笛卡尔坐标系。 为什么我说要感谢笛卡尔发明了概括的概念和笛卡尔坐标系,让我们今天能够分析空间地理数据呢?
通过北纬度和经度的方法,测量空间物体在球体上的位置。 当然,在具体分析过程中也会加上海拔高度,所以经纬度和海拔高度几乎可以确定你在地球上的位置。 GPS和北斗都使用大地坐标系进行定位。 所以你在右边看到的就是利用所有所谓的投影过程将三维球体扩展到二维平面上。 这是最常见的方式。
就像谷歌地图一样,如果你不断缩小,它就会从平面地图变成三维地球。 它使用所谓的地理坐标系或大地坐标系。 像百度地图、高德地图一样,如果把它缩小到最小尺寸,在屏幕上展开的就是一张二维地图。 例如,它使用我们所说的投影坐标系,即使用地理坐标系通过投影算法扩展到平面。 这是获取地理和空间数据的过程。
图片来自视频
如果我们要超越地球,面向宇宙进行分析,我们都知道广义相对论提出了一个观点,即重天体周围的空间是扭曲的。 地球和太阳周围的空间不是直的。 视觉上会出现如左图所示,有一个凹陷。 这种平面是非欧几何。 笛卡尔坐标系是基于欧几里得几何的坐标系。 在非欧几里得几何的框架内,不能使用欧几里得几何。 但还是可以找到相似之处。 也就是说,大地坐标系实际上是非欧几何的模型。 可以通过投影算法将其投影到平面上。 对于任何从三维到二维的转换过程,只要是空间数据,都可以认为是投影过程。 只是投影需要一些数学算法来计算。 像这张图,你可以看到上面的椭球体,通过一些角度的方法,几何的方法,还有一些累加公式其实很长,也就是说可以通过一些方法进行变换。 那么一旦转换完成,就可以使用丰富的地理数据分析方法来进行操作。
图片来自视频
有人这样做过吗? 在这个虚拟宇宙之前还有一些。 让我向您展示一个有人这样做的案例。 这是什么情况? 背景是我们现在都面临着全球变暖。 除了改变我们使用能源的方式之外,有没有办法减少太阳辐射到地球的热量呢? 该团队想出了一种方法,在地球和太阳之间放置由此类气泡组成的屏障,以吸收部分热量。 这就是所谓的围棋工程,是地理工程的一种方法。
图片来自视频
根据这个理论计算,事实上,如果用这个理论推导的话,这样的气泡阵列可以减少太阳向地球的热辐射1.8%。 怎么做? 首先,它建立了一个可以存在于外太空的稳定气泡。 事实上,它是在实验室开发出来的。 然后利用空间数据的向后推导方法,选择该点作为地球和太阳之间的第一个拉格朗日平衡点。 在这个位置,地球和太阳的引力与气泡阵列相等,它可以稳定地停在这里。 放大之后可以看到,构想了这样一个圆形的阵法,只是挡住了后面的地球。 就是这么一个简单的想法,但是这个想法完全超越了地球,如何从宇宙的角度来改变我们的气候变暖问题。
最终虚拟宇宙的概念。 事实上,目前无论学术界还是工业界,还没有一个能够达成大多数人共识的元宇宙定义。 我选择了中信证券研究部的一个比较容易理解的定义。 可以理解,元宇宙是基于数字孪生的,而我们每个人作为个体也被做成了数字孪生。 每个人在数字虚拟空间中都有一个对应的实体。 如果你看过《头号玩家》电影,就会很容易理解这个概念。
对人本身进行数字孪生后,如何面对虚拟世界的数据体和现实世界本身? 那么想象力就是元宇宙的一部分,也就是我们所说的数字世界。 因为在树木的世界里,我们没有现实世界中这个物体的光炎,也就是没有长宽高等必要的空间体。 因此,我目前无法看到,在虚拟宇宙空间中,数字建筑或人类双胞胎不具有与物理世界中的尸体相同的独特性或排他性问题。
空间数据分析在元宇宙中会是什么样子? 我现在想不出来这个了。 希望大家在学习的过程中能够发现并拓展自己的思维。 即使在虚拟宇宙时代,无论是分析虚拟宇宙中的数据还是现实世界中的数据,最终的目的都是为了推断每个人的行为或者进一步影响现实世界中人们的行为。 只要人类仍然作为三维实体存在于现实世界中,空间数据和相关问题就不可避免地出现。
图片来自视频
最后简单介绍一下课程设置。 请花一点时间补充一下,这是我希望课程能够给每个人带来的改变。 第一个在左下角,可以让你更深入地了解空间。 学会了这个之后,你就不会再觉得空间很空灵,或者你只会看到周围所谓的空的东西。 你可以更深入地了解空间。 机制。 第二点可能是,如果你能在10节课中跟随案例同时完成10个作业,如果你从头开始使用Python,通过传递获得基本的编程技能是可以的。 那么第三个就是基于这两个能力进行分析,获得通过空间数据洞察信息的能力,希望给大家带来一些改变。 回到开头留下的两个问题。
图片来自视频
第二个问题更重要。 我希望仔细思考这个问题,学习课程的目的是什么,数据分析对我们每个人的价值是什么? 因此,在数据行业,尤其是数据分析行业,分析师、数据可视化设计师等附加值特别高的一类工种,目前薪资非常高,而且还处于人才严重短缺的状态,排除所有的人才。各种工作。 这是人为的原因。 我认为这就像一个行业。 如果它能产生这么高的价值,它一定有一些价值点是不能以人们的意愿改变的。
最后希望大家能够通过这个问题的答案来探索数据的乐趣。
文章评论