网状模型的数据结构是什么结构 (网状模型的数据结构描述)

本文目录导航:
网状模型的数据结构是什么结构
网状模型的数据结构是什么结构:理论驳回图Graph结构来示意。
图是一种由节点Vertex和边Edge组成的数据结构,节点示意实体或对象,边示意节点之间的关联或衔接相关。
在网状模型中,每个节点代表一个实体,例如人、东西、事情等,而边示意节点之间的相关或衔接。
边可以是有向的,也可以是无向的。
经过节点和边的组合,可以构成复杂的关联网络。
网状模型的数据结构准许节点之间存在多对多的相关,节点之间可以直接衔接,也可以经过其余节点直接衔接。
这使得网状模型可以更好地表白实践环球中的复杂相关。
与传统的线性数据结构(如数组、链表)相比,网状模型更实用于形容和解决具备复杂关联相关的数据。
它常被运行于图数据库、社交网络剖析、常识图谱等畛域。
经常使用网状模型时的留意事项
1、训练数据的预备:网状模型须要少量的训练数据能力够获取良好的成果。
在预备数据时,须要确保数据的品质和数量足够。
2、预解决数据:在经常使用网状模型启动训练之前,还须要对训练数据启动预解决,例如数据荡涤、特色提取等操作。
3、防止过拟合:过拟合是指模型在训练数据上体现良好,但在新数据上体现较差的状况。
为了防止过拟合,可以驳回一些技术,例如交叉验证、正则化等。
4、模型提升:为了提高模型的功能,在训练环节中可以驳回一些提升算法,如随机梯度降低、反向流传等。
图的节点特色
我的微信群众号是“黄泓图计算分享”,很多好友反映群众号上看文章不繁难,就在上同步一份 图蕴含两大因素:节点和边。
节点和边上都可以有属性,边既可以有方向也可以无向。
关于图的建模,可以蕴含结构上的特色和汇集的特色。
特色表征的粒度,可以是节点,边,子图等等。
本文先从最经常出现的状况讲起:以节点为粒度的结构特色。
以节点为粒度的结构特色,往往同时会作为图嵌入(GraphEmbedding)算法的输入,从而获取形容节点所在的部分结构的向量。
例如度以及三角形的个数,可以作为Role2vec5]或许GraphSage6]的输入。
这些前面再详谈。
以节点为粒度的结构特色,最繁难的是度(degree),也就是一个节点关联的街坊节点的个数。
在很多运行中,想必大家都有意有意用过这个特色。
节点的关键性 形容节点关键性的特色,普通有两类:一类是基于必定的定义直接形容的特色,如度,介数核心性和严密核心性等等。
另外一类是源于互联网链接剖析的算法,如HITS算法和PageRank算法。
依据定义直接形容的节点关键性 介数核心性(betweeness) 形容的是一个节点作为枢纽节点的关键水平。
形容一个节点作为枢纽的关键水平还有别的方法(如HITS,上方会提到),介数核心性驳回的是最粗犷的定义方法:一个节点的介数核心性是经过这个节点的最短门路条数与一切最短门路条数的比值。
由于定义繁难粗犷,所以计算起来也比拟费事。
假设要启动散布式计算的话须要设计不凡的算法。
比拟好的一个成功来自sparklinggraph:这里betweeness经常使用了两个成功,区分是Edmonds1]和Hua2]。
亲测Hua的成成效率愈加高一些,奈何话题太冷,论文没什么人援用。
严密核心性(closenesscentrality) 形容一个节点到图中其余节点的难易水平。
取的是这个节点到图中其余节点的距离平均数的倒数。
假设这个值比拟大,那么说明这个节点到其余节点大部分都是经过很少的几步就行,整个图结构比拟严密。
关于这个目的,sparklinggraph也有比拟好的成功。
三角形计数(trianglecount) 是用来形容一个图中的顶点之间汇集密集水平的系数。
节点所在的部分结构越密集,三角形个数越多。
关于这个目的,sparkgraphx有比拟好的成功。
基于链接剖析的节点关键性特色 HITS算法和PageRank算法最后的提出都是用于权衡Web图模型中页面的关键水平。
他们基于不同的假定。
用户阅读网页的随机游走模型(RandomSurferModel) 用户阅读网页的随机游走模型(RandomSurferModel)假定用户随机游走网页由两部分构成: (1)直接跳转:用户进入一个网页a,并且以等概率访问这个网页的链接(假定这个网页有d个链接,则为1/d) (2)远程跳转(teleporting):用户阅读到某个水平之后选择不再继续深化,而是输入另外一个网址从新阅读。
PageRank算法 假定: (1) 数量假定: 一个页面节点接纳到的入链数量越多,他就越关键 (2) 品质假定: 假设指向一个页面节点的页面节点关键,这个页面就越关键 基于这样的假定以及randomsurfermodel可以获取PageRank的迭代公式。
首先一个页面节点a或许以两者模式遭到访问:一种是远程跳转,一种是直接跳转。
假定图中有N个节点,用户有概率1-p会启动远程跳转,则远程跳转的概率是: 进入远程跳转的概率x选中这个节点的概率=(1-p)x(1/N) 第二种模式是有其余节点等概率跳转而来。
假定节点a的一个街坊b,b自己有degree(b)个街坊,b自己的pagerank分数为PR(b),则b能够给a的分数为PR(b)/degree(b)。
a的一切街坊能分给a的pagerank分数加起来,再乘以用户进入直接跳转的概率p,就是在直接跳转这种模式下节点a能够获取的pagerank分数。
远程跳转和直接跳转两部分分数联合起来,也就是大家普通在博客里看到的pagerank迭代公式。
HITS算法 HITS算法以为节点有两个个性:一是节点自身的关键水平,即威望度(Authority)。
二是节点作为引向关键节点的枢纽节点的关键水平,即枢纽度(Hub)。
假定: (1)一个Authority值高的节点应该有很多Hub值高的节点指向 (2)一个Hub值高的节点应该指向很多Authority值高的节点 HITS的迭代模式就是这样Authority值和Hub值迭代相互增强: (1)一个节点的Authority值是指向他的节点的hub值之和(对应假定1) (2)一个节点的Hub值是他指向的节点的Authority值之和(对应假定2) 口头1,2直到收敛 假设没有种子集合,HITS的初始值可以一切节点的authority和hub值都设置为1。
假设有种子集合,则构图模式为对种子集合启动扩大,凡是和种子集合外面的节点有直接指向相关的节点都扩大出去,而后经常使用上述的迭代步骤。
运行场景 PageRank可以用于仅仅依托链接指向判别图中的关键节点。
HITS和pagerank值自身也可以作为节点特色输入分类模型。
例如关于企业守约危险的预测当中,3]提到基于企业之间的担保相关可以构建一个有向图。
这个论文经常使用了不同的图特色作为输入,发现HITS获取的authority和hub值的特色权重比拟大。
作者对此的解释是:危险大的企业,须要找很多公司担保,从而authority值高,最后守约率高。
危险低,持重的企业,偏差于担保很多企业,Hub值就会很高。
其实单纯从这个角度来讲,直接用节点的出度和入度做特色也是可以的。
HITS获取的好处在于可以成功Hub和Authority分值的相互增强。
HITS与PageRank在运行场景上的一个关键区别是HITS可以从一个有标注的种子集合向外扩大获取其余雷同相关的节点中的关键节点。
4]经常使用HITS从一个专家标注的与“时兴”无关的网页地址的种子集合启动扩大,智能对外部关联的网页与“时兴”的相关性启动排序。
关键的一点是作者提到PageRank和HITS在经常使用场景上的关键区别: (1)PageRank在你有比拟完整的链接消息的时刻才有效,而HITS可以在链接消息不完整的时刻也施展作用 (2)HITS可以应用人工标注的样本启动开掘,PageRank不行(除非personalizedpagerank,不过那是另一个故事了) 援用 1]EdmondsN,HoeflerT,-efficientparallelalgorithmforcomputingbetweennesscentralityindistributedmemoryC]//2010InternationalConferenceonHighPerformanceComputing,HiPC2010,DonaPaula,Goa,India,December19-22,,2010. 2]HuaQS,FanH,AiM,C]//,2016. 3]NiuZ,ChengD,YanJ,J],2017. 4]5]AhmedNK,RossiR,LeeJB,-basedGraphEmbeddingsJ].2018. 6]HamiltonWL,YingR,J].2017.
结构图中节点是什么意思?
【1】普通指图集中的页码和详图编号。
上方的124为页码,上方的23为详图编号。
【2】节点:“节点”一律念被宽泛运行于许多畛域。
电力学中,节点是塔的若干部件的会合点。
机械工程学中,节点是在一对相啮合的齿轮上,其两节圆的切点。
在网络拓扑学中,节点是网络任何支路的终端或网络中两个或更多支路的互连公共点。
生化工程中,代谢网络分流处的代谢产物称为节点。
在程序文语中,节点是XML文件中有效而完整的结构的最小单元。
在作图软件MAYA中,节点是最小的单位。
每个节点都是一个属性组。
节点可以输入,输入,保留属性。
文章评论