-
TuGraph Analytics作业监控面板:运行时组件上的高效分析工具
作者:丁一 背景 TuGraph Analytics作业部署到K8S集群之后,通常会启动多个pod(一个master、一/多个driver、多个container)。用户很难判断作业当前运行的进度如何,也不能通过pod的状态来判断内部进程的状态。无论是查看进度、查看日志、性能分析,都需要到每一个pod中进行对应的操作,运维成本很大,需要一个白屏化的监控页面来监控所有进程的实时状态信息。 因此,我们在作业进程中内置了一个Dashboard(本地启动/容器启动时自动生效),包括前端页面和后端server,用户可以不需要感知到它们的存在。通过访问Dashboard,用户可以更方便地通过白屏化的方式查看作业的执行进度、组件列表和详情、任意组件内部的指标、日志等。还可以通过Profiler... Read More
-
TuGraph Analytics交互式图查询:让图所见即所得
作者:廖梵抒 TuGraph Analytics提供了OLAP图分析能力,实现图上的交互式查询,用户在构图并导入数据之后,可以通过输入GQL语句对图查询分析,并以可视化的方式直观地展示点边结果。 OLAP架构 在TuGraph Analytics OLAP架构中,主要以下组件: Client: 用户通过Client提交查询语句, Client负责和Coordinator交互,发送查询请求。 Coordinator: 接收来自Client查询请求,将查询中的GQL语句进行解析、优化,构建查询的执行计划(执行计划的生成逻辑可参考《分布式图计算如何实现?带你一窥图计算执行计划》),并将任务调度给Woker执行。 Worker:具体分布式地执行任务的单元,接收到Co... Read More
-
重磅发布!!!蚂蚁图团队开源高性能原生图存储系统CStore
作者:唐浩栋 CStore是一款专门为图分析场景而设计的原生图存储引擎,它采用了Rust语言编写,使用基于图的存储结构,针对图分析场景进行特定优化。CStore可以存储包含千亿级点和万亿级边的图数据,在蚂蚁集团内部的多场景使用中,已经积累了多年的经验,存储容量达到了PB级别。 图存储系统 百艺通,不如一艺精 在设计数据存储引擎时,需要考虑众多因素。例如,所应用的具体场景,是联机分析处理(OLAP)还是联机事务处理(OLTP);再如,数据存储方式的选择,内存、本地硬盘或分布式存储;还有就是存储数据的格式,像是文档、JSON,宽表,对象,键值对等。图存储引擎是诸多数据存储引擎中的一种,它专门用于图数据的存储。从DB-Engines网站的统计来看,Graph DBMS的热度从... Read More
-
世界第一!蚂蚁图计算TuGraph打破LDBC SNB-BI世界纪录
近日,国际关联数据基准委员会(Linked Data Benchmark Council,以下简称LDBC)发布了图数据基准测评“LDBC SNB-BI”最新结果。由蚂蚁集团自研的流式图计算引擎TuGraph Analytics在30TB规模的数据集上成功完成了基准测试,数据规模和性能打破了此前的公开纪录,关键指标中的并发吞吐量提升至2.84倍,查询能力提升至1.86倍。 LDBC官方公布蚂蚁LDBC SNB-BI测评新纪录 在本次测评中,测试产品需要快速导入和分析30TB 规模的数据,处理多达720亿点、5400亿边规模的数据,并在60秒内返回读取大部分查询结果。TuGraph Analytics顺利通过了严苛测试,很好地处理SNB-SF30000数据集的两个挑战:在大规模图... Read More
-
TuGraph Analytics云原生部署:基于K8S Operator的轻量级作业启动方案
作者:丁一 背景 TuGraph Analytics作业可以通过Console提交部署到K8S集群,但Console是一个独立的Web系统,部署形态上相对较重。在平台工具系统接入或大数据生态集成场景中,需要更轻量级的快速接入TuGraph Analytics的方案。 我们新增了模块geaflow-kubernetes-operator,可以通过更轻量级的YAML文件配置方式,对TuGraph Analytics作业进行描述配置。同时更方便地监控和管理集群下的所有TuGraph Analytics作业,并通过CR(Custom Resource)的创建/修改/删除来管理作业的生命周期和元信息,可以实现只通过kubectl命令实现任务操纵。我们也提供了一个实时dashboard页面,可以... Read More
-
TuGraph Analytics动态插件:快速集成大数据生态系统
作者:廖梵抒 介绍 插件机制介绍 插件机制为GeaFlow任务提供了外部数据源的集成能力扩展,GeaFlow支持从各类Connector中读写数据,GeaFlow将它们都识别为外部表,并将元数据存储在Catalog中。GeaFlow已有一些内置的插件,例如FileConnector,KafkaConnector,JDBCConnector,HiveConnector等。 GeaFlow也提供了动态插件的功能,用户可以通过Java SPI的方式自定义Connector,连接外部数据源,例如Kafka,Hive等,也可自定义实现不同的sink、source连接方式和逻辑,更多关于自定义插件的介绍,可参考开发手册中自定义Connector章节。同时,GeaFlow Conosole平... Read More
-
TuGraph Analytics图建模研发:为图计算业务提速增效
作者:TuGraph 概述 GeaFlow Console平台提供了图数据研发能力,包括了对点、边、图、表、函数、任务的管理功能, 为了让用户更好的管理元数据信息,同时也便于用户对图计算进一步地了解。通过对这些研发资源的管理,用户可以方便地、白屏化地创建、修改、删除这些元数据,也可以很方便地查看当前租户下所拥有的数据资产概览及详情,从而更多关注于业务逻辑的实现。 图数据研发介绍 基本概念 点(GeaflowVertex):表示一个对象或实体、包含了点id,标签和属性。 边(GeaflowEdge):表示对象之间的关系,连接点和点,包含源点id,目标点id,标签,时间戳和属性。 图(GeaflowGraph):表示对象之间关联关系的一种抽象数据结构,由若干个点和若干边组... Read More
-
开源TuGraph Analytics——是时候开始使用图计算了
作者:TuGraph 项目地址: https://github.com/TuGraph-family/tugraph-analytics 项目文档地址: https://tugraph-analytics.readthedocs.io/en/latest/index_cn/ 博客地址: https://tugraph-analytics.github.io/ 类别:Java 项目描述: GeaFlow(品牌名TuGraph-Analytics)是蚂蚁集团开源的分布式流式图计算引擎,已广泛应用于数仓加速、金融风控、知识图谱以及社交网络等场景。 TuGraph-Analytics的核心能力是以自研图存储为数据底座,支持用户书写SQL+GQL的融合语言,驱动流批一体的流式图计算。 使用T... Read More
-
TuGraph Analytics图计算快速上手之弱联通分量算法
作者:张奇 TuGraph Analytics简介 TuGraph Analytics是蚂蚁集团近期开源的分布式流式图计算,目前广泛应用在蚂蚁集团的金融、社交、风控等诸多领域。更多详细内容可参考TuGraph Analytics的github首页(https://github.com/TuGraph-family/tugraph-analytics),欢迎国内外开发者们与我们共建TuGraph Analytics社区,壮大流图产业生态。 弱联通分量算法介绍 弱联通分量图算法(Weakly Connected Components Algorithm)是一种用于找到图中所有弱联通分量的算法。弱联通分量是指在有向图中,如果忽略所有边的方向,相互之间是连通的节点集合。 算法的基本思想是通... Read More
-
容器内mysql无法启动解决方案
容器内无法启动mysql,导致console无法启动。可以通过访问宿主机的mysql绕过容器内启动mysql的问题。 操作步骤如下: 清空geaflow-console的容器,关闭宿主机MySQL以恢复到初始状态。 # 查看容器id docker ps -a # 删除容器 docker rm [container-id] # 查找mysql相关进程号 ps -ef | grep mysql # 结束MySQL进程 kill [pid] 第一步:启动geaflow-console容器 docker run -d --net=host --name geaflow-console -p 8080:8080 -p 8888:8888 -p 6379:6379 -p 8086:808... Read More
-
TuGgraph-Analytics图计算快速上手之紧密中心度算法
作者:张武科 概述 紧密中心度(Closeness Centrality)计量了一个节点到其他所有节点的紧密性,即该节点到其他节点的距离的倒数;节点对应的值越高表示紧密性越好,能够在图中传播信息的能力越强,可用以衡量信息流入或流出该节点的能力,多用与社交网络中关键节点发掘等场景。 算法介绍 对于图中一个给定节点,紧密性中心性是该节点到其他所有节点的最小距离和的倒数: 其中,u表示待计算紧密中心度的节点,d(u, v)表示节点u到节点v的最短路径距离;实际场景中,更多地使用归一化后的紧密中心度,即计算目标节点到其他节点的平均距离的倒数: 其中,n表示图中节点数。 算法实现 首先,基于AlgorithmUserFunction接口实现ClosenessCentrality,如... Read More
-
TuGraph Analytics流图计算之行为路径归因
作者:李洁峰 TuGraph Analytics(内部项目名 GeaFlow)是蚂蚁集团开源的分布式实时图计算引擎,即流式图计算。通过 SQL + GQL 融合分析语言对表模型和图模型进行统一处理,实现了流、批、图一体化计算,并支持了 Exactly Once 语义、高可用以及一站式图研发平台等生产化能力。 目前 TuGraph Analystics 已经在多类应用场景以及万亿级别的数据规模下提供了生产可用的计算服务,本文主要介绍在路径归因的场景下的实践。 业务背景 在数字化、信息化的大潮流中,互联网给消费者和商家都带来了极大的便利,对用户行为进行渠道归因和路径分析是流量分析领域中的不可缺少的一部分。通过计算用户的有效行为路径,构建出完整的转化路径,能够快速帮助业务看清楚产品的价值... Read More
-
为什么使用图进行关联运算比表Join更具吸引力?
作者:TuGraph 关系模型并不适合处理关系 关系模型被广泛应用于数据库和数仓等数据处理系统的数据建模,然而名称里带有关系一词的模型却并不适合处理关系。 在关系模型所用的表结构建模下,关系的运算通过Join运算来处理。但在实际使用中,特别是在流式更新的数据中,这种方式存在诸多痛点。 痛点一:关系运算成本高 表模型的重点在于多条记录统一描述为表,但本身缺乏关系描述能力,只能通过Join运算来完成关系的计算。 无论是在批或流的计算系统中,Join操作都涉及大量shuffle和计算开销。同时,Join产生的中间结果由于关联会放大多份,造成数据量指数级膨胀和冗余,存储消耗大。 在下图的实验中,我们模拟了依次执行一跳、两跳和三跳关系运算的场景。足以见得,越是复杂的多跳关系计算,关... Read More
-
TuGraph Analytics图计算快速上手之K-core算法
作者:郑光杰 引言 K-Core算法是一种用来在图中找出符合指定核心度的紧密关联的子图结构,在K-Core的结果子图中,每个顶点至少具有k的度数,且所有顶点都至少与该子图中的 k 个其他节点相连。K-Core通常用来对一个图进行子图划分,通过去除不重要的顶点,将符合逾期的子图暴露出来进行进一步分析。K-Core图算法常用来识别和提取图中的紧密连通群组,因具有较低的时间复杂度(线性)及较好的直观可解释性,广泛应用于金融风控、社交网络和生物学等研究领域。 K-Core算法介绍 一张图的 K-Core子图是指从图中反复去掉度(不考虑自环边)小于 k 的节点之后得到的子图。该计算过程是一个反复迭代剪枝的过程,在某一轮剪枝之前度大于等于 k 的节点,可能会在该轮剪枝后变为度小于 k。比如3-c... Read More
-
一张图读懂TuGraph Analytics开源技术架构
作者:范志东 TuGraph Analytics(内部项目名GeaFlow)是蚂蚁集团开源的分布式实时图计算引擎,即流式图计算。通过SQL+GQL融合分析语言对表模型和图模型进行统一处理,实现了流、批、图一体化计算,并支持了Exactly Once语义、高可用以及一站式图研发平台等生产化能力。 开源项目代码目前托管在GitHub,欢迎业界同仁、大数据/图计算技术爱好者关注我们的项目并参与共建。 项目地址:https://github.com/TuGraph-family/tugraph-analytics GeaFlow论文【SIGMOD 2023】:GeaFlow: A Graph Extended and Accelerated Dataflow System 概览 本... Read More
-
GeaFlow图计算快速上手之K-hop算法
引言 随着年轻人的社交需求不断增长,各种社交软件应运而生,这些社交软件通常都会有好友推荐功能,根据六度分离理论,理想情况下,每个人通过6个人就可以跟所有人产生关联,因此K-hop算法(K跳算法)被用于实现好友推荐,现在让我们来尝试使用GeaFlow在5分钟内实现K-hop算法吧! K-hop(K跳)算法介绍 K-hop算法是一种基于图论的算法,用于寻找一个起点通过K次以内跳跃能够到达的节点,也就是从起点出发,找出K层内与之关联的节点。K-hop算法广泛应用于好友推荐、影响力预测和关系发现等场景。 K-hop算法本质上是一种广度优先搜索(BFS)算法,通过从起点开始不断向外扩散的方式来计算每一个节点到起点的跳跃数。算法流程如下: GeaFlow实现K-hop算法 首先需要通过实现... Read More
-
GeaFlow任务能力增强:通过API定制流图计算逻辑
GeaFlow API介绍 GeaFlow API是对高阶用户提供的开发接口,用户可以直接通过编写java代码来编写计算作业,相比于DSL,API的方式开发更加灵活,也能实现更丰富的功能和更复杂的计算逻辑。 在GeaFlow中,API支持Graph API和Stream API两种类型: Graph API:Graph是GeaFlow框架的一等公民,当前GeaFlow框架提供了一套基于GraphView的图计算编程接口,包含图构建、图计算及遍历。在GeaFlow中支持Static Graph和Dynamic Graph两种类型。 Static Graph API:静态图计算API,基于该类API可以进行全量的图计算或图遍历。 Dynamic G... Read More
-
分布式图计算如何实现?带你一窥图计算执行计划
图的遍历 我们一般说的的图算法是指在图结构上进行迭代计算的计算过程,例如有最短路径算法、最小生成树算法、PageRank算法等。 这些算法往往用于解决图上的特定一类问题。例如最短路径算法主要用于寻找两个节点之间的最短路径,PageRank算法则可以给节点重要性排序。 然而,还有一类被广泛使用的’图算法’,它们也通过迭代计算处理,且在实际应用中有着广泛的应用,如金融风险管理、社交网络分析等。 它们就是图遍历,又被称之为Traversal。图Traversal解决遍历图中节点的问题,通过可控的顺序访问图中节点和边,以便对图进行处理或收集信息。 一般的图遍历算法可以分为两种主要类型:深度优先搜索(DFS)和广度优先搜索(BFS)。手工实现算法只有既定的走图遍历模式,很难解决特定的图查... Read More
-
GitHub上有哪些好项目?TuGraph-Analytics图计算快速上手之SSSP算法
引言 下面这张图是GitHub中约500个开源项目仓库与话题组成的关系网络,密布的连线恐怕没有人能从中找到任何有用的信息。然而GitHub目前总共有3000000+的仓库! 如何在5分钟内发现有哪些我们感兴趣好项目? 今天我们使用GeaFlow帮助我们实现SSSP(单源最短路径算法),来试一试盲人摸象! GeaFlow(品牌名TuGraph-Analytics)是蚂蚁集团开源的分布式实时图计算引擎,目前广泛应用于金融风控、社交网络、知识图谱以及数据应用等场景。 SSSP(单源最短路径算法)算法介绍 SSSP单源最短路径算法(Single Source Shortest Path)是一种基于图论的算法,用于寻找一个起点到其他所有节点的最短路径。该算法可以应用于多种实际问题,如... Read More
-
图加速数据湖分析-TuGraph和Hudi集成
表模型现状与问题 关系模型自1970年由埃德加·科德提出来以后被广泛应用于数据库和数仓等数据处理系统的数据建模。关系模型以表作为基本的数据结构来定义数据模型,表为二维数据结构,本身缺乏关系的表达能力,关系的运算通过Join关联运算来处理。表模型简单且易于理解,在关系模型中被广泛使用。 随着互联网信息技术的发展,处理的数据规模越来越大,大数据系统应运而生。表模型作为重要的数据模型依然被Spark/Hive/Flink等主流大数据引擎所采用,表模型之上的SQL查询语言也被广泛使用在大数据分析处理中。然而随着应用场景的丰富和处理数据规模的变大,表模型的问题也越来越多的暴露出来。 首先,关系运算成本高 表模型本身缺乏关系描述能力,只能通过Join运算来完成关系的计算。无论在批处理系... Read More
-
TuGraph图计算快速上手之PageRank算法
author: 彭志伟 GeaFlow介绍 GeaFlow(品牌名TuGraph-Analytics)是蚂蚁集团开源的分布式实时图计算引擎,目前广泛应用于金融风控、社交网络、知识图谱以及数据应用等场景。GeaFlow的核心能力是流式图计算,流式图计算相比离线图计算提供了一种高时效性低延迟的图计算模式,更多详细内容参考GeaFlow GitHub介绍(https://github.com/TuGraph-family/tugraph-analytics). GeaFlow整体架构如下所示: GeaFlow DSL GeaFlow对用户提供图表融合分析语言,采用SQL + ISO/GQL方式.用户可以通过类似SQL编程的方式编写实时图计算任务. GraphView AP... Read More
-
Kubernetes云原生实战:分布式TuGraph-Analytics实现图研发,构建第一个商业智能应用
author: 林力韬 引言 Kubernetes在云原生应用中扮演着至关重要的角色,为商业智能(BI)强大赋能。 不同于传统的BI,容器化部署在集群中可以获得更高的可靠性、弹性和灵活性。 但在实际生产实践中,这还远远不够。 商业智能分析人员更希望搭建实时提问快速响应的研发平台,使得数据能够回应分析人员的想法,并产出更多支持商业决策的信息。 这需要类似于OLAP的在线分析处理(OLAP)技术,帮助查询、分析和理解大规模数据,从而做出更明智的商业决策。 例如这样一个接近实际的场景—— 分析师想要找到具有’Comedian’类别下标签的博文和评论,TA的意图可以被描述如下: MATCH (:TagClass where name = 'Comedian') <-[... Read More
-
从大数据到图计算-Graph On BigData
author: 彭志伟 背景 自2003年Google的三篇大数据领域经典论文GFS、MapReduce和BigTable发表以来,大数据领域取得了长足的发展。尤其是开源大数据领域各种优秀的开源大数据引擎层出不穷,先后出现了Hadoop、Hive、Storm、Spark、Flink以及Presto等多种优秀的开源项目。从应用场景上覆盖了离线计算、流式计算、OLAP查询以及流批一体等多种计算形态,针对大数据的处理技术日益完善和多样化。 这些大数据引擎主要处理的是表模型的数据,即将要处理的数据以表模型来建模,然后进行加工处理。表模型虽然相对简单,易于理解,然后也存在局限性,尤其是在处理复杂关系的运算和表达上存在着比较大的困难。表模型主要通过Join的方式来处理表之间的关联关系,Joi... Read More
-
论文解读|TuGraph Analytics 流式图计算论文入选国际顶会 SIGMOD
author: TuGraph 6月18日-23日,数据库国际顶会 2023 ACM SIGMOD 在美国西雅图举行,蚂蚁流式图计算团队一篇论文入选。 ACM SIGMOD 数据管理国际会议是由美国计算机协会(ACM) 数据管理专业委员会(SIGMOD) 发起,与 VLDB、ICDE 并称为数据库业界的三大顶级学术会议。 其收录论文代表了数据库领域的最高水平,也是未来数据库技术发展的重要风向标。 蚂蚁流式图计算团队本次的论文 《GeaFlow: A Graph Extended and Accelerated Dataflow System》 被 SIGMOD 2023 收录,代表蚂蚁流式图计算团队的成果不仅在工业界有界广泛的应用,同时也在学术界得到进一步认可。 图片注:G... Read More
-
谁在以太坊区块链上循环交易?TuGraph+Kafka的0元流图解决方案
author: 林力韬 co-author: ChatGPT 3.5 引言 都在说数据已经成为新时代的生产资料。 但随着大数据和人工智能等技术的发展,即便人们都知道数据的价值日益凸显,却无法凭借一己之力获取和分析如此大规模的数据。 要想富,先修路。要想利用新时代的数据致富,也必须要有趁手的工具。 只有合适的工具才能完成大规模数据的采集、清洗、存储、处理和可视化等各个环节。 只有具备这样的工具,才能更好地利用数据来推动经济社会发展,并为人类创造更多的价值。 现如今,免费的,蚂蚁集团图计算团队开源的超大规模流图处理系统——GeaFlow正成为一款专注于图计算领域的开源数据处理工具。我们从一个简单的问题开始,让你体会GeaFlow的强大之处。 “谁在进行循环交易?” “谁在以... Read More
-
2023开放原子全球开源峰会,蚂蚁图计算平台开源业内首个工业级流图计算引擎
author: TuGraph 6月11日,2023开放原子全球开源峰会在北京开幕。本次峰会以“开源赋能,普惠未来”为主题。在高峰论坛上,蚂蚁技术研究院院长、图计算负责人陈文光宣布开源 TuGraph 图计算平台核心成员——工业级流式图计算引擎 TuGraph Analytics。 去年9月,蚂蚁集团开源了 TuGraph 图计算平台中的图数据库 TuGraph DB。这次开源是 TuGraph 图计算平台的又一次开源升级,进一步加大了蚂蚁在图计算基础软件领域的开放力度,也是通过开放协同促进科技创新的实际行动。 图(Graph)是一种抽象的数据结构,由顶点和边构成。图计算是一种以图结构建模的算法模型,可对大规模数据进行关系挖掘和复杂计算,实现知识推理和事件溯源。图计算目前... Read More