baihongyu.com
博客
关于我
10 故障排除
Spark故障排除指南:10个常见问题及解决方案1.避免OOM-outofmemory在Shuffle过程中,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task就会拉取一小部分数据,然后立即进行后面的聚合、算子函数的使用等操作。reduce端task能够拉取多少数据,由reduce拉取数据的缓冲区buffer来决定,因为拉......
阅读量:
798 次
2023-04-02
10 Flink CDC
1.CDC是什么CDC是ChangeDataCapture的缩写,意为数据变更捕获。其核心思想是实时监测数据库中的数据变动,包括插入、更新和删除等操作,将这些变更按时间顺序记录并写入消息中间件,供其他服务订阅和消费。在广义上,只要能够捕获数据变更的技术都可以称为CDC。然而,通常所说的CDC技术主要面向数据库的变更,属于一种数据捕获技术。CDC的应用场景广泛,主要包括以下几个方面:数据同步:用于备......
阅读量:
798 次
2023-04-02
ArrayList扩容源码剖析
ArrayList的内部机制解析1.ArrayList的基本结构ArrayList在Java中属于动态数组结构,采用数组来存储元素。其内部维护了一个Object类型的数组elementData,用于存储各种类型的对象。数组的具体实现通过transient修饰符标记,表示在序列化过程中不会被写入二进制流。在创建ArrayList对象时,如果使用无参数构造器,elementData的初始容量为0,即一......
阅读量:
799 次
2023-04-02
1 HBase 基础
HBase是BigTable的开源Java版本,建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写NoSql的数据库系统。它介于NoSql和RDBMS之间,主要通过主键(rowkey)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。HBase主要用来存储结构化和半结构化的松散数据,支持的数据类型包括byte[]等。HBase表特点大型......
阅读量:
798 次
2023-04-02
1 Flink 简介
1.Flink简介Flink是Apache基金会旗下的一个开源项目,专注于分布式数据处理和实时计算。作为第四代大数据计算引擎之一,Flink在大数据处理领域引入了许多创新的概念,涵盖了批处理、实时计算和迭代计算等多种场景。与其他分布式计算框架如Hadoop、Spark等相比,Flink的优势在于其强大的流处理能力和灵活的统一架构。无论是处理实时数据流还是批量数据,Flink都能以高效的性能呈现出色......
阅读量:
798 次
2023-04-02
【打dunp和堆栈的脚本】
【打dunp和堆栈的脚本优化】最近在生产环境中需要编写一个打dunp和堆栈的脚本,便于后期操作。以下是我针对脚本进行的优化以及问题解决方案。【背景】目前我们使用了容器的环境,在宿主机上运行脚本。脚本需要完成以下操作:获取容器中的JDK路径获取Tomcat进程的PID根据操作类型(stack或dump)执行相应的命令记录操作日志并处理异常情况【脚本优化】经过反复优化,我对脚本进行了以下改进:#!/b......
阅读量:
799 次
2023-04-02
(学习赛)O2O优惠券使用预测
代码解释与优化项目背景本项目旨在通过分析用户行为数据,预测用户是否会使用优惠券。基于现有的数据集和特征工程,我们采用XGBoost模型进行建模和预测。数据预处理与特征工程1.数据清洗缺失值处理:对Distance字段进行填充,未知值设为-1。转换类型:将MJ、JIAN、MI_COST等字段从字符串转换为数值类型。2.时间特征将DATE_RECEIVED转换为日期类型。计算用户与最近一次领券日期的时......
阅读量:
798 次
2023-04-02
(24/10/05)104. 二叉树的最大深度_104. 二叉树的最大深度
给定二叉树的根节点,计算其最大深度。最大深度是指从根节点到最远叶子节点的路径上的节点数。示例输入:root=[3,9,20,null,null,15,7]输出:3输入:root=[1,null,2]输出:2方法讨论计算二叉树最大深度的方法有两种常见的选择:深度优先遍历(DFS)和广度优先遍历(BFS)。深度优先遍历(DFS)这种方法从根节点开始,尽可能深地遍历每一条路径。当到达叶子节点时,记录当前......
阅读量:
798 次
2023-04-02
flink 读取外部.properties的配置文件
FlinkJOB环境配置优化:使用ParameterTool读取外部配置文件在Flink项目中,将环境配置信息从代码中抽离放入配置文件是常见的做法。这可以让配置管理更加灵活,便于维护和扩展。以下将详细介绍如何使用Flink自带的ParameterTool读取外部配置文件,并分享遇到的问题及解决方案。使用ParameterTool读取外部配置文件项目背景随着项目复杂度的增加,环境配置信息逐渐增多。传......
阅读量:
798 次
2023-04-02
sqoop增量导入hive_sqoop定时增量导入mysql数据到hdfs(hive)
MySQL数据迁移与处理方案背景与需求我们面临一个庞大的数据处理任务,涉及两张大型MySQL数据库,分别存储量级达1亿和4.5亿条记录。由于数据库规模过大,直接从MySQL读取数据会导致性能瓶颈严重。为此,我们决定通过Sqoop实现定时增量导入Hive的方式,将数据迁移至Hive存储,进而通过SparkSQL进行处理与分析。Sqoop定时增量导入方案1.SqoopJob配置与执行创建并执行Sqoo......
阅读量:
798 次
2023-04-02
Cassandra集群管理-节点异常重启
Cassandra集群管理-节点异常重启注意本文档仅为体系文档的一部分,完整文档内容请参考:测试准备+下线正常节点、节点异常重启、添加新节点、删除异常节点。场景当节点发生异常重启时,集群会触发一系列反应。以下是具体情况:cassandra.log基本没有输出检查日志:tailf/var/log/cassandra/cassandra.log输出较少,无法获取详细信息。system.log显示明显日......
阅读量:
798 次
2023-04-02
Leetcode 166. 分数到小数
将分数转换为小数的方法与实现将分数转换为小数的任务看似简单,但要考虑到所有可能的边界情况,确保结果的准确性和格式的正确性。以下是实现该功能的详细步骤和方法。问题分析给定一个分数的分子和分母,目标是将其转换为小数形式。需要注意以下几点:结果为整数的情况:当分子能够被分母整除时,结果仅包含整数部分,无小数部分。结果为循环小数的情况:当分子不能被分母整除且分母含有2和5以外的质因数时,结果会出现循环小数......
阅读量:
798 次
2023-04-02
kafka 磁盘迁移
磁盘迁移指南背景介绍:在Kafka搭建过程中,由于磁盘配置过大且成本高昂,需要对现有磁盘进行迁移,以转移到小容量磁盘。原Kafka配置:log.dirs=/data1/kafka/var/kafka-logs/1,/data2/kafka/var/kafka-logs/1(Kafka支持多磁盘配置以提高吞吐量)log.retention.hours=168修改后配置:log.dirs=/data3......
阅读量:
798 次
2023-04-02
hive中的lateral view 与 explode函数的使用
在关系型数据库中,explode与lateralview的使用本身就是在操作不满足第一范式的数据,这种情况在传统的业务系统或数据仓库中通常被避免。然而随着大数据技术的普及,许多类似PV、UV的数据在业务系统中被存储在非关系型数据库中,使用JSON格式的概率越来越大。这种数据直接导入Hive基础的数仓系统时,通常需要经过ETL过程解析,explode与lateralview在这种场景中就显得尤为重要......
阅读量:
798 次
2023-04-02
Flink1.11中的CDC Connectors操作实践
ApacheFlink1.11CDCConnector使用指南1.引言ApacheFlink1.11引入了基于CDC(ChangeDataCapture)的连接器,这使得捕获数据库中的变更数据变得更加简便。通过Flink的CDC连接器,开发者可以高效地处理增量数据的实时分析与物化。以下将详细介绍Flink1.11的CDC连接器,包括其特点、使用场景以及操作实践。2.CDC简介CDC(ChangeD......
阅读量:
798 次
2023-04-02
CDH部署HDFS高可用 hdfs crc
CDH部署HDFS高可用配置指南一、HDFS权限检查配置关闭HDFS中的权限检查配置dfs.permissions,以便提升集群性能。二、Hadoop支持LZO压缩1.添加LZOParcel存储库点击主机,进入Parcel界面。点击“配置”,找到LZOParcel存储库URL。点击最后一栏的加号,输入新的存储库URL并保存更改。下载LZOParcel,完成后选择分配并激活。2.配置LZO压缩编码解......
阅读量:
798 次
2023-04-02
python爬虫:scrapy框架xpath和css选择器语法
Xpath和CSS选择器入门教程Xpath基础语法Xpath是一种强大的用于XML和HTML文档检索的语言,它允许开发者通过路径表达式准确地定位到指定节点。以下是Xpath的基本语法和常用表达式。常用路径表达式表达式描述示例nodename选取nodename节点的所有子节点//div/选取根节点/div//选取所有节点,不考虑位置//div.选取当前节点./div..选取当前节点的父节点..@选......
阅读量:
798 次
2023-04-02
impala&hive大数据平台数据血缘与数据地图(二)-实时采集impala血缘日志推送到kafka
Impala血缘日志实时采集与Kafka推送实现一、Impala血缘日志的采集与处理Impala与Hive的血缘日志是数据血缘关系管理的重要基石。在实际应用中,如何高效采集并处理这些日志数据,直接关系到后续数据管控和分析的可行性。本文将详细介绍如何利用Filebeat进行Impala血缘日志的实时采集和推送到Kafka。二、Filebeat的优势与配置选择Filebeat作为Impala血缘日志采......
阅读量:
798 次
2023-04-02
aws 接口请求相关
列出Route53上的内容为了查看Route53上的解析记录,你可以使用命令行工具。以下是一些详细的步骤说明:首先,登录你的AWS账户。在命令行或终端中运行以下命令:awsroute53list-resource-record-sets--hosted-zone-idecoflow.com此命令会返回与指定主机名相关的所有资源记录集。例如,如果你查询ecoflow.com,你将看到与该域名相关的D......
阅读量:
799 次
2023-04-02
Cassandra 备份 - 1 - 节点镜像恢复
Cassandra数据备份与恢复实践指南Cassandra作为一个分布式数据库,在大规模应用前,数据备份与恢复机制是确保数据安全的重要前提。本文将详细介绍Cassandra的镜像备份和增量备份机制,并提供实际操作案例。##备份与数据恢复###镜像备份Cassandra的镜像备份机制通过直接保存数据目录中的SSTable文件(即磁盘数据文件)来实现。镜像备份可以针对整个keyspace、单个keys......
阅读量:
798 次
2023-04-02
上一页
下一页