白红宇的博客

10 故障排除

Spark故障排除指南：10个常见问题及解决方案1.避免OOM-outofmemory在Shuffle过程中，reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取，而是map端写一点数据，reduce端task就会拉取一小部分数据，然后立即进行后面的聚合、算子函数的使用等操作。reduce端task能够拉取多少数据，由reduce拉取数据的缓冲区buffer来决定，因为拉......

阅读量：798 次

1.CDC是什么CDC是ChangeDataCapture的缩写，意为数据变更捕获。其核心思想是实时监测数据库中的数据变动，包括插入、更新和删除等操作，将这些变更按时间顺序记录并写入消息中间件，供其他服务订阅和消费。在广义上，只要能够捕获数据变更的技术都可以称为CDC。然而，通常所说的CDC技术主要面向数据库的变更，属于一种数据捕获技术。CDC的应用场景广泛，主要包括以下几个方面：数据同步：用于备......

阅读量：798 次

ArrayList扩容源码剖析

ArrayList的内部机制解析1.ArrayList的基本结构ArrayList在Java中属于动态数组结构，采用数组来存储元素。其内部维护了一个Object类型的数组elementData，用于存储各种类型的对象。数组的具体实现通过transient修饰符标记，表示在序列化过程中不会被写入二进制流。在创建ArrayList对象时，如果使用无参数构造器，elementData的初始容量为0，即一......

阅读量：799 次

HBase是BigTable的开源Java版本，建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写NoSql的数据库系统。它介于NoSql和RDBMS之间，主要通过主键(rowkey)和主键的range来检索数据，仅支持单行事务（可通过hive支持来实现多表join等复杂操作）。HBase主要用来存储结构化和半结构化的松散数据，支持的数据类型包括byte[]等。HBase表特点大型......

阅读量：798 次

1.Flink简介Flink是Apache基金会旗下的一个开源项目，专注于分布式数据处理和实时计算。作为第四代大数据计算引擎之一，Flink在大数据处理领域引入了许多创新的概念，涵盖了批处理、实时计算和迭代计算等多种场景。与其他分布式计算框架如Hadoop、Spark等相比，Flink的优势在于其强大的流处理能力和灵活的统一架构。无论是处理实时数据流还是批量数据，Flink都能以高效的性能呈现出色......

阅读量：798 次

【打dunp和堆栈的脚本】

【打dunp和堆栈的脚本优化】最近在生产环境中需要编写一个打dunp和堆栈的脚本，便于后期操作。以下是我针对脚本进行的优化以及问题解决方案。【背景】目前我们使用了容器的环境，在宿主机上运行脚本。脚本需要完成以下操作：获取容器中的JDK路径获取Tomcat进程的PID根据操作类型（stack或dump）执行相应的命令记录操作日志并处理异常情况【脚本优化】经过反复优化，我对脚本进行了以下改进：#!/b......

阅读量：799 次

(学习赛)O2O优惠券使用预测

代码解释与优化项目背景本项目旨在通过分析用户行为数据，预测用户是否会使用优惠券。基于现有的数据集和特征工程，我们采用XGBoost模型进行建模和预测。数据预处理与特征工程1.数据清洗缺失值处理：对Distance字段进行填充，未知值设为-1。转换类型：将MJ、JIAN、MI_COST等字段从字符串转换为数值类型。2.时间特征将DATE_RECEIVED转换为日期类型。计算用户与最近一次领券日期的时......

阅读量：798 次

(24/10/05)104. 二叉树的最大深度_104. 二叉树的最大深度

给定二叉树的根节点，计算其最大深度。最大深度是指从根节点到最远叶子节点的路径上的节点数。示例输入：root=[3,9,20,null,null,15,7]输出：3输入：root=[1,null,2]输出：2方法讨论计算二叉树最大深度的方法有两种常见的选择：深度优先遍历（DFS）和广度优先遍历（BFS）。深度优先遍历（DFS）这种方法从根节点开始，尽可能深地遍历每一条路径。当到达叶子节点时，记录当前......

阅读量：798 次

flink 读取外部.properties的配置文件

FlinkJOB环境配置优化：使用ParameterTool读取外部配置文件在Flink项目中，将环境配置信息从代码中抽离放入配置文件是常见的做法。这可以让配置管理更加灵活，便于维护和扩展。以下将详细介绍如何使用Flink自带的ParameterTool读取外部配置文件，并分享遇到的问题及解决方案。使用ParameterTool读取外部配置文件项目背景随着项目复杂度的增加，环境配置信息逐渐增多。传......

阅读量：798 次

sqoop增量导入hive_sqoop定时增量导入mysql数据到hdfs(hive)

MySQL数据迁移与处理方案背景与需求我们面临一个庞大的数据处理任务，涉及两张大型MySQL数据库，分别存储量级达1亿和4.5亿条记录。由于数据库规模过大，直接从MySQL读取数据会导致性能瓶颈严重。为此，我们决定通过Sqoop实现定时增量导入Hive的方式，将数据迁移至Hive存储，进而通过SparkSQL进行处理与分析。Sqoop定时增量导入方案1.SqoopJob配置与执行创建并执行Sqoo......

阅读量：798 次

Cassandra集群管理-节点异常重启

Cassandra集群管理-节点异常重启注意本文档仅为体系文档的一部分，完整文档内容请参考：测试准备+下线正常节点、节点异常重启、添加新节点、删除异常节点。场景当节点发生异常重启时，集群会触发一系列反应。以下是具体情况：cassandra.log基本没有输出检查日志：tailf/var/log/cassandra/cassandra.log输出较少，无法获取详细信息。system.log显示明显日......

阅读量：798 次

Leetcode 166. 分数到小数

将分数转换为小数的方法与实现将分数转换为小数的任务看似简单，但要考虑到所有可能的边界情况，确保结果的准确性和格式的正确性。以下是实现该功能的详细步骤和方法。问题分析给定一个分数的分子和分母，目标是将其转换为小数形式。需要注意以下几点：结果为整数的情况：当分子能够被分母整除时，结果仅包含整数部分，无小数部分。结果为循环小数的情况：当分子不能被分母整除且分母含有2和5以外的质因数时，结果会出现循环小数......

阅读量：798 次

kafka 磁盘迁移

磁盘迁移指南背景介绍：在Kafka搭建过程中，由于磁盘配置过大且成本高昂，需要对现有磁盘进行迁移，以转移到小容量磁盘。原Kafka配置：log.dirs=/data1/kafka/var/kafka-logs/1,/data2/kafka/var/kafka-logs/1（Kafka支持多磁盘配置以提高吞吐量）log.retention.hours=168修改后配置：log.dirs=/data3......

阅读量：798 次

hive中的lateral view 与 explode函数的使用

在关系型数据库中，explode与lateralview的使用本身就是在操作不满足第一范式的数据，这种情况在传统的业务系统或数据仓库中通常被避免。然而随着大数据技术的普及，许多类似PV、UV的数据在业务系统中被存储在非关系型数据库中，使用JSON格式的概率越来越大。这种数据直接导入Hive基础的数仓系统时，通常需要经过ETL过程解析，explode与lateralview在这种场景中就显得尤为重要......

阅读量：798 次

Flink1.11中的CDC Connectors操作实践

ApacheFlink1.11CDCConnector使用指南1.引言ApacheFlink1.11引入了基于CDC（ChangeDataCapture）的连接器，这使得捕获数据库中的变更数据变得更加简便。通过Flink的CDC连接器，开发者可以高效地处理增量数据的实时分析与物化。以下将详细介绍Flink1.11的CDC连接器，包括其特点、使用场景以及操作实践。2.CDC简介CDC（ChangeD......

阅读量：798 次

CDH部署HDFS高可用 hdfs crc

CDH部署HDFS高可用配置指南一、HDFS权限检查配置关闭HDFS中的权限检查配置dfs.permissions，以便提升集群性能。二、Hadoop支持LZO压缩1.添加LZOParcel存储库点击主机，进入Parcel界面。点击“配置”，找到LZOParcel存储库URL。点击最后一栏的加号，输入新的存储库URL并保存更改。下载LZOParcel，完成后选择分配并激活。2.配置LZO压缩编码解......

阅读量：798 次

python爬虫：scrapy框架xpath和css选择器语法

Xpath和CSS选择器入门教程Xpath基础语法Xpath是一种强大的用于XML和HTML文档检索的语言，它允许开发者通过路径表达式准确地定位到指定节点。以下是Xpath的基本语法和常用表达式。常用路径表达式表达式描述示例nodename选取nodename节点的所有子节点//div/选取根节点/div//选取所有节点，不考虑位置//div.选取当前节点./div..选取当前节点的父节点..@选......

阅读量：798 次

impala&hive大数据平台数据血缘与数据地图(二)-实时采集impala血缘日志推送到kafka

Impala血缘日志实时采集与Kafka推送实现一、Impala血缘日志的采集与处理Impala与Hive的血缘日志是数据血缘关系管理的重要基石。在实际应用中，如何高效采集并处理这些日志数据，直接关系到后续数据管控和分析的可行性。本文将详细介绍如何利用Filebeat进行Impala血缘日志的实时采集和推送到Kafka。二、Filebeat的优势与配置选择Filebeat作为Impala血缘日志采......

阅读量：798 次

aws 接口请求相关

列出Route53上的内容为了查看Route53上的解析记录，你可以使用命令行工具。以下是一些详细的步骤说明：首先，登录你的AWS账户。在命令行或终端中运行以下命令：awsroute53list-resource-record-sets--hosted-zone-idecoflow.com此命令会返回与指定主机名相关的所有资源记录集。例如，如果你查询ecoflow.com，你将看到与该域名相关的D......

阅读量：799 次

Cassandra 备份 - 1 - 节点镜像恢复

Cassandra数据备份与恢复实践指南Cassandra作为一个分布式数据库，在大规模应用前，数据备份与恢复机制是确保数据安全的重要前提。本文将详细介绍Cassandra的镜像备份和增量备份机制，并提供实际操作案例。##备份与数据恢复###镜像备份Cassandra的镜像备份机制通过直接保存数据目录中的SSTable文件（即磁盘数据文件）来实现。镜像备份可以针对整个keyspace、单个keys......

阅读量：798 次