数据及结构
user
- 数据
barelypolitical 151 5106
bonk65 89 144
camelcars 26 674
cubskickass34 13 126
boydism08 32 50
deckthree 6 753
fiveawesomegirls 182 3
ericielfenix 6 0
erricshade 3 49
blacktreemedia 520 3199
- 结构
- 数据
LKh7zAJ4nwo TheReceptionist 653 Entertainment 424 13021 4.34 1305 744 DjdA-5oKYFQ NxTDlnOuybo c-8VuICzXtU DH56yrIO5nI W1Uo5DQTtzc E-3zXq_r4w0 1TCeoRPg5dE yAr26YhuYNY 2ZgXx72XmoE -7ClGo-YgZ0 vmdPOOd6cxI KRHfMQqSHpk pIMpORZthYw 1tUDzOp10pk heqocRij5P0 _XIuvoH6rUg LGVU5DsezE0 uO2kj6_D8B4 xiDqywcDQRM uX81lMev6_o
7D0Mf4Kn4Xk periurban 583 Music 201 6508 4.19 687 312 e2k0h6tPvGc yuO6yjlvXe8 VqpnWBo-R4E bdDskrr8jRY y3IDp2n7B48 JngPWhfCb2M KQaUvH5oiO4 NSzrwv5MCwc NHB0a0xtLgU DlRodd4s86s EzKwOYLh-S0 eUIfRyrqwp8 AK8Wtfwe-1k Eq4hGkIqBGw N1lkLaLJHlc -uIffs-DHkM zpTorUhCd8Y AvSK0qPw7EU WX5KLMqY4bM VKFqqoeMdjw
n1cEq1C8oqQ Pipistrello 525 Comedy 125 1687 4.01 363 141 eprHhmurMHg i30NkTJOrak 2XtLgZol5wI 3nH5Tccz8EQ bSPVayE0NhE sEqCkwPmQ_w hut3VRL5XRE bWlPSLUT-6U dsBTo5LExr0 7PSvpPXppXA yLup8wjbSIo lbf4d1pZI9c uRQYan_-CTQ gnpvEvuiFoQ F2_5KOnSsfI DINu35v3eMU 9uSiyn7t_0o YfShxdbAJS8 ssdfqTwZXY0 z5wDjq8o60c
OHkEzL4Unck ichannel 638 Comedy 299 8043 4.4 518 371 eyUSTmEUQRg FDIH1GNQXQE Wtj31off8-I mDjwzhc8dQ0 N4EYgXReBzM NyC_0Z6zoUk 4DxyF39Myto aiYwo5K0VWg Ml2NaXU6gms d0VYKbEbXQ8 LQUV_XGzHmA 8OmL_BJRLRw qeCFW97-fOA DVNwUKAuB3I FMuWYExDEJk rE7TuuXkk4E bWicrzq2ApQ jh6EpXnMb18 9JhU2jE02gg nfBfC8bif1Y
-boOvAGNKUc mrpitifulband 639 Music 287 7548 4.48 606 386 fmUwUURgsX0 bR27ACWomug LlH7WcVptw8 saBmFpuwmKA lhWk9SXUjWI aVhSaa6aAOg W-pvpxlOzZk 0vhVZQEzgcU dDhCZVQf9po zIkvMoezI1A eV2SdBITv8k cIO6nFDnNs4 Bd7nAtOEA3U RZo5MisSTWo geiABCqmQ84 MG1Xv99426g 7wj8-HkZ0XQ JsdCu9T47iY OUeN4DhCIFw sf-Ym_pFP6U
hFFH8DaOHQg istothehalfabee 592 Music 286 1759 4.45 539 244 hFFH8DaOHQg ZIo-7BBDaPo 83SpuBijrBY 7TyH0ipgdtY ZOdRUn0Q9eI jqNs_S0n7P8 aWAzYehh0ag vEtM1q6gm9Q r89-fFx_tHU h6Hw5030fKs 4qf7RSNCg40 LUXn57T8H50 ejPUALKGOn8 D6ABDEdhQLA c8UYucsGdTU El_Xbktje1k 6PAc6ZaK_WI GUgJKzEmsYI _sboDb75X2I oDIIOV4VKlA
LzHjIj3fpR8 Xelanderthomas 686 Comedy 168 4545 4.58 273 167 udr9sLkoZ0s 3IU1GyX_zio 0E7Egr8Y1YI qr8qZcvTLng 4WwVOWIqE80 Qeeq5OoLGJ0 YYDL1SqX-SY vWGA5iYgAOU 8FeIj2HLN8k bKlBTr88VTw Y_59kWK5W3s QlJSXVglZ3g K3h_9O6OwW0 4ALe2z---e0 kdZk1Wk7kSw hUa7f5XEzGE aOihMldu_pE PlPynB10vP0 W9DPlAZUH6Q vta4RfQ2Z-I
SDNkMu8ZT68 w00dy911 630 People & Blogs 186 10181 3.49 494 257 rjnbgpPJUks
- 结构
通过观察原始数据可以发现:
- 视频也是可以有多个元素,多个相关视频又用“\t”进行分割
- 视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符
为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频id也使用“&”进行分割。
第一步:创建Maven项目,添加如下所示的依赖:
org.apache.hadoop
hadoop-client
3.1.2
org.apache.hadoop
hadoop-common
3.1.2
第二步:创建ETL工具类,实现对每一行数据的具体清洗。
public class ETLUtil {
public static String execute(String line) {
// 0.切割数据
String[] fields = line.split("\t");
// 1.过滤脏数据(不符合要求的数据)
if (fields.length
关注
打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?