您当前的位置: 首页 > 

梁云亮

暂无认证

  • 1浏览

    0关注

    1211博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

谷粒影音:准备工作

梁云亮 发布时间:2020-02-22 22:46:46 ,浏览量:1

数据及结构 user
  • 数据
barelypolitical	151	5106
bonk65	89	144
camelcars	26	674
cubskickass34	13	126
boydism08	32	50
deckthree	6	753
fiveawesomegirls	182	3
ericielfenix	6	0
erricshade	3	49
blacktreemedia	520	3199
  • 结构
字段备注字段类型uploader上传者用户名stringvideos上传视频数intfriends朋友数量int video
  • 数据
LKh7zAJ4nwo	TheReceptionist	653	Entertainment	424	13021	4.34	1305	744	DjdA-5oKYFQ	NxTDlnOuybo	c-8VuICzXtU	DH56yrIO5nI	W1Uo5DQTtzc	E-3zXq_r4w0	1TCeoRPg5dE	yAr26YhuYNY	2ZgXx72XmoE	-7ClGo-YgZ0	vmdPOOd6cxI	KRHfMQqSHpk	pIMpORZthYw	1tUDzOp10pk	heqocRij5P0	_XIuvoH6rUg	LGVU5DsezE0	uO2kj6_D8B4	xiDqywcDQRM	uX81lMev6_o
7D0Mf4Kn4Xk	periurban	583	Music	201	6508	4.19	687	312	e2k0h6tPvGc	yuO6yjlvXe8	VqpnWBo-R4E	bdDskrr8jRY	y3IDp2n7B48	JngPWhfCb2M	KQaUvH5oiO4	NSzrwv5MCwc	NHB0a0xtLgU	DlRodd4s86s	EzKwOYLh-S0	eUIfRyrqwp8	AK8Wtfwe-1k	Eq4hGkIqBGw	N1lkLaLJHlc	-uIffs-DHkM	zpTorUhCd8Y	AvSK0qPw7EU	WX5KLMqY4bM	VKFqqoeMdjw
n1cEq1C8oqQ	Pipistrello	525	Comedy	125	1687	4.01	363	141	eprHhmurMHg	i30NkTJOrak	2XtLgZol5wI	3nH5Tccz8EQ	bSPVayE0NhE	sEqCkwPmQ_w	hut3VRL5XRE	bWlPSLUT-6U	dsBTo5LExr0	7PSvpPXppXA	yLup8wjbSIo	lbf4d1pZI9c	uRQYan_-CTQ	gnpvEvuiFoQ	F2_5KOnSsfI	DINu35v3eMU	9uSiyn7t_0o	YfShxdbAJS8	ssdfqTwZXY0	z5wDjq8o60c
OHkEzL4Unck	ichannel	638	Comedy	299	8043	4.4	518	371	eyUSTmEUQRg	FDIH1GNQXQE	Wtj31off8-I	mDjwzhc8dQ0	N4EYgXReBzM	NyC_0Z6zoUk	4DxyF39Myto	aiYwo5K0VWg	Ml2NaXU6gms	d0VYKbEbXQ8	LQUV_XGzHmA	8OmL_BJRLRw	qeCFW97-fOA	DVNwUKAuB3I	FMuWYExDEJk	rE7TuuXkk4E	bWicrzq2ApQ	jh6EpXnMb18	9JhU2jE02gg	nfBfC8bif1Y
-boOvAGNKUc	mrpitifulband	639	Music	287	7548	4.48	606	386	fmUwUURgsX0	bR27ACWomug	LlH7WcVptw8	saBmFpuwmKA	lhWk9SXUjWI	aVhSaa6aAOg	W-pvpxlOzZk	0vhVZQEzgcU	dDhCZVQf9po	zIkvMoezI1A	eV2SdBITv8k	cIO6nFDnNs4	Bd7nAtOEA3U	RZo5MisSTWo	geiABCqmQ84	MG1Xv99426g	7wj8-HkZ0XQ	JsdCu9T47iY	OUeN4DhCIFw	sf-Ym_pFP6U
hFFH8DaOHQg	istothehalfabee	592	Music	286	1759	4.45	539	244	hFFH8DaOHQg	ZIo-7BBDaPo	83SpuBijrBY	7TyH0ipgdtY	ZOdRUn0Q9eI	jqNs_S0n7P8	aWAzYehh0ag	vEtM1q6gm9Q	r89-fFx_tHU	h6Hw5030fKs	4qf7RSNCg40	LUXn57T8H50	ejPUALKGOn8	D6ABDEdhQLA	c8UYucsGdTU	El_Xbktje1k	6PAc6ZaK_WI	GUgJKzEmsYI	_sboDb75X2I	oDIIOV4VKlA
LzHjIj3fpR8	Xelanderthomas	686	Comedy	168	4545	4.58	273	167	udr9sLkoZ0s	3IU1GyX_zio	0E7Egr8Y1YI	qr8qZcvTLng	4WwVOWIqE80	Qeeq5OoLGJ0	YYDL1SqX-SY	vWGA5iYgAOU	8FeIj2HLN8k	bKlBTr88VTw	Y_59kWK5W3s	QlJSXVglZ3g	K3h_9O6OwW0	4ALe2z---e0	kdZk1Wk7kSw	hUa7f5XEzGE	aOihMldu_pE	PlPynB10vP0	W9DPlAZUH6Q	vta4RfQ2Z-I
SDNkMu8ZT68	w00dy911	630	People & Blogs	186	10181	3.49	494	257	rjnbgpPJUks
  • 结构
序号字段备注详细描述1video id视频唯一id11位字符串2uploader视频上传者上传视频的用户名String3age视频年龄视频在平台上的整数天4category视频类别上传视频指定的视频分类5length视频长度整形数字标识的视频长度6views观看次数视频被浏览的次数7rate视频评分满分5分8ratings流量视频的流量,整型数字9conments评论数一个视频的整数评论数10related ids相关视频id相关视频的id,最多20个 ETL

通过观察原始数据可以发现:

  • 视频也是可以有多个元素,多个相关视频又用“\t”进行分割
  • 视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符

为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频id也使用“&”进行分割。

第一步:创建Maven项目,添加如下所示的依赖:


    org.apache.hadoop
    hadoop-client
    3.1.2


    org.apache.hadoop
    hadoop-common
    3.1.2

第二步:创建ETL工具类,实现对每一行数据的具体清洗。

public class ETLUtil {
    public static String execute(String line) {
        // 0.切割数据
        String[] fields = line.split("\t");

        // 1.过滤脏数据(不符合要求的数据)
        if (fields.length             
关注
打赏
1665409997
查看更多评论
0.0483s