中文字幕巨乳人妻在线-国产久久久自拍视频在线观看-中文字幕久精品免费视频-91桃色国产在线观看免费

首頁(yè) 公文范文 網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)研究

網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)研究

發(fā)布時(shí)間:2022-11-17 09:24:30

序言:寫(xiě)作是分享個(gè)人見(jiàn)解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了1篇的網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)研究樣本,期待這些樣本能夠?yàn)槟峁┴S富的參考和啟發(fā),請(qǐng)盡情閱讀。

網(wǎng)站數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)研究

0引言

伴隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,中國(guó)正迎來(lái)從IT時(shí)代到DT時(shí)代的變革?!?020中國(guó)網(wǎng)絡(luò)文學(xué)藍(lán)皮書(shū)》顯示,2020年中國(guó)網(wǎng)絡(luò)文學(xué)用戶規(guī)模達(dá)4.67億人,全網(wǎng)作品累計(jì)約2800萬(wàn)部,全國(guó)文學(xué)網(wǎng)站日均更新字?jǐn)?shù)超1.5億,全年累計(jì)新增字?jǐn)?shù)超過(guò)500億。由此可見(jiàn),網(wǎng)絡(luò)小說(shuō)平臺(tái)在運(yùn)營(yíng)過(guò)程中會(huì)產(chǎn)生大量讀者、作者、類(lèi)別、熱度、評(píng)分等信息。面對(duì)日益增加的數(shù)據(jù)壓力,網(wǎng)絡(luò)小說(shuō)的平臺(tái)流量成本不斷提升,平臺(tái)在老用戶維持、新用戶吸引、網(wǎng)站點(diǎn)擊率等方面逐漸暴露出諸多問(wèn)題[1]。由于新媒介的不斷崛起,讀者對(duì)網(wǎng)絡(luò)小說(shuō)平臺(tái)的要求也越來(lái)越高,用戶閱讀時(shí)長(zhǎng)呈現(xiàn)離散化分布,導(dǎo)致網(wǎng)絡(luò)小說(shuō)平臺(tái)行業(yè)獨(dú)占率下滑,用戶爭(zhēng)奪日趨白熱化。因此,對(duì)小說(shuō)平臺(tái)產(chǎn)生的海量數(shù)據(jù)進(jìn)行整合分析勢(shì)在必行。一方面,有利于指導(dǎo)網(wǎng)絡(luò)小說(shuō)平臺(tái)改編影視,降低運(yùn)營(yíng)成本,提高收益[2];另一方面,便于讀者和新手更加快捷有效地發(fā)現(xiàn)感興趣的小說(shuō)題材。本文以“我愛(ài)小說(shuō)網(wǎng)”為研究案例,通過(guò)開(kāi)發(fā)一個(gè)海量數(shù)據(jù)分析系統(tǒng),旨在提高用戶體驗(yàn),推動(dòng)小說(shuō)網(wǎng)絡(luò)平臺(tái)發(fā)展。平臺(tái)的用戶主要包括小說(shuō)閱讀用戶、小說(shuō)網(wǎng)站管理者、新入行的網(wǎng)絡(luò)小說(shuō)作者等。通過(guò)爬取小說(shuō)網(wǎng)站信息,并對(duì)數(shù)據(jù)進(jìn)行分析和處理,有助于用戶找到當(dāng)前比較流行的網(wǎng)絡(luò)小說(shuō)類(lèi)型、各種類(lèi)型小說(shuō)所適合的篇幅等。

1系統(tǒng)概述

系統(tǒng)設(shè)計(jì)的目的在于使用戶便捷高效地采集到需要的數(shù)據(jù),并將數(shù)據(jù)清洗之后進(jìn)行分析和可視化呈現(xiàn)[3]。因此,本文將系統(tǒng)的功能需求分為數(shù)據(jù)采集部分、數(shù)據(jù)存儲(chǔ)部分、系統(tǒng)登錄部分、后臺(tái)管理部分、數(shù)據(jù)可視化交互部分。以下每個(gè)功能模塊的需求分析。

⑴數(shù)據(jù)采集部分

數(shù)據(jù)采集功能只有管理員才擁有權(quán)限操作,普通用戶無(wú)法操作數(shù)據(jù)采集。因此,數(shù)據(jù)采集模塊是在服務(wù)器端上進(jìn)行操作的。啟動(dòng)后,系統(tǒng)會(huì)生成相應(yīng)的任務(wù)采集數(shù)據(jù)表,然后啟動(dòng)引擎開(kāi)始爬取網(wǎng)頁(yè)數(shù)據(jù)并存儲(chǔ)到對(duì)應(yīng)MySQL數(shù)據(jù)庫(kù)表中。當(dāng)任務(wù)沒(méi)有可爬取的網(wǎng)址時(shí),任務(wù)結(jié)束并返回任務(wù)結(jié)束信號(hào)[4]。

⑵數(shù)據(jù)存儲(chǔ)部分

數(shù)據(jù)存儲(chǔ)部分主要是用來(lái)存儲(chǔ)爬取小說(shuō)的文本數(shù)據(jù),包括ID、小說(shuō)類(lèi)型、小說(shuō)名稱(chēng)、更新的小說(shuō)章節(jié)、小說(shuō)作者、小說(shuō)字?jǐn)?shù)、小說(shuō)狀態(tài)、發(fā)布時(shí)間、點(diǎn)擊量和推薦票數(shù)量等。除此之外,還包括系統(tǒng)登錄賬號(hào)以及密碼和用戶的權(quán)限管理。

⑶系統(tǒng)登錄部分

當(dāng)用戶對(duì)相關(guān)的平臺(tái)接口進(jìn)行訪問(wèn)時(shí),首先進(jìn)入系統(tǒng)的登錄界面。在該界面中,包括有兩個(gè)功能模塊:注冊(cè)與登錄模塊[5]。如果當(dāng)前用戶屬于未注冊(cè)用戶,需要用戶先進(jìn)行注冊(cè),得到系統(tǒng)管理員的授權(quán)之后才能進(jìn)入系統(tǒng)內(nèi)部。若當(dāng)前用戶屬于已經(jīng)注冊(cè)的老用戶,可以直接通過(guò)填寫(xiě)用戶名和密碼完成登錄。

⑷后臺(tái)管理部分

前端界面的數(shù)據(jù)查詢部分、小說(shuō)數(shù)據(jù)詳情展示部分和數(shù)據(jù)分析可視化部分都需要先從后臺(tái)管理獲取對(duì)應(yīng)的圖表數(shù)據(jù),而后臺(tái)數(shù)據(jù)管理則是從MySQL數(shù)據(jù)庫(kù)獲取全部數(shù)據(jù),管理員用戶可以對(duì)數(shù)據(jù)清洗沒(méi)清洗掉的數(shù)據(jù)進(jìn)行管理操作,以求前端展示的數(shù)據(jù)都是有效數(shù)據(jù),并可以根據(jù)需求調(diào)整排序方式,以及前端頁(yè)面數(shù)據(jù)的展示數(shù)量。

⑸數(shù)據(jù)可視化交互部分

數(shù)據(jù)可視化交互部分只針對(duì)普通用戶,用戶可以自由選擇想要查看的圖表信息。且用戶可以下載所呈現(xiàn)出來(lái)的圖表信息并保存至本地,方便隨時(shí)查閱。以上各部分模塊獨(dú)立開(kāi)發(fā)、低耦合、適合于團(tuán)隊(duì)敏捷開(kāi)發(fā),更加方便后期系統(tǒng)的升級(jí)和運(yùn)維。

2系統(tǒng)架構(gòu)設(shè)計(jì)

完成系統(tǒng)分析后,需要設(shè)計(jì)系統(tǒng)的總體架構(gòu),主要分為表示層、業(yè)務(wù)層和數(shù)據(jù)層。分別使用DjangoWeb框架和DjangoAdmin框架來(lái)實(shí)現(xiàn)。在系統(tǒng)功能需求分析的基礎(chǔ)上,結(jié)合數(shù)據(jù)采集系統(tǒng)的架構(gòu)設(shè)計(jì),將系統(tǒng)分為五個(gè)部分,主要有數(shù)據(jù)采集部分、數(shù)據(jù)存儲(chǔ)部分、系統(tǒng)登錄部分、后臺(tái)管理部分、數(shù)據(jù)可視化交互部分。系統(tǒng)結(jié)構(gòu)圖如下所示:下面簡(jiǎn)要介紹系統(tǒng)的體系結(jié)構(gòu),總體框架是PythonWeb的Browser/Server架構(gòu),主要包含數(shù)據(jù)采集、數(shù)據(jù)分析與展示。其中數(shù)據(jù)采集部分采用Python的Scrapy框架,后臺(tái)存儲(chǔ)數(shù)據(jù)采用的是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL,后臺(tái)管理采用Djangoadmin,前端采用DjangoWeb框架,主要用到CSS、JS、HTML等語(yǔ)言。體系結(jié)構(gòu)圖示例如圖1所示。業(yè)務(wù)邏輯層主要是由Django框架和Scrapy框架這兩部分組成。DjangoWeb負(fù)責(zé)實(shí)現(xiàn)業(yè)務(wù)邏輯,從后臺(tái)獲取數(shù)據(jù)、通過(guò)統(tǒng)計(jì)分析之后,再到前端展示。而后臺(tái)的數(shù)據(jù)則是從數(shù)據(jù)庫(kù)獲取的,后臺(tái)的數(shù)據(jù)管理請(qǐng)求可以修改后臺(tái)的數(shù)據(jù)并保存下來(lái),實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的增刪改查(CRUD)。數(shù)據(jù)采集Scrapy框架包括以下這些模塊功能:URL獲取功能、數(shù)據(jù)響應(yīng)內(nèi)容功能、數(shù)據(jù)提取功能、數(shù)據(jù)清洗功能和數(shù)據(jù)持久化功能等[6]。數(shù)據(jù)層主要使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL作為數(shù)據(jù)持久化層。

3系統(tǒng)功能模塊設(shè)計(jì)

⑴數(shù)據(jù)采集

數(shù)據(jù)采集模塊主要包含URL獲取功能、數(shù)據(jù)響應(yīng)內(nèi)容功能、數(shù)據(jù)提取功能、數(shù)據(jù)清洗功能和數(shù)據(jù)持久化功能等,數(shù)據(jù)采集的功能模塊圖如圖2所示。

⑵數(shù)據(jù)分析與展示

數(shù)據(jù)分析與展示模塊主要有用戶管理、數(shù)據(jù)分析與展示、數(shù)據(jù)維護(hù)等功能,其中用戶管理模塊有用戶注冊(cè)和用戶登錄,數(shù)據(jù)分析與展示模塊包括:小說(shuō)類(lèi)別狀態(tài)圖、每年小說(shuō)類(lèi)別數(shù)量動(dòng)態(tài)占比圖、各類(lèi)小說(shuō)平均字?jǐn)?shù)圖、每年小說(shuō)占比圖、詞云圖和小說(shuō)狀態(tài)圖等,數(shù)據(jù)維護(hù)則是通過(guò)數(shù)據(jù)查詢查找到需要維護(hù)的數(shù)據(jù)進(jìn)行維護(hù)操作[7],數(shù)據(jù)分析與展示模塊功能設(shè)計(jì)圖如圖3所示。

4系統(tǒng)實(shí)現(xiàn)

整體的系統(tǒng)實(shí)現(xiàn)分為四個(gè)模塊,分別為數(shù)據(jù)采集模塊、數(shù)據(jù)清洗模塊、系統(tǒng)后臺(tái)管理模塊以及小說(shuō)數(shù)據(jù)管理模塊。

⑴數(shù)據(jù)采集模塊

Scrapy框架接受到數(shù)據(jù)采集的任務(wù)之后,負(fù)責(zé)對(duì)小說(shuō)網(wǎng)站進(jìn)行數(shù)據(jù)采集。經(jīng)過(guò)頁(yè)面的請(qǐng)求到URLconf,再到相對(duì)應(yīng)View函數(shù),View模塊負(fù)責(zé)整個(gè)采集任務(wù)的配置信息,并發(fā)布啟動(dòng)請(qǐng)求。

⑵數(shù)據(jù)清洗模塊

在爬取的過(guò)程中,無(wú)法保證每個(gè)字段的數(shù)據(jù)信息格式是正常的,但是我們每一列數(shù)據(jù)后續(xù)所需要使用的信息必須是一致的,所以在進(jìn)行后續(xù)的可視化操作或者模型分析時(shí),需要確保當(dāng)前的每一列的數(shù)據(jù)維度是正確的。對(duì)于系統(tǒng)爬取到的數(shù)據(jù),并不能直接滿足系統(tǒng)所要分析的內(nèi)容,所以需要通過(guò)對(duì)數(shù)據(jù)進(jìn)行清洗之后,才能將數(shù)據(jù)完整的與模型進(jìn)行適配。

⑶系統(tǒng)后臺(tái)管理模塊

后臺(tái)管理是針對(duì)管理員用戶設(shè)計(jì),經(jīng)過(guò)數(shù)據(jù)采集模塊爬取數(shù)據(jù),清洗數(shù)據(jù)和持久化存儲(chǔ)數(shù)據(jù)之后。采集到的數(shù)據(jù)依舊存在一些垃圾數(shù)據(jù)問(wèn)題,用DjangoAdmin框架設(shè)計(jì)實(shí)現(xiàn)后臺(tái)管理模塊,可以在后臺(tái)實(shí)現(xiàn)對(duì)小說(shuō)數(shù)據(jù)的管理和維護(hù)操作,通過(guò)對(duì)小說(shuō)詳情數(shù)據(jù)表各個(gè)表頭的正序和倒序排列來(lái)實(shí)現(xiàn)對(duì)小說(shuō)垃圾數(shù)據(jù)的快速查找,并且可以對(duì)系統(tǒng)用戶進(jìn)行認(rèn)證和授權(quán)管理操作,包括對(duì)普通用戶授權(quán)、資料管理和管理員用戶的資料管理等。

⑷小說(shuō)數(shù)據(jù)管理模塊

管理員可以在后臺(tái)對(duì)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中的小說(shuō)數(shù)據(jù)直接進(jìn)行管理操作,主要任務(wù)是去除一些數(shù)據(jù)清洗時(shí)沒(méi)有清洗掉的垃圾數(shù)據(jù)。為了方便且快速查找,小說(shuō)詳情表每一個(gè)表頭都能夠?qū)崿F(xiàn)正序和倒序排列。在數(shù)據(jù)管理模塊,對(duì)于清洗后的數(shù)據(jù)會(huì)做一些可視化呈現(xiàn),其中部分?jǐn)?shù)據(jù)分析界如圖4所示。圖4采用柱狀圖的形式呈現(xiàn),所有的小說(shuō)都可以劃分為完結(jié)跟連載兩種了類(lèi)別,能明顯看到完結(jié)數(shù)量最高是“玄幻奇幻”,連載數(shù)量最高為“都市生活”。

5結(jié)束語(yǔ)

網(wǎng)絡(luò)小說(shuō)在互聯(lián)網(wǎng)時(shí)代呈現(xiàn)出海量數(shù)據(jù)且內(nèi)容繁雜,想獲取準(zhǔn)確高價(jià)值的數(shù)據(jù)并不容易,由此對(duì)網(wǎng)絡(luò)數(shù)據(jù)采集與分析提出更高的要求。網(wǎng)絡(luò)爬蟲(chóng)技術(shù)可以高效獲取并整合這些海量的數(shù)據(jù),為用戶提供相關(guān)高質(zhì)量的數(shù)據(jù)信息[8]。本文設(shè)計(jì)開(kāi)發(fā)的小說(shuō)網(wǎng)數(shù)據(jù)爬取分析系統(tǒng),通過(guò)Scrapy爬蟲(chóng)框架采集數(shù)據(jù),利用Django框架管理后臺(tái)并進(jìn)行數(shù)據(jù)分析與展示,使得用戶可以直觀的獲取到自己想要的信息。測(cè)試表明,該系統(tǒng)具有高效獲取、分析和處理網(wǎng)絡(luò)小說(shuō)平臺(tái)數(shù)據(jù)的功能,具有較高的實(shí)用價(jià)值。

作者:楊孟姣 杜棋東 單位:湖南省石門(mén)縣第一中學(xué) 廣州鐵路職業(yè)技術(shù)學(xué)院

欧美老熟妇精品一区二区| 97视频在线视频免费| 91九色国产老熟女乱子| 无人区乱码一区二区三区| 日本丰满熟女毛茸茸的黑逼| 精品人妻一区二区三区免费视频| 超碰香蕉在线在线观看| 亚洲高清中文字幕专区| 亚洲黄色一区大陆av剧情| 国产黄色免费精品网站| 做性视频大全在线观看| 国产成人在线观看av| 亚洲男人天堂在线播放| 一欧美一区二区三区| 亚洲午夜精品一区二区久久| 青青草日韩欧美在线观看| 不卡视频一区二区日韩| 少妇高潮喷水下面的水| 精品亚洲一区二区三区四| 91日本视频在线播放| 久久精品亚洲夜色国产av| 91薄丝激情在线播放| 高清区一区二区在线播放| 国内午夜福利精品视频| 午夜福利影片免费观看| av色剧情在线免费观看| 欧美三级影院网上在线| 人人妻人人澡人人爽人人精品| 人妖系列中文字幕欧美系列| 18岁未成年禁止观看视频| 日韩在线一区二区视频观看| 亚洲av第一区国产精品| 日本在线看片一区二区| 国产精品无遮挡猛进猛出| 91亚洲精品久久久蜜桃网站| 色男人天堂网在线视频| 亚洲欧美国产日韩另类| 国产精品久久123区| 国产一级黄色录像大片| 日本一级特黄大片做受在线观看| 日韩精品毛片在线看|