top of page

工作當中扮演的角色

       在實習過程當中,我們扮演角色是相同的,我負責Python爬蟲Dcard的程式碼,加上爬取370篇文章內容的部分以及185篇文章裡的留言內容。我們每個禮拜都有兩到三次開會,開會時間平均兩到三個小時,有時候工作量比較多一周會開四,五次會。工作分配為自己完成已分工的部分然後約時間進行線上開會一起討論分析留言的內容以及統計資料。爬蟲的過程中如果遇到問題也會互相討論找出解決的辦法。

        在暑假的時間,我們分工合作把資料做斷詞,統計出現次數,產生文字雲,再次找出關鍵詞之間的關係然後再輸入進NodeXL產生網絡圖。每一階段的工作,每個人的工作量都一樣,完成後再約時間一起整合討論,在過程中遇到任何問題都一起討論互相幫忙,這一年來每一天都很充實。

​研究工具

Python

        Python是一種廣泛使用的高階程式語言,由 Guido van Rossum創造。Python的設計哲學強調程式碼的可讀性和簡潔的語法(尤其是使用空格縮排劃分程式碼塊,而非使用大括號或者關鍵詞)。相比於C++或Java,Python讓開發者能夠用更少的代碼表達想法。不管是小型還是大型程式,該語言都試圖讓程式的結構清晰明瞭。Python 擁有動態型別系統和垃圾回收功能,能夠自動管理記憶體使用,並且支援多種編程範式,包括物件導向、命令式、函數式和程序式編程,經常被當作腳本語言用於處理系統管理任務和網路程式編寫,Python 也非常適合完成各種高階任務。

        我們都沒有學過Python程式語言所以在剛開始的時候遇到很多困難。在不斷的努力學習過程當中,我們開始了解怎麼使用Python來收集DCARD跟PTT的資料。本研究我們負責得部分以DCARD社群網站上面的NFT的文章為標的,先利用爬蟲程式,抓取原始頁面文章內容,經過Python的Pandas模組跟Json模組把解析成DataFrame格式,以方便操作及分析資料。

​文字探勘

       文字探勘(Text Mining)是一種跨領域的應用,結合資料探勘技術與自然語言處理,資訊檢索技術,使大量 的文字資訊能經由電腦分析歸納,主要的應用有自動分類,自動摘要,文件檢索,知識管理等。用以因應今日因網際網路興起,而造成的龐大的數據洋流。文字採礦之核心技術,大多來自於資料採礦技術,將藉助案例分析與文件資料之相互查詢與交叉比對,產生經驗與文件報告之交互參考對應。該技術整合了許多傳統資訊檢索技術,包括了關鍵字萃取,全文檢索,文件自動分類,自動摘要等等,以提供文字處理更強大的功能。

       在暑期的時間,我們使用一下的工具來把資料進一步分析:

1.斷詞: 將每則文章,內文,留言進行斷詞,找出關鍵詞。

2.文字次數統計: 我們使用Text Analyzer 以及 Wordart來統計關鍵詞出現的次數,將在兩個軟體的結果來比較,找出最佳的結果以方便在NodeXL分析資料。 

Word Art - Edit - WordArt.com

Text Analyzer (pulipulichen.github.io)

3.文字雲: 我們利用Text Analyzer和Wordart的另外功能來產生文字雲,將產出的結果來做比較再選出比較好的結果。

Word Cloud Generator (pulipulichen.github.io)

Word Art - Edit - WordArt.com

4.NodeXL: 是網絡分析和可視化的軟件,幫助我們能夠進行中心性、度數和聚類等社交網絡分析工作指標,以及查看關係數據並描述整體關係網絡結構。應用於推特數據分析時,通過數據挖掘展示了所有參與公開討論的用戶的總體網絡及其內部結構。它允許社交網絡分析(SNA)強調關係而不是孤立的個人或組織,允許相關方調查組織與公眾之間的雙向對話。SNA 還提供了靈活的測量系統和參數選擇來確定網絡中的影響節點,該軟件包含網絡可視化、社交網絡分析功能、訪問社交媒體網絡數據導入器、高級網絡指標和自動化。

​我的心得

        身為一個外籍生,我原本的打算就是可以在實習的期間有機會在校外實習,累積工作經驗有利於未來畢業後在台灣找工作。但是因為工作證的問題,我沒有機會上班。當時,校內實習面試時間已經結束了,我很緊張因為我以為沒辦法轉校內實習了。幸好,系上跟老師給我這個寶貴機會,讓我成為老師的專題生,讓我可以順利進行專業實習。老師人真好,對我們每一個人都很親切,包容,每次開會氣氛都很舒適,輕鬆。因為比較晚近來,我也沒有認識其他同學,老師很積極幫我找到組員,我非常感謝老師。一開始進入專題的迷茫都因為老師在讓我慢慢適應了,老師跟同學給我的感覺真的很好,選研究主題的時候大家給了我們很多建議。在實習過程當中,老師從來沒有給我們壓力,總是讓我們慢慢的學習,當我們每次報告進度完,並給我們很多有用建議,讓我們更有方向地研究。跟老師和同學們每個禮拜進行開會,我越來越習慣這個學習環境以及更加提高在他人面前報告的能力,也從其他同學的報告中學習到很多新的知識。

        目前我覺得最大的收穫就是克服了我知識不足的方面。在實習前,Python對我來說是陌生的東西,我沒有接觸過,更不用說用Python來收集網路的資料。我在網路上找了很多關於利用Python來爬蟲的程式資源,努力理解以及運用在Dcard上爬取我需要的東西。因為不熟悉這個程式語言,在學習過程當中,我遇到很多問題。每次遇到問題的時候總是要我花很多時間想辦法解決,這時候,組員也幫助我很多。再來是語言不同的障礙,因為有兩個同學的幫助,這個問題對我來說已經不是問題了,每次遇到不懂的詞彙,他們總是有耐心地向我解釋,或是當我要發表意見的時候他們沒有馬上懂,但也會用他們理解的方式向我確認我的意思是不是這樣,我感到非常心暖,非常感激他們對我這麼好。

        在研究過程中,我學習了很多東西,例如文字探勘的方面,這有利於不只現在的研究而還有未來的發產。我想再一次向老師跟兩位同學道謝,因為有你們,實習已經不再太困難了,感謝老師的陪伴和鼓勵,讓我更加有信心能夠如期如質地完成本次專案實習。趁著這個機會,我也想對學弟妹說一聲加油,不管你們選擇在校內還是校外實習,都要先準備好心態,我相信各位老師,各位主管都會盡力去幫助你們; 如果在過程當中遇到任何問題,請跟指導老師或是系辦說出你的問題,他們會給你方向,這樣比較有效地解決問題. I can do it, You can do it!

​給系上的建議

       我非常感謝系上提供給我這個珍貴的機會,讓我能夠運用我這幾年在學校學校學習到的知識以及學習新的知識。系上也提供給我們足夠的資源可以使用,遇到任何問題的時候也立刻得到系辦上姐姐們的回覆。我非常感謝淑芬姐,在我遇到問題的時候,給了很多鼓勵和建議,讓我有機會成為陳老師的實習生。

       對我來說,系上已經完成很好自己的角色,不管對於校外還是校內實習的學生。最佳的點就是系上已經幫我們媒合很多公司,讓我們有很多個選擇,機會在大公司實習累積經驗,讓我們不用花很多時間自己去找實習公司。不只這樣姐姐們還不斷關心我們的課程,實習,生活上有沒有遇到困以及提出決絕辦法,我覺得姐姐們都好棒。感謝你們!

       最後是我給系上的一個小建議,就是把Python程式語言從選修升級成必修。在學習過程當中我覺得Python很有用,加上現在AI發展的趨勢,我更加認為Python應該是我們要必備的技能之一。

Một xấp thẻ "Cảm ơn"
Phác thảo máy tính

Hello! Welcome to my website <3

bottom of page