自然語言處理(NLP):在機器語言和人類語言之間溝通的橋樑,電腦將自然語言表達成符號與關係,再根據目的進行處理。
1. 語料預處理:中文有4步驟,英文有6步驟
2. 特徵工程:特徵提取、特徵選擇
3. 建模/測試
1. 語料預處理
2. 特徵工程:詞嵌入(word embedding)
3. 建模/測試
*發生時機:NLP的各步驟都有可能
1. 一字多義 ex.我家門前有條水溝很難過
2. 斷詞歧義 ex.數大便是美
3. 句法歧義
4. 代名詞解析 ex.我們把香蕉給猴子,因為牠們餓了 or 我們把香蕉給猴子,因為它們熟透了
非監督語言模型
雙向詞向量
預訓練模型
bidirectional encoder representations from transformers
1. Diversity(多樣性)
2. Ambiguity(歧義)
3. Robustness(強健)
4. Knowledge dependence(知識倚賴)
5. Context(上下文)
1. Context Determination(確定內容)
2. Text Structuring(文字結構)
3. Sentence Aggregation(句子聚合)
4. Lexicalizatiion(符合語法)
5. Referring Expression Generation(參考表達生成)
6. Linguistic Realization(語言實現)
1. 語言是沒有制式規律的,或者說規律是錯綜複雜的。
2. 語言是可以自由組合的,可以創造複雜的語言表達。
3. 語言的使用要基於環境和上下文。
4. 缺乏知識:語言需要領域知識,有一定程度依賴知識。
5. 缺乏資料:對於特定領域/目的的訓練資料集與評估。
這次資訊講座的題目是在講關於自然語言處理的議題,經由莊秀敏教授精闢的講解後,我學習到非常多東西,其中我覺得比較難的是切詞的部分,因為就像是我們最熟的中文,它的切詞就非常複雜,可能就會有一到五、六個字,而且有些專有名詞,字的長度還會更長,如果沒有一些專業機構做的大數據的話,將會花費許多的時間在處理這個部分。
這禮拜講座講了NLP的歷史、訓練過程還有一些現在這項技術所面臨的挑戰。再這堂講座之前,我對NLP的認識甚少,就只是大概知道他是在處理關於語言方面的AI,也知道NLP現在還有缺陷,但不清楚其中的奧妙。然而,透過講師完整的講解後了解了一些流程,主要是讓我清楚地了解為甚麼現在這項技術的缺陷到現在都沒有人處理掉。也透過NLP我們也可以知道機器現階段是不可能超過人類的,我們可以在各種語言間自由的切換,然而機器要學好一種語言都是問題。
這週的資訊講座是在講有關NLP的東西,在此之前我對其的了解甚少,但經過此次莊秀敏教授的分享後,不管從NLP的歷史,到他的優缺點與其目前面臨什麼問題,都有了更深入的了解,更讓我明白這塊領域是多麼的深奧,每次的講座系上都邀請了各個領域的人才來與我們分享,我認為這對我們的幫助很大,給予大家未來不同的方向,不管是要繼續升學或者就業,都能從中找出自己有興趣的領域更加深入探討,很開心系上有這麼優質的課,每週都能帶給我們滿滿的收穫。
這週莊秀敏助理教授講授了有關NLP(natural language processing)自然語言處理的內容,讓我耳目一新,身為資工系的我們,想必大家都很熟悉,高階語言到機器語言的過程,也就是programmer 與機器間的溝通,一開始我還誤會了莊秀敏教授是在講這種類型的compiler 我還想說這種東西有什麼好講的,後來我才意會到,原來是一般的自然語言,轉換成機器語言的過程,如果成功的話,竟然能讓一般不會程式語言的人,也可以進行簡單的coding。 而講座的實際內容又讓我對這個課程更加的有興趣,莊秀敏助理教授竟然要使用中文當作自然語言的辨識,眾所皆知,中文是數一數二難學的語言,用來當偵測的來源更是困難重重,因為中文有許多同音不同意的字詞,很容易讓電腦發生誤解,造成程式的錯誤或是理解偏差。 若是有機會修這堂課,很期待自己著手解決這些問題,想必一定會讓自己的程式實力更上一層樓,也會是一個十分有趣的體驗
本週的講座,莊秀敏教授介紹了NLP的定義、歷史、運作模式、模型、以及現今遇到的挑戰。因為專題剛好有用到自然語言處理領域,這次的講座對我來說相對熟悉不少,不過在專題實作的過程中,我們很容易忽略技術的歷史以及相關的基礎理論知識,更多的是著墨在實作的部分,而透過這次的資訊工業講座,我對NLP的背景知識又有更深一層的了解,除了能將部分知識運用在專題上,也清楚的體會到NLP在目前所遇到的困難,還有我們可以嘗試突破的方向。很感謝莊秀敏教授為我們帶來這麼豐富的內容,實在是受益良多。
這週的講座是關於自然語言處理,雖然時常聽到這個名字,但都沒有好好的去了解,講者提到每種語言都有各自不同的挑戰,中文不同於英文等語言能夠透過簡單的切割去將各個單詞獨立出來,且還要面對一字多義、斷詞歧異等等挑戰,才能正確地讓機器理解中文,另我印象深刻,同時也分享了許多他們在這項技術上的成果,讓我收益良多。