基本資訊 隊伍名稱 : Rule-Based Method 最終成績 : 7th 0.8063660 7/118 precision : 0.82608 recall : 0.78756 Preprocessing 先針對主辦單位所提供的excel檔,創造出一個替換的dictionary 比如說 ,就把斜紋夜盜、黑蟲、行軍蟲…全部換成斜紋夜蛾,方面後續model使用 對每篇文章利用ckiptagger做斷詞 在斷詞的時候要使用 coerce_dictionary 這個參數,這個參數可以讓主辦單位提供的keywords,被強制斷出來,不然可能會發生 “黑蟲” 被斷成 [“黑” “蟲”] 把斷好詞的結果做keywords的替換 ex: 把所有 “黑蟲” 換成 “斜紋夜盜” 這樣 在這一步的時候要注意一些特別case,避免被重複替換到 針對每篇文章,取出該篇文章所有出現的keyword集合 比如說 1.txt這篇文章 keyword_set = [“黑點病”,“降雨”,“文旦柚”,“鋅錳乃浦”] Method 在這邊我們一開始的思路有幾種