Avatar
hyc
Unknown NTUST / NTHU
Live the life you love

Recent Posts

紀錄成為軟體工程師第一年的心得
2025-02-05
1 min read
基本資訊 隊伍名稱 : Rule-Based Method 最終成績 : 7th 0.8063660 7/118 precision : 0.82608 recall : 0.78756 Preprocessing 先針對主辦單位所提供的excel檔,創造出一個替換的dictionary 比如說 ,就把斜紋夜盜、黑蟲、行軍蟲…全部換成斜紋夜蛾,方面後續model使用 對每篇文章利用ckiptagger做斷詞 在斷詞的時候要使用 coerce_dictionary 這個參數,這個參數可以讓主辦單位提供的keywords,被強制斷出來,不然可能會發生 “黑蟲” 被斷成 [“黑” “蟲”] 把斷好詞的結果做keywords的替換 ex: 把所有 “黑蟲” 換成 “斜紋夜盜” 這樣 在這一步的時候要注意一些特別case,避免被重複替換到 針對每篇文章,取出該篇文章所有出現的keyword集合 比如說 1.txt這篇文章 keyword_set = [“黑點病”,“降雨”,“文旦柚”,“鋅錳乃浦”] Method 在這邊我們一開始的思路有幾種
2021-12-17
15 min read
macBERT - Revisiting Pre-Trained Models for Chinese Natural Language Processing
2021-10-23
1 min read
RocketQA An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
2021-08-20
3 min read
Abstract + Introduction First-stage ranker 的新架構 DenseTrans - Transformer + DenseNet 的融合物 主要的任務是question retrieval,找出與使用者輸入相似的問題,類似FAQ Term-based的方式會有 無法滿足 Semantic Requirement 的缺點
2021-01-17
2 min read