資料科學家-非營利研究機構

講者簡介: Allen 在大學, 碩士與博士班唸的都是統計學，OSU博士班畢業後就進入Battelle工作，目前為 Battelle 的 Lead Data Scientist，自16年加入Battelle開始，參與過各式各樣的資料分析研究計畫。從使用無母數分析方法幫助EPA決定化學物質的安全劑量，使用ML(機器學習)模型來偵測有害基因序列，到利用NLP(自然語言處理)來建立大型系統文獻回顧軟體，以及創建新的text summarization algorithm(自動摘要擷取程式)。

摘要： 博士生找工作時，學術界還是業界時常是一個選擇的難題，Allen所任職的Battelle是個非營利研究機構，是個介於學術界與業界之間的工作機會。Allen會透過分享工作情況，以及一兩個有趣的案子，讓大家對非營利研究機構有多一點的認識，也提供大家未來找工作多一個不同的選項。

版聚回顧及重點摘要

1. Academia vs. Industry

博士班畢業前一年，我開始在想未來職涯發展，學術界工作主要分為三種: 1) research university研究型大學的教職; 2) 教學型大學community university的教職; 3) Post-doc博士後研究。

我發現找research university研究型大學的教職不容易。教學型大學community university的教職，因為要教很多課，需要英文非常好，還有教學負荷loading會很重，導致沒有時間做研究。至於Post-doc，雖然可以做研究，但礙於地理因素及薪水考量，我最後就沒有選擇，最終就放棄學術這條路。然後我開始找industry業界的工作，剛好有個在Battelle的學長回來系上演講，經過面試之後我就進入Battelle工作。

2. Nonprofit Research Institute — Battelle介紹

Battelle是一個非營利組織，全美最大私人研究機構，Battelle有跟政府達成協議要回饋社會，它有一個education program，Ohio當地教育機構如果想要辦科學營之類的活動可以寫proposal跟Battelle申請經費補助。Battelle也會贊助動物園，博物館的場館或公園建設。

Battelle大約有3000名員工，員工一半是博士一半是碩士，主要收入來源是政府大型標案佔90%，一般企業研究案佔10%，我的部門是Advanced Analytics，主要負責一些美國政府機構的研究計畫，我們跟一般大學不一樣的地方在於學校教授大多申請小型的研究計畫，像2年30萬美金，我們申請的是大型研究計畫，像一年100萬美金的跨領域，跨部門計劃。另外有一些研究計畫對於參與的人員會有身分要求的限制，像是需要綠卡或美國公民身分才能參與執行。

Battelle薪水大約是在業界跟學界之間，比學校教職薪資高一些，我們除了年薪外沒有額外的bonus，工作時間也蠻彈性的，work-life balance很好。從博士生到業界工作，我覺得最難的一點是你想的idea要符合公司發展以及商業策略，而不是只是一個單純的技術方法。我們公司也有內部研究計畫，依研究經費與時程分為小型與大型研究計畫，研究計畫要符合公司的發展策略，要先做研究提案，審查通過之後就可以開始執行，做完後要寫研究報告，就像學校老師帶領一個研究團隊做研究。

Nonprofit H1B是不需要抽籤的，只要申請，資料審查通過後就會獲得H1B，像學校與非營利組織就可以申請Nonprofit H1B，Nonprofit H1B好處是申請時間非常快與核准率很高，我當時花約兩週時間拿到H1B，缺點是沒有最低薪資限制，所以有些Post-doc的薪資很低，另一個缺點是不能直接轉成profit H1B，所以必需要重新申請H1B，才能跳槽去一般公司。

3. 工作專案介紹

1) NeuroLife — Brain Computer Interface

Ian之前跳水的時候傷到脊椎，造成半身不遂，他沒辦法控制他肩膀以下的部位，為了幫助Ian，我們研究專案的第一部分是要知道他在想什麼，第二部分是用electors去刺激他的動作，讓他可以用手部做一些動作。我們首先在他腦中植了一個晶片，用machine learning的方式去解讀他的腦波，知道他的想法，進而知道他想要做什麼動作。另外我們在他手臂上安裝了一個袖套，袖套裡面有96個electors去刺激他手臂肌肉的運動，讓他能夠喝水與運動。

我認為在Battelle這種非營利的研究機構，就有機會做到像這樣蠻酷的實驗，我在這專案的角色主要是進實驗室跟Ian一起做實驗，去改進machine learning model的efficiency與accuracy。在實驗中我們遇到一個問題是Ian當天到實驗室後，我們要花一到兩小時測試electors的組合以刺激他做出指定的動作，由於他每天身體狀況可能會不一樣，或者袖套穿戴的位子之差異，所以每天需要專人協助調整設定，耗費大量時間，而且我們也希望Ian自己在居家生活能使用這套系統，所以我們建立一個autocalibration algorithm，自動且快速地尋找最佳electors的組合。

在專案執行中也遇到一些問題，像是用數學方式去選擇那些點，把實際上遇到的問題用數學方式解決這是比較困難的地方。還有實際上會遇到很多的限制，像袖套上電流的調整，如何調整適當的電流去刺激手指頭或手臂肌肉做出動作。另一個是measurement errors，我們一開始是給他戴手套，用關節上的sensor去測量他的動作，但發現手套效果不好，後來改用video影像方法，看他在空間中是如何動作的，這個方法的測量效果就比戴手套好很多。透過這個專案讓我覺得幫助了Ian，對社會做出貢獻。我們公司現在也想把這套系統拿來做其他應用，去協助其他病人像中風患者，幫助他們復健。

2) Ontology-based and user-focused automatic text summarization

一般的text summarization都太 general，基本上都是利用 frequency來決定重要的句子，但那些句子也許是對作者來說最重要的，但卻不一定是讀者想要得到的資訊，所以我提出要利用question answering (deep learning NLP model) 的方法來創造text summarization。

為了找出covid-19相關risk factors的paper，我使用以下兩個步驟:

1.用ontology based graphic analysis 方法去找出這篇文章的主題

2.用question answering model (deep learning NLP model) 的方法去找出使用者感興趣的sentence去創造text summarization。我用BioBert + SQuAD 2.0 去訓練一個question answering model，試著去找出domain experts會想問的問題，像是第一個有興趣的問題是risk factors，第二個有興趣的問題是where and when，這個study是在哪裡做與何時做的，還有一些比較detailed 資訊的問題。我認為text summarization應該要follow這樣的order，所以我是先用question answering，再用specific questions去guide the solution of text summarization。

4. Q &A 精選

Q1. 在Nonprofit機構工作申請綠卡跟一般公司一樣嗎?

Allen: 我是用EB2申請綠卡，就像一般公司為員工申請綠卡的流程一樣。由於公司有些研究計畫要綠卡身分才能執行，所以如果表現不錯，公司會願意幫你申請綠卡，也會sponsor綠卡。

Q2. 發paper的速度快嗎

Allen: 公司鼓勵你發paper，但發表速度沒辦法很快，主要因為我們執行很多都是政府案子，你想要發paper要經過政府層層審核，第二是你做的很多projects沒有到可以發paper的程度，像我做了十幾個案子，也只有兩個案子有這種創新的程度可以發paper。

Q3. Battelle在做的研究，如果跟外面公司或研究機構做的類似，Battelle會跟這些大公司接洽合作嗎？

Allen: 這方面我沒有太多經驗，我們在Battelle做的是初期研究，當作到一定成果時，Battelle會把研究申請專利，賣給業界的大公司，這些大公司後續可以去大量生產。

Q4. funding有分淡季旺季嗎？Battelle如何維持研究funding

Allen: 像五到七月就是我們計畫提案的季節，如果要寫提案，這時候就會比較忙，九月比較閒，因為很多案子還沒有拿到預算，十月就會有很多新案子開始。

Q5.怎樣鍛鍊自己把實務問題轉成數學問題的能力

Allen: 你要跟domain experts 盡量溝通，例如我有96個electors，你要怎樣讓它動，首先要想到它有什麼限制，所以你要多了解背景知識跟domain experts想要解決的問題是什麼，再去想怎樣把它轉成數學問題解決這個實務問題

Q5.請教剛才介紹的NLP模型可以用來讀table & figure資訊嗎？

Allen: NLP模型對table & figure資訊都比較難取得，主要因為NLP需要完整的sentence，也需要前後文，在table裡面很難這樣做，因為沒有前後文。Figure部份我們會把caption拿出來當作一個sentence，去做分析。

Q6.請問統計背景轉到資料科學職位上有哪些背景知識是需要額外自學或是可以先學的部分嗎？

Allen: 我認為對於資料結構與資料儲存要有基本概念，例如在做NLP專案，我的角色是build model，但NLP取出來的東西都放在database，如果你對於資料結構不了解，這樣跟computer science的人工作起來會有一點難度，像抓資料可能要透過他們的幫忙，還有像build model可能兩星期到一個月可以結束，但困難的地方可能是如何把model放到系統上執行，例如使用的package有一些限制，Process的時間過長，這些東西是統計人在學校比較不會學到的。

Q7. 請問 Battelle員工離職後去那些公司？還有未來職涯發展考量

Allen: 我們員工大部分都是從學術界來的，離職後大多到一般業界公司工作，例如銀行與保險業，因為Columbus很多這類型公司。另外薪水可能也是一個考量，業界薪水較高。在我們公司要會寫proposal跟拿到grant才比較容易升職。但如果你只想單純做研究，不想帶team不想寫proposal，就比較難在這種nonprofit research institute 生存下去。

Q8. 請問在Battelle 裡有專門做 data pre-processing 的 data engineer 嗎? 還是都是 data scientist 自己做資料清理?

Allen: 例如在NLP專案，我們software engineer會負責寫程式下載資料(XML files)，Process data，然後儲存NLP processed的資料(RDF files)到Graph Database，我的角色是專注在於建立NLP的models，要文章中重要的資訊找出來，而software engineers的角色是把我建立的模型，套進去整個pipeline裏面，盡可能地使整個流程自動化。

Q9. 想就前面提到的 transfer profit H-1B 問 follow-up question。想確認說如果想跳槽的當年是沒抽到 profit H-1B 是就沒辦法跳槽嗎？是因為 opt 的身份已經用完也沒辦法用opt身份來做新公司的工作嗎？謝謝！

Allen: 對，我的假設是OPT已經用完。第一個麻煩是，大部分的公司在你還沒進去上班前，不見得會願意直接幫你抽H1B，畢竟公司連這個員工的能力怎麼樣都不知道，有些會不願意花錢。第二個是就算公司願意幫你花錢，還是有很大的不確定性，H1B每年四月申請，10月開始執行，假設你10月去面試，一般公司可能不會願意等你一年，就算公司願意等，我們自己也會承擔一定的風險，如果沒抽到呢，原公司的人會不會知道你要走卻走不了等等問題。

Q10. 想請教在非營利機構在執行 project 上人力編排上與一般的公司會有差異嗎？

Allen: 這我不太確定，因為我沒在一般公司待過。但在我們公司，有個不同的可能是，每個人都像是個free agent，所以就算我要請位階比我低的人幫忙，我也是要問他有沒有意願，而不是直接指派任務給他們。

Q11. 請教一下關於Text summerization/ 文字分析常使用的工具和 models有哪些？

Allen: 現在NLP最常見的就是fine-tune BERT-type of pretrained model. 從2018 Google 發表BERT以來，陸陸續續有10種類似的pretrained models 被發展出來，但以performance來說，跟BERT差距都不太大，重點都在於如果找到manually annotated data 來fine-tune 那些pretrained models.

Q12. 請問後面的QA系統如何生成文字總結?

Allen: 這是商業機密, see https://arxiv.org/abs/2012.02028>. 我的做法是先找出有包含這個“答案”的所有句子。然後再用tf-idf等方式來針對有包含答案的句子們做排序，最後選出最重要的那句。

筆記手：Huai Cheng
校稿：Allen Chen

👉 歡迎加入台灣資料科學社群，有豐富的新知分享以及最新活動資訊喔！