AI人工智慧時代:教育測驗的現在與未來資訊組

自2016年起,Google旗下的DeepMind團隊所開發的電腦圍棋程式AlphaGo擊敗世界著名的圍棋高手,後來程式演進到Master版本,在網路上與世界各地好手對弈,並連續擊敗中、日、韓三地的圍棋冠軍高手。DeepMind團隊並不因此而停下腳步,仍持續開發AlphaGo Zero版本,且只提供它圍棋的規則知識,讓它透過深度學習與強化學習的技術,在完全不需要人類先備知識下就能自我學習的人工智慧。只經過3天的學習,便順利擊敗Master。2017年底在Google宣布推出圍棋教學工具AlphaGo Teach,為AlphaGo畫下完美的句點。隨後Google也提出DeepMind團隊的下一步計畫:研發出應用領域更廣泛的演算法,其中包含嘗試找出新疾病治療方法、降低能源消耗、革命性新材料等應用。此舉也正式宣告AI技術正式走出實驗室,在可預見的未來,將會有愈來愈多的應用在我們日常生活與工作中實現。

面對AI人工智慧時代的來臨,人類的生活環境會變得更加舒適與便利,但同時也有許多專家學者提出警告,未來人類將會有許多工作被AI 所取代。在這波AI浪潮中,對於教育測驗研發工作所造成的影響,是本文接下來要探討的重點。本中心自1997年成立以來,平時除執行相關計畫研究與例行業務外,早在十多年前便已投入資源,進行AI技術與基礎工具的研究,以有效解決教育測驗領域中最難處理的非結構化文字資料處理與分析工作。以下將介紹本中心十多年來所累積的AI研究資源與技術經驗,應用於教育測驗的各階段工作,目前已獲得的研究成果與未來持續精進的各項研究規劃。其中包含:試題研發、測驗辦理、閱卷評分與測驗結果等4個階段。

一、試題研發階段

為了確保試題研發的品質,需投入大量研發人員進行試題設計,並耗費大量成本進行預試,蒐集學生的作答反應資料進行試題分析,以取得精準的試題參數進行題庫的建置。透過AI技術的協助,可以進行以下3個階段的研究工作,預期將可減少大量人力資源與成本的投入,並能同時提升試題研發的品質與題庫建置的效率。

(一)智慧型教材檢索相關技術的研究

教材是試題設計取材的主要來源,目前已建置一套教材檢索系統,提供本中心各學科試題研究人員快速地進行教材檢索,透過教材檢索系統,取代原本翻閱教材查詢資料所耗費的時間,除加速教材檢索的速度外,同時提升檢索的精確度。規劃以現有教材檢索系統為基礎,結合AI技術、自然語言、自動化語意分析技術,開發一套智慧型的教材檢索系統。除提供研究人員更方便的介面進行教材檢索外,並回饋更多的檢索資訊供研究人員進行試題設計時的參考。

(二)自動化試題分析相關技術的研究

試題分析是標準化測驗建置過程中不可或缺的一項重要程序,其功能在於瞭解試題的品質,刪除或修改品質不佳的試題,進而強化整體題庫的品質。目前試題分析都是透過預試程序來蒐集資料,但資料蒐集在整體試題研發成本結構中占有極大的比例。除資料蒐集的成本外,對於高風險測驗,本中心更加關切試題曝光所造成的安全性疑慮。因此亟需導入AI相關技術建置自動化試題分析工具,以提升試題研發的效率與安全。透過自動化語意分析技術與機器學習方法進行自動試題難度評估的研究已有初步的成果,未來將逐步應用到各學科試題難度評估的研究上。

(三)自動化命題相關技術的研究

在智慧型教材檢索與自動化試題分析的研究工作逐步成熟後,將在前述的兩項研究基礎上,開始投入自動化命題技術的研究。透過自動化命題工具,可協助研發人員快速地建立試題,大幅降低研發過程中所耗費的時間與人力成本,提升試題研發的效率,同時確保題庫安全與測驗的公平性。自動化命題工具如能順利地完成開發,除能提升試題研發的效率外,同時也能提供給教學現場的教師使用,將能對現場教師產生極大的助益。

二、測驗辦理階段

如何精準的估計學生能力,是本階段相關研究工作主要的目的,依測驗實施的方式,本階段的研究包含以下兩個部分:

(一)自動化選題程式的研究

為了讓每一次的測驗結果能相互比較,必須進行平行測驗的編製,依據測驗目的設定測驗組成的參數(e.g., 試題格式、內容範圍、試題難度的配置……等),再從題庫中挑選符合條件的試題,讓不同次別的測驗組合一致。不過通常會有許多測驗組合的條件要求,必須藉由電腦程式的協助,方能編製一份最佳組合的題本。目前選題程式是透過線性規劃的方法,組成最佳的試題組合。未來將導入AI相關演算法到自動化選題程式進行測驗組合的編製,提升評估學生能力的精準度。

(二)橫向與縱向的電腦適性化診斷模型的研究

目前已在認知領域的電腦適性測驗取得豐富的研究成果,並開發出多個適性測驗評量系統,大幅提昇施測效率。透過適性測驗的能力估計算則,能在受試者每作答完一題之後,即時的推算其最可能的特質水準,進而利用適性選題算則,從題庫中抽選出最適合其特質水準的試題。如此一來,便能以最少量的施測題數提供最大化有關受試者特質高低的訊息,達到提升施測效率之目的。未來將結合AI技術,持續研究多向度適性測驗技術以及不同年級間的測驗等化技術,讓適性化診斷模型除擁有橫向的不同能力向度的診斷功能外,並兼具縱向跨年級的能力診斷功能。讓學生進行一次測驗,可馬上取得最精準的診斷與能力評估,適用於拔尖與扶弱不同的測驗目的。

三、閱卷評分階段

學生的作答反應資料包含選擇題與非選擇題兩種形式,選擇題的閱卷評分工作已相當成熟,對於非選擇題的閱卷評分工作是目前大型測驗機構所關切與困擾的。其中寫作測驗是目前普遍實施的一種非選擇題型,本中心在寫作測驗閱卷評分方面的研究,主要包含以下兩個階段:

(一)寫作測驗自動化評分相關技術的研究

寫作測驗對教育評量、心理計量及語言教學等研究領域是非常重要的工具,然而實際運作上由於閱卷評分的困難,使得寫作測驗的實施規模與次數受到相當大的限制。在辦理寫作測驗時,必須考量閱卷評分所需的時間、成本以及閱卷結果的信度等3個因素。首先,老師與學生都希望在測驗後能儘快取得測驗結果,傳統寫作測驗要加快閱卷速度只能增加評閱老師,但增加評閱老師將大幅增加成本,更何況閱卷老師還必須經過嚴格的教育訓練及認證考試。除此之外,要提高測驗的評分者信度,則必須增加每份試卷的評分者人數及提高評分者品質,兩者都將導致測驗成本大幅增加。這些成本對經費有限的測驗而言難以負荷。因此如何快速、有效、低成本進行閱卷成為重要的研究課題。本中心透過中文自動化語意分析技術與機器學習方法,應用在中文寫作自動化閱卷評分的研究上,已獲致相當不錯的研究成果,未來也將持續精進閱卷評分的精準度。

(二)支援教學現場的寫作自動化評分與回饋系統

本中心進行寫作自動化評分研究多年,目前以少量的訓練資料透過監督式機器學習進行訓練,便可獲得不錯的評分準確度。教學現場的教師進行寫作教學時,會依據學生能力與特質、配合課程進度安排,設計適合學生練習的寫作題目,然而這些題目無法事先蒐集足夠的訓練資料。此外,僅回饋分數給學生,對學生的寫作學習成效幫助有限,如能即時回饋錯別字、句法及語意錯誤等資訊,並即時進行校正,再加上提供適合學生程度的句法及詞彙建議輔助工具,將會是學生在自主練習時降低挫折、增強學習信心的利器。因此在寫作測驗自動化評分的技術上持續精進外,對於支援教學現場有助益的寫作自動化評分與回饋系統,也將投入資源進行相關技術的研究。

四、測驗結果階段

教育測驗的最後一個階段為測驗結果呈現,傳統對於測驗結果的應用只是將成績的數字資訊提供給學生,如能將測驗結果結合外部異質資料庫,建置多元的教育大數據資料分析平臺。透過不同面向的資料,讓事實陳述更具說服力,發揮資料的最大價值,解決原本沒想到的問題。透過AI相關技術的協助可以再進行以下相關的研究,讓整體教育測驗的實施,能發揮其最大效益。

(一)測驗結果解釋的相關技術研究

受限於人類認知能力的限制,目前對測驗結果解釋,只能將測驗結果進行統計後,以較粗略的模式進行解釋。雖然最理想的方法可以將所有類別全數列舉。但類別過多造成分類結果難以呈現,亦難以解讀。本中心將運用相關技術,針對抽象而且無法直接觀察的特質進行測量與分析。再將量測與分析的結果透過機器學習的方法進行精準的分類,以提供學生更精緻與深入的測驗結果解釋。

(二)教育專屬的資料探勘相關技術研究

教育大數據建置完成後,針對複雜且迫切需要解決的重大教育議題,不能將應用在商業行為的資料探勘方法,直接套用在教育大數據。教育資料不如一般商業行為的資料來得直觀與明確,教育資料經常有一些無法直接解讀的抽象資料。需要發展教育資料專屬的資料探勘技術,建立教育決策預測模型,並持續依據蒐集到的教育大數據資料,動態修正與檢驗模型,了解各類學習的歷程與效率。因此,如何應用AI與資料探勘技術進行資料剖析與探索,讓數據的解讀更加精細,是教育大數據平臺建置完成後,很重要的一個研究主題。

本中心期許未來能在已發展完成的各項研究基礎上,再結合最新的深度學習技術、語意分析技術與測驗計量技術,完成前述所規劃的教育測驗4個階段各項研究工作,建構一套完整且精準的智慧量測模型,以達成精準教育的目標。