展示當前 AI Agent 現代開發模式下的題庫品質控制。透過 PDF 原始提取、NotebookLM 一致性比對,並回饋給 Agent 字典做自動清洗,實現 100% 完美的題庫資料呈現。
💡 診斷原理: 將生成的 CSV 資料上傳至 NotebookLM 作為來源,並將原始 PDF 作為比對參照,利用 LLM 的全文一致性對照,快速抓出人工難以肉眼巡檢的斷字與排版瑕疵。
檢核對象:原始 PDF 試題文字 v.s. 初版 CSV 轉換結果
針對 CSV 題庫檔「呈現品質」的要求,我們使用 NotebookLM (Gemini 1.5 Pro) 進行了格式與排版的嚴格品管檢查。從「系統呈現品質」的角度來看,CSV 檔案中存在許多因 PDF 轉檔時換行符號被轉換為「半形空格」而產生的排版瑕疵。這些瑕疵若直接匯入測驗系統,會導致題目或選項在畫面上出現不自然的斷字或多餘空白。
在第 8、10、12、21、22 等題的某些選項中(例如:"支援向量機(Support Vector Machine, SVM)"),文字前後包覆了雙引號 "。這在 CSV 格式中是完全標準且正確的寫法,目的是為了防止文字內的「逗號 (,)」被系統誤判為換欄位。大部分匯入系統都能正常解析並自動隱藏雙引號,請安心保留。
在 Agent 時代,我們不再手動一題題修改 CSV,而是將 NotebookLM 指出的 33 個問題點,整理為對照表(`replacements` 字典),擴充至 Python 清洗腳本中。由 Agent 重新運行清洗與驗證,一秒內即可重新輸出 100% 乾淨的 `questions.csv`、`questions.js` 與 `questions.json`。這也是 AI 工具鏈開發的核心優勢所在。
展示 parser 剛提取出來的原始 CSV 片段與經 Agent 清洗後的完美 CSV 檔案對照