🎯 模擬練習網頁 📓 教材開發教學
Data Quality Assurance & Control Panel

題庫資料品質優化對照示意檔

展示當前 AI Agent 現代開發模式下的題庫品質控制。透過 PDF 原始提取、NotebookLM 一致性比對,並回饋給 Agent 字典做自動清洗,實現 100% 完美的題庫資料呈現。

發現排版瑕疵題數
33 題 / 50 題
中英文斷字、多餘空格與引號格式
NotebookLM 審查覆蓋
100% 一致性比對
全自動對照原始 PDF 與 CSV 欄位
AI Agent 自動修復率
100% 一鍵編譯
以 Python 清洗字典完成批次精準修復
人機協同品管閉環
Active 品質保證
避免匯入題庫時出現排版解析瑕疵
Q2 中文換行斷字與標點多餘空格
分類:中文換行斷字
❌ 原本判斷的 (原始提取資料) 有排版瑕疵
原本判斷的 CSV 欄位 - 題幹
選項內容
原始提取的 CSV 程式碼字串
📓 檢核的 (NotebookLM 審查意見) 檢核診斷
NotebookLM 給出的診斷意見
品管標籤

💡 診斷原理: 將生成的 CSV 資料上傳至 NotebookLM 作為來源,並將原始 PDF 作為比對參照,利用 LLM 的全文一致性對照,快速抓出人工難以肉眼巡檢的斷字與排版瑕疵。

✅ 修正後的 (Agent 自動清洗完美版) 100% 完美修復
自動修正後的 CSV 欄位 - 題幹
選項內容
自動修正後的 CSV 程式碼字串
NotebookLM Quality Report

CSV 題庫排版品質檢核報告 (完整版)

檢核對象:原始 PDF 試題文字 v.s. 初版 CSV 轉換結果

針對 CSV 題庫檔「呈現品質」的要求,我們使用 NotebookLM (Gemini 1.5 Pro) 進行了格式與排版的嚴格品管檢查。從「系統呈現品質」的角度來看,CSV 檔案中存在許多因 PDF 轉檔時換行符號被轉換為「半形空格」而產生的排版瑕疵。這些瑕疵若直接匯入測驗系統,會導致題目或選項在畫面上出現不自然的斷字或多餘空白。

NotebookLM 的核心檢核結論: 雖然文字內容與正確答案皆正確,但在網頁呈現上,會存在約 33 題的「中文斷字」、「英文斷裂」與「全形標點前後帶有半形空格」的呈現瑕疵。

📓 NotebookLM 品質檢核步驟與報告截圖 (點擊圖表可放大預覽)

🚨 嚴重斷字與多餘空白整理報告內容

💡 正常現象說明(不需修改)

在第 8、10、12、21、22 等題的某些選項中(例如:"支援向量機(Support Vector Machine, SVM)"),文字前後包覆了雙引號 "。這在 CSV 格式中是完全標準且正確的寫法,目的是為了防止文字內的「逗號 (,)」被系統誤判為換欄位。大部分匯入系統都能正常解析並自動隱藏雙引號,請安心保留。

🛠️ Agent 自動閉環修復機制

在 Agent 時代,我們不再手動一題題修改 CSV,而是將 NotebookLM 指出的 33 個問題點,整理為對照表(`replacements` 字典),擴充至 Python 清洗腳本中。由 Agent 重新運行清洗與驗證,一秒內即可重新輸出 100% 乾淨的 `questions.csv`、`questions.js` 與 `questions.json`。這也是 AI 工具鏈開發的核心優勢所在。

題庫 CSV 原始代碼 Side-by-Side 對照

展示 parser 剛提取出來的原始 CSV 片段與經 Agent 清洗後的完美 CSV 檔案對照

原始瑕疵
清洗後修正
questions_raw_parsed.csv
questions_cleaned.csv (完美版)