iPAS 題庫資料品管閉環對照面板 (原本 vs 檢核 vs 修正)

Q2 中文換行斷字與標點多餘空格

分類：中文換行斷字

❌ 原本判斷的 (原始提取資料) 有排版瑕疵

原本判斷的 CSV 欄位 - 題幹

選項內容

原始提取的 CSV 程式碼字串

📓 檢核的 (NotebookLM 審查意見) 檢核診斷

NotebookLM 給出的診斷意見

品管標籤

💡 診斷原理： 將生成的 CSV 資料上傳至 NotebookLM 作為來源，並將原始 PDF 作為比對參照，利用 LLM 的全文一致性對照，快速抓出人工難以肉眼巡檢的斷字與排版瑕疵。

✅ 修正後的 (Agent 自動清洗完美版) 100% 完美修復

自動修正後的 CSV 欄位 - 題幹

選項內容

自動修正後的 CSV 程式碼字串

NotebookLM Quality Report

CSV 題庫排版品質檢核報告 (完整版)

檢核對象：原始 PDF 試題文字 v.s. 初版 CSV 轉換結果

針對 CSV 題庫檔「呈現品質」的要求，我們使用 NotebookLM (Gemini 1.5 Pro) 進行了格式與排版的嚴格品管檢查。從「系統呈現品質」的角度來看，CSV 檔案中存在許多因 PDF 轉檔時換行符號被轉換為「半形空格」而產生的排版瑕疵。這些瑕疵若直接匯入測驗系統，會導致題目或選項在畫面上出現不自然的斷字或多餘空白。

NotebookLM 的核心檢核結論： 雖然文字內容與正確答案皆正確，但在網頁呈現上，會存在約 33 題的「中文斷字」、「英文斷裂」與「全形標點前後帶有半形空格」的呈現瑕疵。

📓 NotebookLM 品質檢核步驟與報告截圖 (點擊圖表可放大預覽)

步驟一：載入來源

將 PDF 原始考題與 Parser 產出的 CSV 上傳至 NotebookLM 平台。

步驟二：一致性比對

比對原始 PDF 與 CSV 資料流，分析因換行所產生的非預期空格瑕疵。

步驟三：呈現品質報告

NotebookLM 產出 33 題瑕疵檢核清單，指明問題位置與修補建議。

🚨 嚴重斷字與多餘空白整理報告內容

第 2 題：題幹中出現斷字「變化」與「滿溢度」，且全形標點符號前有多餘空白「）。」。
第 4 題：題幹中出現斷字「規劃」，選項 C 出現斷字「數值穩定性」。
第 5 題：題幹全形標點前有多餘空白「「正常交易」。」；選項 C 英文單字斷裂為「Loss Functi on」；選項 D 出現斷字「比例一致」。
第 6 題：題幹出現斷字「標準化」，且括號後有多餘空白「Leakage），」；選項 B 有多餘連續空白「Training Data」；選項 D 出現斷字「原始數值」。
第 8 題：題幹逗號後有多餘空白「機率時，資料同時」，以及斷字「也能對未出現」。
第 10 題：題幹出現斷字「風格草圖」；選項 A 英文縮寫斷裂為「V AE」。
第 11 題：題幹出現斷字「外建置一套」。
第 12 題：題幹出現斷字「正確」。
第 21 題：題幹出現斷字「風格變化」與「模型技術」。
第 22 題：題幹出現斷字「壓力」與「不同的狀態」，並有多餘空白「力）。」。
第 23 題：題幹英文單字間有多餘空白「Real- time」，以及引號前多餘空白「Inference）」常依」。
第 24 題：題幹出現斷字「偏好」；選項 A、C、D 分別出現斷字「品質差異」、「行為表現」、「表示學習訓練」。
第 44 題：題幹頓號前有多餘空白「金額」、「平均」，且出現斷字「交易金額」。
第 45 題：題幹出現斷字「最適合的改善策略」。
第 46 題：選項 A 英文單字斷裂為「V olume」。

💡 正常現象說明（不需修改）

在第 8、10、12、21、22 等題的某些選項中（例如："支援向量機（Support Vector Machine, SVM）"），文字前後包覆了雙引號 "。這在 CSV 格式中是完全標準且正確的寫法，目的是為了防止文字內的「逗號 (,)」被系統誤判為換欄位。大部分匯入系統都能正常解析並自動隱藏雙引號，請安心保留。

🛠️ Agent 自動閉環修復機制

在 Agent 時代，我們不再手動一題題修改 CSV，而是將 NotebookLM 指出的 33 個問題點，整理為對照表（`replacements` 字典），擴充至 Python 清洗腳本中。由 Agent 重新運行清洗與驗證，一秒內即可重新輸出 100% 乾淨的 `questions.csv`、`questions.js` 與 `questions.json`。這也是 AI 工具鏈開發的核心優勢所在。

題庫 CSV 原始代碼 Side-by-Side 對照

展示 parser 剛提取出來的原始 CSV 片段與經 Agent 清洗後的完美 CSV 檔案對照

原始瑕疵

清洗後修正

● questions_raw_parsed.csv

● questions_cleaned.csv (完美版)