AI先驅Andrew Ng正在呼吁全球向更加以數據為中心的機器學方法轉變。他舉辦了首屆以數據為中心的AI數據質量競賽。許多人認為數據質量占AI工作的80%。
Andrew Ng在他的新聞通訊文章The Batch中寫道:“我相信AI社區很快就會像對待構建模型一樣,對系統地改善數據產生興趣。”
通過合成數據采取以數據為中心的方法來開發模型是一個迭代的流程。工程師對完成訓練的模型進行評估并確定數據集的改進,然后他們將生成新的數據集并啟動新的訓練周期。
這個產生數據、訓練模型、評估模型并產生更多數據的流程會一直持續到模型符合要求為止。
由于每次迭代中的數據都是在模擬中生成,而不是在現實世界中收集然后標記,因此加快了模型訓練的速度。
這些可以大規模生成的數據集以訓練工具可以直接使用的格式輸出。此功能無需再對數據進行額外的預處理。