无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

2023-06-25 08:52 作者:bili_2084577828  | 我要投稿


之前我們介紹了一些OCR前期圖片處理的技術(shù),其實(shí)要將圖片上的表格識別出來,前期的圖片處理和OCR技術(shù)是遠(yuǎn)遠(yuǎn)不夠的,我們還需要用到數(shù)據(jù)集構(gòu)建技術(shù),那么,它的實(shí)現(xiàn)大致步驟是怎樣的呢?

1. 收集數(shù)據(jù):收集包含表格的圖像或PDF文件(圖片型PDF)。我們會首先從公共數(shù)據(jù)集中獲取,如ICDAR產(chǎn)生的和COCO-Text等,其次也會自行收集大量的不同類型的帶表格的圖片,包括有表格線和無表格線的。

2. 標(biāo)注數(shù)據(jù):對于每個圖像或PDF文件,需要手動標(biāo)注表格的位置和單元格的邊界框,這個過程可能會比較繁瑣,但為了獲得更準(zhǔn)確的識別率和更好的表格識別效果,這一步又是必不可少的??梢允褂玫臉?biāo)注工具有LabelImg、VGG Image Annotator等。

3. 數(shù)據(jù)清洗:對標(biāo)注不準(zhǔn)確或不完整的數(shù)據(jù)進(jìn)行清洗,以確保數(shù)據(jù)集的質(zhì)量,為后面的處理提供高質(zhì)量的數(shù)據(jù)支撐。

4. 數(shù)據(jù)劃分:將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集。通常采用80/10/10的比例。

5. 數(shù)據(jù)增強(qiáng):我們對于訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),會使用旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等技術(shù),以增加數(shù)據(jù)集的多樣性和數(shù)量。

6. 數(shù)據(jù)格式轉(zhuǎn)換:將數(shù)據(jù)集轉(zhuǎn)換為模型所需的格式,如TFRecord、COCO等。

7. 數(shù)據(jù)集評估:使用評估指標(biāo),如準(zhǔn)確率、召回率、F1值等,對模型進(jìn)行評估。

以上是我們的構(gòu)建數(shù)據(jù)集的大致步驟,由于數(shù)據(jù)集的質(zhì)量對訓(xùn)練模型的性能有很大影響,因此我們每天都需要花費(fèi)了大量時間和精力去不斷地完善。

#excel技巧#

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共 條)

分享到微博請遵守國家法律
吴江市| 泰兴市| 东丽区| 临沧市| 惠州市| 峨眉山市| 明溪县| 错那县| 顺义区| 彝良县| 页游| 连云港市| 安吉县| 云和县| 崇义县| 宁远县| 衡阳县| 营山县| 澄江县| 曲松县| 浪卡子县| 佛教| 留坝县| 普定县| 萨迦县| 广西| 黄骅市| 湾仔区| 榕江县| 浏阳市| 会昌县| 郎溪县| 怀来县| 横山县| 富宁县| 通海县| 岗巴县| 文昌市| 图们市| 陵水| 蓝山县|