Pipeline क्यों जरूरी है?
Indic AI products में language, script, accent, spelling और code-mixing की वजह से raw data सीधे training या evaluation के लिए ready नहीं होता। Quality data pipeline बनाना model quality का foundation है।
एक practical pipeline में collection, normalization, annotation, reviewer QA, golden dataset और feedback loop शामिल होने चाहिए।
Fact base
- AI4Bharat IndicTrans2 repository के अनुसार IndicTrans2 22 scheduled Indic languages के लिए open-source translation models और BPCC corpus release करता है।
- IndicTrans2 paper 22 scheduled Indian languages के लिए high-quality accessible machine translation models पर work describe करता है।
- BhashaDaan, BHASHINI का crowdsourcing initiative है जहाँ citizens Indian languages के लिए language inputs donate और validate कर सकते हैं।
- PIB note के अनुसार BHASHINI में 70+ research institutions और sectoral experts के साथ annotated datasets curate किए जा रहे हैं।
Golden dataset क्या होता है?
Golden dataset एक high-confidence evaluation set होता है जिसे हर model या workflow release से पहले run किया जाता है। इसमें easy, medium, hard और edge cases सब शामिल होने चाहिए।
Indic AI के लिए golden set में Hinglish, typo, accent, incomplete query, angry tone, domain-specific words, unsafe request और escalation cases जरूर होने चाहिए।
| Pipeline step | Output | Quality check |
|---|---|---|
| Collect | Raw text/audio/chat | Consent, source, coverage |
| Normalize | Cleaned records | Language, script, duplicates |
| Annotate | Labels and rubrics | Reviewer agreement |
| QA | Accepted/rejected items | Gold checks and audit sample |
| Feedback | Improvement backlog | Failure taxonomy |
TrainPlex operating model
TrainPlex data workforce raw conversations को label करता है, reviewer disagreement track करता है, quality score देता है और failure taxonomy बनाता है।
हर week product team को dashboard मिलना चाहिए: top failure categories, language-wise error rate, risky intents, retraining candidates और golden set additions। यही human-in-the-loop layer production AI को reliable बनाती है।
Annotation quality कैसे control करें?
Indic AI projects में annotation quality का मतलब सिर्फ़ label भरना नहीं है। Reviewer को language nuance, domain context और user intent समझना पड़ता है। इसलिए annotation guide में examples, counter-examples और edge cases होने चाहिए।
Example: “kal tak ho jayega?” support workflow में due date question हो सकता है, sales workflow में delivery commitment और HR workflow में joining date concern। Same phrase अलग domain में अलग intent रख सकता है।
Reviewer agreement process
- हर batch से 10–20% sample second reviewer को दें।
- Disagreement को सिर्फ़ error न मानें; उसे guideline improvement signal मानें।
- Confusing labels के लिए adjudicator decision record करें।
- Golden examples library बनाएं ताकि नए reviewers जल्दी train हों।
Golden dataset में कौन से buckets होने चाहिए?
Golden dataset balanced होना चाहिए। अगर dataset में सिर्फ़ clean Hindi examples हैं, तो model real Hinglish users पर fail करेगा। अगर सिर्फ़ easy examples हैं, तो launch के बाद hard cases में quality गिर जाएगी।
| Bucket | Example | क्यों जरूरी है? |
|---|---|---|
| Code-mix | “payment debit ho gaya but status pending hai” | Real Indian support language |
| Typo/noisy text | “ordr cnfrm nhi hua” | Chatbot robustness |
| Accent/audio | Regional Hindi pronunciation | Voice AI testing |
| Unsafe/risky | Payment, KYC, refund, medical/legal style query | Escalation and safety |
| Domain terms | Policy IDs, course names, product SKUs | Enterprise accuracy |
Release gate: कब model/workflow ship करें?
हर release से पहले golden dataset पर score compare होना चाहिए। अगर overall score improve हुआ लेकिन high-risk bucket गिर गया, तो release रोकना चाहिए। Production AI में average score misleading हो सकता है; high-risk failures अलग से track होने चाहिए।
TrainPlex का recommendation है कि हर client project में minimum release gate define हो: language coverage, reviewer agreement, high-risk pass rate, hallucination rate और escalation correctness।
Client dashboard में क्या दिखना चाहिए?
एक useful dashboard में सिर्फ़ total tasks नहीं, quality movement दिखना चाहिए। जैसे language-wise pass rate, reviewer disagreement, top failure categories, golden set pass/fail, unresolved edge cases और next training candidates।
इससे AI team को पता चलता है कि कौन सा language/workflow stable है और किस पर more data या better prompts चाहिए। यही human data operations को business value में बदलता है।