Si w te janm lage yon modèl ki te klere nan yon kaye men ki te bite nan pwodiksyon, ou deja konnen sekrè a: kijan pou mezire pèfòmans IA a se pa yon sèl metrik majik. Se yon sistèm verifikasyon ki lye ak objektif reyèl. Presizyon se yon bagay ki bèl. Fyabilite, sekirite, ak enpak sou biznis la pi bon.
Atik ou ta ka renmen li apre sa a:
🔗 Kijan pou pale ak IA
Gid pou kominike efektivman avèk IA pou pi bon rezilta toujou.
🔗 Kisa entèlijans atifisyèl la ap pouse moun?
Eksplike kijan envit yo fòme repons IA yo ak kalite rezilta yo.
🔗 Ki sa ki etiktaj done IA?
Apèsi sou kijan pou bay done etikèt egzak pou modèl antrènman.
🔗 Ki sa ki etik IA a?
Entwodiksyon sou prensip etik ki gide devlopman ak deplwaman responsab IA.
Ki sa ki fè yon IA gen bon pèfòmans? ✅
Vèsyon kout: yon bon pèfòmans IA vle di sistèm ou an itil, li fyab, epi ou ka repete l menm nan kondisyon konplike ak chanjan. Anfèt:
-
Kalite travay - li jwenn bon repons yo pou bon rezon yo.
-
Kalibrasyon - nòt konfyans yo aliyen ak reyalite a, pou ou ka pran aksyon entelijan.
-
Robuste - li kenbe tèt ak drift, ka limit, ak fuzz advèsè.
-
Sekirite ak jistis - li evite konpòtman danjere, patipri, oswa ki pa konfòm.
-
Efikasite - li ase rapid, ase bon mache, epi ase stab pou fonksyone sou yon gwo echèl.
-
Enpak sou biznis la - li aktyèlman deplase KPI ou enpòtan an.
Si ou vle yon pwen referans fòmèl pou aliyen metrik ak risk, Kad Jesyon Risk IA NIST se yon bon chwa pou yon evalyasyon sistèm ki fyab. [1]

Resèt jeneral pou mezire pèfòmans IA 🍳
Panse an twa kouch :
-
Metrik travay - koreksyon pou kalite travay la: klasifikasyon, regresyon, klasman, jenerasyon, kontwòl, elatriye.
-
Metrik sistèm - latans, debi, pri pou chak apèl, to echèk, alam derive, SLA disponiblite.
-
Metrik rezilta yo - rezilta biznis ak itilizatè ou reyèlman vle yo: konvèsyon, retansyon, ensidan sekirite, chaj revizyon manyèl, volim tikè.
Yon bon plan mezi melanje tout twa yo espre. Sinon, ou jwenn yon fize ki pa janm kite platfòm lansman an.
Metrik debaz pa kalite pwoblèm - epi kilè pou itilize kilès 🎯
1) Klasifikasyon
-
Presizyon, Rapèl, F1 - trio premye jou a. F1 se mwayèn amonik presizyon ak rapèl; itil lè klas yo dezekilib oswa pri yo asimetrik [2].
-
ROC-AUC - klasman klasifikatè yo san limit; lè rezilta pozitif yo ra, enspekte PR-AUC . [2]
-
Presizyon ekilibre - mwayèn rapèl atravè klas yo; pratik pou etikèt ki pa kòrèk. [2]
Atansyon pou pyèj: presizyon poukont li ka twonpe anpil ak dezekilib. Si 99% nan itilizatè yo lejitim, yon modèl ki toujou lejitim epi ki san sans ap fè yon nòt 99% epi li echwe ekip fwod ou a anvan midi.
2) Regresyon
-
MAE pou erè moun ka li; RMSE lè ou vle pini gwo erè; R² pou varyans eksplike. Apre sa, verifye distribisyon yo ak graf rezidyèl yo. [2]
(Sèvi ak inite ki respekte domèn nan pou moun ki gen enterè yo ka santi erè a vre.)
3) Klasman, rekiperasyon, rekòmandasyon
-
nDCG - pran an konsiderasyon pozisyon ak pertinans klase; estanda pou kalite rechèch.
-
MRR - konsantre sou vitès premye atik ki enpòtan an parèt (ekselan pou travay "jwenn yon bon repons").
(Referans aplikasyon ak egzanp pratik yo nan bibliyotèk metrik endikap yo.) [2]
4) Jenerasyon tèks ak rezime
-
BLEU ak ROUGE - metrik klasik ki sipèpoze; itil kòm referans.
-
Metrik ki baze sou entegrasyon (pa egzanp, BERTScore ) souvan korele pi byen ak jijman imen; toujou asosye ak evalyasyon imen pou stil, fidelite, ak sekirite. [4]
5) Reponn kesyon
-
Matche Egzak ak F1 nivo jeton yo komen pou QA ekstraktif; si repons yo dwe site sous yo, mezire tou baz (verifikasyon sipò repons).
Kalibrasyon, konfyans, ak lantiy Brier la 🎚️
Nòt konfyans yo se kote anpil sistèm rete trankil. Ou vle pwobabilite ki reflete reyalite a pou operasyon yo ka fikse papòt, wout pou rive jwenn moun, oswa risk pri.
-
Koub kalibrasyon - vizyalize pwobabilite prevwa vs frekans anpirik.
-
Nòt Brier - yon règ nòt apwopriye pou presizyon pwobabilistik; pi ba a pi bon. Li patikilyèman itil lè ou bay bon jan kalite pwobablite a enpòtans, pa sèlman klasman an. [3]
Nòt sou teren an: yon kalibrasyon F1 ki yon ti jan "pi mal" men ki pi bon ka anpil - paske moun ka finalman fè nòt yo konfyans.
Sekirite, patipri, ak jistis - mezire sa ki enpòtan 🛡️⚖️
Yon sistèm ka egzat an jeneral epi toujou fè gwoup espesifik mal. Suivi gwoupe ak kritè jistis:
-
Parite demografik - egal pousantaj pozitif atravè gwoup yo.
-
Chans egalize / Opòtinite egal - pousantaj erè egal oswa pousantaj pozitif vre atravè gwoup yo; sèvi ak sa yo pou detekte epi jere konpwomi, pa kòm yon sèl tès pase-echèk. [5]
Konsèy pratik: kòmanse avèk tablodbò ki divize endikatè prensipal yo pa atribi kle, answit ajoute endikatè jistis espesifik jan règleman ou yo mande. Li ka sanble konplike, men li pi bon mache pase yon ensidan.
LLM ak RAG - yon liv mezi ki vrèman fonksyone 📚🔍
Mezire sistèm jeneratif yo se... yon bagay ki difisil. Fè sa:
-
Defini rezilta yo pou chak ka itilizasyon: koreksyon, itilite, inofansivité, respè pou stil, ton ki sou mak la, baz sitasyon, kalite refi.
-
Otomatize evalyasyon debaz yo avèk kad solid (pa egzanp, zouti evalyasyon nan pil ou a) epi kenbe yo vèsyone avèk ansanm done ou yo.
-
Ajoute metrik semantik (ki baze sou entegrasyon) plis metrik sipèpoze (BLEU/ROUGE) pou plis presizyon. [4]
-
Anrasinman enstriman nan RAG: pousantaj siksè rechèch, presizyon/rapèl kontèks, sipèpoze repons-sipò.
-
Revizyon imen avèk akò - mezire konsistans evalyatè a (pa egzanp, κ Cohen an oswa κ Fleiss la) pou etikèt ou yo pa vibrasyon.
Bonus: anrejistre pèsantil latans yo ak pri jeton oswa kalkil pou chak travay. Pèsonn pa renmen yon repons powetik ki rive madi pwochen.
Tablo konparezon an - zouti ki ede w mezire pèfòmans IA 🛠️📊
(Wi, li fè espre yon ti jan sal - nòt reyèl yo sal.)
| Zouti | Pi bon odyans lan | Pri | Poukisa li fonksyone - yon ti koutje sou sa |
|---|---|---|---|
| metrik scikit-learn | Pratisyen ML yo | Gratis | Aplikasyon kanonik pou klasifikasyon, regresyon, ak klasman; fasil pou entegre nan tès yo. [2] |
| Evalyasyon MLflow / GenAI | Syantis done, MLOps | Gratis + peye | Kous santralize, metrik otomatik, jij LLM, evalyatè pèsonalize; anrejistre atifak yo pwòp. |
| Evidamman | Ekip ki vle tablodbò rapidman | OSS + nwaj | Plis pase 100 metrik, rapò sou drift ak kalite, kwòk siveyans - bèl vizyèl nan yon moman difisil. |
| Pwa ak Prejije | Òganizasyon ki gen anpil eksperyans | Nivo gratis | Konparezon kòt a kòt, ansanm done evalyasyon, jij; tablo ak tras yo byen pwòp. |
| LangSmith | Kreyatè aplikasyon LLM yo | Peye | Trase chak etap, melanje revizyon imen ak evalyatè règ oswa LLM; ekselan pou RAG. |
| TruLens | Moun ki renmen evalyasyon LLM sous ouvè | Sistèm OSS la | Fonksyon fidbak pou evalye toksisite, anrasinen, ak enpòtans; entegre nenpòt kote. |
| Gwo Espwa | Òganizasyon ki bay bon jan kalite done an premye | Sistèm OSS la | Fòmalize atant yo sou done yo - paske move done gate tout metrik de tout fason. |
| Verifikasyon Pwofon | Tès ak CI/CD pou ML | OSS + nwaj | Pil - enkli tès pou derive done, pwoblèm modèl, ak siveyans; bon baryè. |
Pri yo chanje - tcheke dokiman yo. Epi wi, ou ka melanje sa yo san lapolis zouti a pa parèt.
Seuil, depans, ak koub desizyon - sòs sekrè a 🧪
Yon bagay dwòl men vre: de modèl ki gen menm ROC-AUC a ka gen valè biznis ki trè diferan selon papòt ak rapò pri ou yo .
Fèy rapid pou konstwi:
-
Fikse pri yon fo pozitif vs yon fo negatif an lajan oswa an tan.
-
Bale papòt yo epi kalkile pri espere pou chak 1k desizyon.
-
Chwazi pri minimòm espere , epi bloke li ak siveyans.
Sèvi ak koub PR lè rezilta pozitif yo ra, koub ROC pou fòm jeneral, epi koub kalibrasyon lè desizyon yo depann sou pwobabilite yo. [2][3]
Mini-ka: yon modèl triyaj tikè sipò ak yon F1 modès men yon ekselan kalibrasyon ki diminye redireksyon manyèl yo apre operasyon yo te chanje soti nan yon papòt fiks pou ale nan yon routaj an plizyè nivo (pa egzanp, "rezolisyon otomatik", "revizyon imen", "ogmante") ki lye ak bann nòt kalibre.
siveyans sou entènèt, dérive, ak avètisman 🚨
Evalyasyon offline yo se kòmansman an, pa fen an. Nan pwodiksyon:
-
Suivi derive antre , derive sòti , ak deklinasyon pèfòmans pa segman.
-
Mete verifikasyon gadray - to maksimòm alisinasyon, papòt toksisite, delta jistis.
-
Ajoute tablodbò Canary pou latans p95, delè, ak pri pou chak demann.
-
Sèvi ak bibliyotèk ki fèt espesyalman pou akselere sa; yo ofri primitiv pou drift, kalite, ak siveyans ki pare pou itilize.
Ti metafò ki pa bon: panse a modèl ou a tankou yon ledven - ou pa jis kwit yon fwa epi ale; ou bay manje, gade, pran sant, epi pafwa rekòmanse.
Evalyasyon imen ki pa kraze 🍪
Lè moun ap evalye rezilta yo, pwosesis la pi enpòtan pase ou panse.
-
Ekri ribrik presi ak egzanp reyisi vs. sou limit vs. echwe.
-
Chwazi echantiyon o aza epi fè yo san yo pa idantifye yo lè ou kapab.
-
Mezire akò ant evalyatè yo (pa egzanp, κ Cohen an pou de evalyatè, κ Fleiss la pou plizyè) epi rafrechi ribrik yo si akò a pa mache.
Sa anpeche etikèt imen ou yo varye selon atitid ou oswa kantite kafe ou bezwen.
Analiz pwofon: kijan pou mezire pèfòmans IA pou LLM nan RAG 🧩
-
Kalite rekiperasyon - rapèl@k, presizyon@k, nDCG; pwoteksyon enfòmasyon sou lò. [2]
-
Fidelite repons - verifikasyon site epi verifye, nòt fondman, sondaj advèsè.
-
Satisfaksyon itilizatè - pous, fini travay la, distans modifikasyon an parapò ak bouyon yo sijere a.
-
Sekirite - toksisite, flit PII, konfòmite règleman.
-
Pri ak latans - jeton, aksè nan kach, latans p95 ak p99.
Mare sa yo ak aksyon biznis la: si antrav la desann anba yon sèten limit, ale otomatikman nan mòd strik oubyen fè revizyon imen.
Yon ti liv jwèt senp pou kòmanse jodi a 🪄
-
Defini travay la - ekri yon fraz: kisa IA a dwe fè e pou ki moun.
-
Chwazi 2–3 metrik travay - plis kalibrasyon ak omwen yon tranch jistis. [2][3][5]
-
Deside papòt yo lè l sèvi avèk pri a - pa devine.
-
Kreye yon ti seri evalyasyon - 100–500 egzanp make ki reflete melanj pwodiksyon an.
-
Otomatize evalyasyon ou yo - konekte evalyasyon/siveyans nan CI pou chak chanjman fè menm verifikasyon yo.
-
Siveye nan prod - derive, latans, pri, drapo ensidan.
-
Revize chak mwa - retire mezi pèsonn pa itilize yo; ajoute sa ki reponn kesyon reyèl yo.
-
Dokimante desizyon yo - yon tablodbò vivan ke ekip ou a reyèlman li.
Wi, se sa nèt. Epi li fonksyone.
Pwoblèm komen ak kijan pou evite yo 🕳️🐇
-
Twòp ajisteman pou yon sèl metrik - sèvi ak yon panyen metrik ki koresponn ak kontèks desizyon an. [1][2]
-
Inyore kalibrasyon an - konfyans san kalibrasyon se jis awogans. [3]
-
Pa gen segmentasyon - toujou divize pa gwoup itilizatè, jewografi, aparèy, lang. [5]
-
Pri ki pa defini - si ou pa mete pri sou erè yo, ou pral chwazi move papòt la.
-
Devyasyon nan evalyasyon imen - mezire akò, rafrechi ribrik yo, fòme evalyatè yo ankò.
-
Pa gen enstriman sekirite - ajoute jistis, toksisite, ak verifikasyon politik kounye a, pa pita. [1][5]
Fraz ou te vin chèche a: kijan pou mezire pèfòmans IA - Twò lontan, mwen pa t li l 🧾
-
Kòmanse avèk rezilta klè , answit anpile travay , sistèm , ak biznis yo . [1]
-
Sèvi ak bon metrik yo pou travay la - F1 ak ROC-AUC pou klasifikasyon; nDCG/MRR pou klasman; metrik sipèpoze + semantik pou jenerasyon (an pè ak moun). [2][4]
-
Kalibre pwobabilite ou yo epi evalye erè ou yo pou chwazi papòt. [2][3]
-
Ajoute jistis ak tranch gwoup epi jere konpwomi yo eksplisitman. [5]
-
Otomatize evalyasyon ak siveyans pou ou ka repete san pè.
Ou konnen kijan sa ye - mezire sa ki enpòtan, osinon w ap amelyore sa ki pa enpòtan.
Referans
[1] NIST. Kad Jesyon Risk IA (IA RMF). li plis
[2] scikit-learn. Evalyasyon modèl: quantifier kalite prediksyon yo (Gid Itilizatè). li plis
[3] scikit-learn. Kalibrasyon pwobabilite (koub kalibrasyon, nòt Brier). li plis
[4] Papineni et al. (2002). BLEU: yon Metòd pou Evalyasyon Otomatik Tradiksyon Otomatik. ACL. li plis
[5] Hardt, Price, Srebro (2016). Egalite Opòtinite nan Aprantisaj Sipèvize. NeurIPS. li plis