Repons kout: Defini sa "bon" vle di pou ka itilizasyon w lan, apresa teste l avèk envit reprezantatif, vèsyone ak ka limit. Konbine metrik otomatik yo ak evalyasyon ribrik imen, ansanm ak sekirite advèsè ak verifikasyon enjeksyon envit. Si kontrent pri oswa latans vin obligatwa, konpare modèl yo pa siksè travay pou chak liv depanse ak tan repons p95/p99.
Pwen enpòtan yo:
Responsablite : Bay pwopriyetè klè, kenbe jounal vèsyon yo, epi refè evalyasyon yo apre nenpòt chanjman nan envit oswa modèl.
Transparans : Ekri kritè siksè, kontrent, ak depans echèk anvan ou kòmanse kolekte nòt yo.
Oditabilite : Kenbe seri tès repetitif, ansanm done ki make, ak metrik latans p95/p99 ki swiv.
Kontestablisite : Sèvi ak ribrik revizyon imen ak yon chemen apèl defini pou rezilta ki an kontestasyon.
Rezistans kont move itilizasyon : Enjeksyon rapid ekip wouj la, sijè sansib, ak twòp refi pou pwoteje itilizatè yo.
Si w ap chwazi yon modèl pou yon pwodwi, yon pwojè rechèch, oswa menm yon zouti entèn, ou pa ka annik di "li sanble entelijan" epi voye l (gade gid evalyasyon OpenAI ak NIST AI RMF 1.0 ). Se konsa ou rive gen yon chatbot ki eksplike avèk konfyans kijan pou chofe yon fouchèt nan mikwo ond. 😬

Atik ou ta ka renmen li apre sa a:
🔗 Lavni IA a: tandans k ap fòme pwochen deseni an
Inovasyon kle, enpak sou travay, ak etik pou nou veye pi devan.
🔗 Eksplikasyon sou modèl fondasyon nan IA jeneratif pou débutan
Aprann kisa yo ye, kijan yo antrene, e poukisa yo enpòtan.
🔗 Kijan IA afekte anviwònman an ak itilizasyon enèji
Eksplore emisyon yo, demann elektrisite a, ak fason pou diminye anprint lan.
🔗 Kijan amelyorasyon IA a fonksyone pou imaj ki pi byen defini jodi a
Gade kijan modèl yo ajoute detay, retire bri, epi agrandi pwòp.
1) Defini "bon" (sa depann, e sa pa gen pwoblèm) 🎯
Anvan ou fè nenpòt evalyasyon, deside ki jan siksè ye. Sinon, ou pral mezire tout bagay epi ou pa pral aprann anyen. Se tankou pote yon mezi tep pou jije yon konkou gato. Se vre, ou pral jwenn chif, men yo pa pral di ou anpil bagay 😅
Klarifye:
-
Objektif itilizatè : rezime, rechèch, ekriti, rezonman, ekstraksyon enfòmasyon
-
Pri echèk : yon move rekòmandasyon fim komik; yon move enstriksyon medikal... pa komik (ankadreman risk: NIST AI RMF 1.0 ).
-
Anviwònman ekzekisyon : sou aparèy la, nan nwaj la, dèyè yon pare-feu, nan yon anviwònman reglemante
-
Kontrent prensipal yo : latans, pri pou chak demann, vi prive, eksplikasyon, sipò miltileng, kontwòl ton
Yon modèl ki "meyè" nan yon travay kapab yon dezas nan yon lòt. Sa pa yon kontradiksyon, se reyalite. 🙂
2) Ki jan yon kad evalyasyon modèl IA solid sanble 🧰
Wi, se pati sa a moun yo sote. Yo pran yon tès depistaj, yo fè l yon fwa, epi yo fini ak sa. Yon kad evalyasyon solid gen kèk karakteristik ki konsistan (egzanp zouti pratik: OpenAI Evals / Gid evalyasyon OpenAI ):
-
Repetib - ou ka fè l ankò semèn pwochèn epi fè konparezon yo konfyans
-
Reprezantatif - li reflete itilizatè ak travay reyèl ou yo (pa sèlman enfòmasyon detaye)
-
Plizyè kouch - konbine metrik otomatik + revizyon imen + tès advèsè
-
Aksyonab - rezilta yo di ou sa pou ou ranje, pa sèlman "nòt la te desann"
-
Rezistan a manipilasyon - evite "ansèyman pou tès la" oswa flit aksidantèl
-
Konsyan de pri - evalyasyon an li menm pa ta dwe fè w fayit (sof si w renmen doulè)
Si evalyasyon w lan pa ka siviv yon koekipye ki gen dout k ap di "Oke, men mete sa nan pwodiksyon," lè sa a li poko fini. Se sa k ap pase ak tès la.
3) Kijan pou evalye modèl IA yo lè w kòmanse avèk tranch ka itilizasyon yo 🍰
Men yon ti teknik ki ka fè w ekonomize anpil tan: divize ka itilizasyon an an tranch .
Olye pou w di “evalye modèl la,” fè:
-
Konpreyansyon entansyon (èske li jwenn sa itilizatè a vle)
-
Rekiperasyon oswa itilizasyon kontèks (èske li itilize enfòmasyon yo bay la kòrèkteman)
-
Rezonman / travay plizyè etap (èske li rete koyeran nan tout etap yo)
-
Fòma ak estrikti (èske li swiv enstriksyon yo)
-
Sekirite ak aliyman règleman (èske li evite kontni ki pa an sekirite; gade NIST AI RMF 1.0 )
-
Ton ak vwa mak la (èske li sonnen jan ou vle l sonnen an)
Sa fè "Kijan pou evalye modèl IA" a sanble mwens ak yon gwo egzamen epi plis ak yon seri egzamen espesifik. Egzamen yo anmèdan, men yo ka jere. 😄
4) Prensip debaz evalyasyon offline - seri tès, etikèt, ak detay ki pa atiran ki enpòtan yo 📦
Evalyasyon offline se kote ou fè tès kontwole anvan itilizatè yo touche anyen (modèl workflow: OpenAI Evals ).
Bati oswa kolekte yon seri tès ki vrèman pou ou
Yon bon seri tès anjeneral gen ladan l:
-
Egzanp an lò : rezilta ideyal ou ta fyè pou voye yo
-
Ka ekstrèm : envit anbigi, antre dezòd, fòma inatandi
-
Sond mòd echèk : envitasyon ki tante alisinasyon oswa repons ki pa an sekirite (kad tès risk: NIST AI RMF 1.0 )
-
Pwoteksyon divèsite : diferan nivo konpetans itilizatè, dyalèk, lang, domèn
Si ou sèlman teste sou envit "pwòp", modèl la ap parèt enkwayab. Lè sa a, itilizatè ou yo ap parèt ak fot nan ekriti, mwatye fraz, ak enèji klike anraje. Byenveni nan reyalite.
Chwa etikèt (sa vle di: nivo strikte)
Ou ka make rezilta yo kòm:
-
Binè : pase/echwe (rapid, difisil)
-
Ordinal : Nòt kalite 1-5 (nyans, sibjektif)
-
Plizyè atribi : presizyon, konplè, ton, itilizasyon sitasyon, elatriye (meyè, pi dousman)
Plizyè atribi se pwen ideyal pou anpil ekip. Se tankou goute manje epi jije sale a separeman de teksti li. Sinon, ou jis di "bon" epi leve zepòl ou.
5) Metrik ki pa bay manti - ak metrik ki yon jan kanmenm bay manti 📊😅
Metrik yo gen anpil valè... men yo kapab tou yon bonm briye. Yo klere, toupatou, epi yo difisil pou netwaye.
Fanmi metrik komen yo
-
Presizyon / matche egzak : ekselan pou ekstraksyon, klasifikasyon, travay estriktire
-
F1 / presizyon / rapèl : itil lè rate yon bagay pi mal pase bri anplis (definisyon: scikit-learn presizyon/rapèl/F-score )
-
Sipèpoze stil BLEU/ROUGE : oke pou travay rezime, souvan twonpe (metrik orijinal yo: BLEU ak ROUGE )
-
Entegrasyon similarite : itil pou matche semantik, ka rekonpanse repons ki pa kòrèk men ki sanble
-
Pousantaj siksè travay la : "èske itilizatè a te jwenn sa li te bezwen an?", estanda lò a lè yo byen defini.
-
Konfòmite kontrent : swiv fòma, longè, validite JSON, respè pou chema
Pwen kle a
Si travay ou a pa gen limit (ekri, rezone, chat sipò), mezi ki baze sou yon sèl chif yo ka... enstab. Yo pa san sans, yo jis enstab. Li posib pou mezire kreyativite ak yon règ, men ou pral santi w komik lè w ap fè sa. (Epitou, ou pral pwobableman pete je w.)
Kidonk: sèvi ak metrik, men ankre yo nan revizyon moun ak rezilta travay reyèl (yon egzanp diskisyon evalyasyon ki baze sou LLM + avètisman: G-Eval ).
6) Tablo Konparezon an - pi bon opsyon evalyasyon yo (avèk ti detay, paske lavi gen ti detay) 🧾✨
Men yon meni pratik pou apwòch evalyasyon yo. Melanje epi konbine. Pifò ekip fè sa.
| Zouti / Metòd | Odyans | Pri | Poukisa li fonksyone |
|---|---|---|---|
| Yon seri tès rapid ki fèt alamen | Pwodwi + ang | $ | Trè siblé, li detekte regresyon byen vit - men ou dwe kenbe l pou tout tan 🙃 (zouti pou débutan: OpenAI Evals ) |
| Panel evalyasyon ribrik imen | Ekip ki ka ekonomize evalyatè yo | $$ | Pi bon pou ton, nuans, "èske yon moun ta aksepte sa", yon ti dezòd depann sou moun k ap fè revizyon yo |
| LLM-kòm-jij (ak ribrik) | Bouk iterasyon rapid | $-$$ | Rapid e évolutif, men li ka eritye patipri epi pafwa li ka evalye atitid yo, pa reyalite yo (rechèch + pwoblèm patipri li te ye: G-Eval ) |
| Sprint ekip wouj advèsè | Sekirite + konfòmite | $$ | Jwenn mòd echèk pikant, espesyalman enjeksyon rapid - santi l tankou yon tès estrès nan jimnastik la (apèsi sou menas: OWASP LLM01 Enjeksyon Rapid / OWASP Top 10 pou Aplikasyon LLM ) |
| Jenerasyon tès sentetik | Ekip ki pa itilize anpil done | $ | Bon jan pwoteksyon, men enstriksyon sentetik yo ka twò pwòp, twò politès... itilizatè yo pa politès |
| Tès A/B ak itilizatè reyèl | Pwodwi ki gen matirite | $$$ | Siyal ki pi klè a - epi tou siyal ki pi estrèsan emosyonèlman lè metrik yo chanje (gid pratik klasik: Kohavi et al., "Eksperyans kontwole sou entènèt la" ) |
| Evalyasyon ki baze sou rekiperasyon (verifikasyon RAG) | Aplikasyon rechèch + kontwòl kalite | $$ | Mezi "itilize kontèks la kòrèkteman," diminye enflasyon nòt alisinasyon (Apèsi sou evalyasyon RAG: Evalyasyon RAG: Yon Sondaj ) |
| Siveyans + deteksyon derive | Sistèm pwodiksyon yo | $$-$$$ | Li kenbe degradasyon sou tan - san okenn cham jiskaske jou li sove w la 😬 (apèsi sou derive: Sondaj sou derive konsèp la (PMC) ) |
Remake pri yo ba espre. Yo depann de gwosè a, zouti yo, ak konbyen reyinyon ou kreye pa aksidan.
7) Evalyasyon imen - zam sekrè ki fè moun pa gen ase finansman 👀🧑⚖️
Si ou sèlman fè evalyasyon otomatik, ou p ap jwenn:
-
Ton ki pa matche ("poukisa li tèlman sarkastik")
-
Erè sibtil sou enfòmasyon ki sanble klè
-
Enplikasyon danjere, estereyotip, oswa fraz ki dwòl (ankadreman risk + prejije: NIST AI RMF 1.0 )
-
Erè swivi enstriksyon ki toujou sonnen "entelijan"
Fè ribrik yo konkrè (oswa evalyatè yo pral fè yo lib)
Move ribrik: "Itil"
Pi bon ribrik:
-
Koreksyon : egzat sou plan reyalite a lè w konsidere envit la + kontèks la
-
Konplete : kouvri pwen nesesè yo san divage
-
Klète : lizib, estriktire, konfizyon minimòm
-
Règleman / sekirite : evite kontni ki gen restriksyon, jere refi byen (kad sekirite: NIST AI RMF 1.0 )
-
Stil : koresponn ak vwa, ton, ak nivo lekti
-
Fidelite : pa envante sous oswa deklarasyon ki pa sipòte.
Epitou, fè verifikasyon ant evalyatè yo pafwa. Si de evalyatè pa dakò tout tan, se pa yon "pwoblèm moun," se yon pwoblèm ribrik. Anjeneral (prensip debaz fyab ant evalyatè yo: McHugh sou kappa Cohen an ).
8) Kijan pou evalye modèl IA yo pou sekirite, robustès, ak "augh, itilizatè yo" 🧯🧪
Sa a se pati ou fè anvan lansman an - epi ou kontinye fè l, paske entènèt la pa janm dòmi.
Tès robustès pou enkli
-
Erè dactilografik, jagon, gramè ki pa kòrèk
-
Enstriksyon ki long anpil ak enstriksyon ki kout anpil
-
Enstriksyon ki kontradiktwa ("fè kout men mete tout detay yo")
-
Konvèsasyon plizyè tou kote itilizatè yo chanje objektif
-
Tantativ enjeksyon rapid ("inyore règ anvan yo...") (detay menas: OWASP LLM01 Enjeksyon Rapid )
-
Sijè sansib ki mande pou refi avèk prekosyon (kad risk/sekirite: NIST AI RMF 1.0 )
Evalyasyon sekirite a pa sèlman "èske li refize"
Yon bon modèl ta dwe:
-
Refize demann ki pa an sekirite yo yon fason klè e kalm (konsèy: NIST AI RMF 1.0 )
-
Bay altènativ ki pi an sekirite lè sa apwopriye
-
Evite refize twòp demann ki pa danjere (fo pozitif)
-
Jere demann anbigi ak kesyon klarifikasyon (lè yo pèmèt)
Refize twòp se yon pwoblèm pwodwi reyèl. Itilizatè yo pa renmen lè yo trete yo tankou goblin sispèk. 🧌 (Menm si yo se goblin sispèk.)
9) Pri, latans, ak reyalite operasyonèl - evalyasyon tout moun bliye a 💸⏱️
Yon modèl ka "etonan" epi li ka toujou pa bon pou ou si li ralanti, chè, oswa frajil nan domèn operasyon an.
Evalye:
-
Distribisyon latans (pa sèlman mwayèn - p95 ak p99 enpòtan) (poukisa persentil yo enpòtan: Google SRE Workbook sou siveyans )
-
Pri pou chak travay ki reyisi (pa pri pou chak jeton apa)
-
Estabilite anba chaj (delè, limit vitès, pik anomali)
-
Fyab nan apèl zouti a (si li itilize fonksyon, èske li konpòte li byen)
-
Tandans longè pwodiksyon an (gen kèk modèl ki divage, epi divage koute lajan)
Yon modèl ki yon ti jan pi mal ki de fwa pi rapid ka genyen nan pratik. Sa sanble evidan, men moun inyore li. Tankou achte yon machin espò pou fè makèt, epi plenyen pou espas nan kòf la.
10) Yon senp pwosesis travay konplè ou ka kopye (epi modifye) 🔁✅
Men yon gid pratik pou kijan pou evalye modèl IA san ou pa bloke nan eksperyans san fen:
-
Defini siksè : travay, kontrent, pri echèk
-
Kreye yon ti seri tès "debaz" : 50-200 egzanp ki reflete itilizasyon reyèl la
-
Ajoute ansanm kwen ak advèsè : tantativ enjeksyon, envitasyon anbigi, sond sekirite (klas enjeksyon rapid: OWASP LLM01 )
-
Fè verifikasyon otomatik : fòma, validite JSON, koreksyon debaz kote sa posib.
-
Fè revizyon imen : echantiyon rezilta atravè kategori yo, bay nòt ak ribrik la
-
Konpare konpwomi yo : kalite vs pri vs latans vs sekirite
-
Pilòt nan yon vèsyon limite : tès A/B oubyen deplwaman etap pa etap (Gid tès A/B: Kohavi et al. )
-
Siveyans nan pwodiksyon : derive, regresyon, bouk fidbak itilizatè (apèsi sou derive: Sondaj sou derive konsèp (PMC) )
-
Iterasyon : mete ajou envit yo, rekipere, ajisteman presi, baryè, apresa re-egzekite evalyasyon an (modèl iterasyon evalyasyon: gid evalyasyon OpenAI )
Kenbe jounal vèsyon yo. Se pa paske se plezi, men paske nan lavni-ou pral remèsye w pandan w ap kenbe yon kafe epi w ap murmure "sa ki chanje..." ☕🙂
11) Pyèj komen (oswa: fason moun twonpe tèt yo san yo pa fè espre) 🪤
-
Fòmasyon pou tès la : ou optimize envit yo jiskaske referans lan parèt byen, men itilizatè yo soufri.
-
Done evalyasyon ki koule : envit tès yo parèt nan done antrènman oswa ajisteman presi (oups)
-
Adorasyon yon sèl metrik : kouri dèyè yon sèl nòt ki pa reflete valè itilizatè a
-
Inyore chanjman distribisyon an : konpòtman itilizatè a chanje epi modèl ou a degrade tou dousman (ankadreman risk pwodiksyon: Sondaj sou drift konsèp (PMC) )
-
Twòp endèksasyon sou "entelijans" : rezònman entelijan pa enpòtan si li kraze fòma oswa envante reyalite.
-
Pa teste kalite refi a : "Non" ka kòrèk men li toujou terib nan eksperyans itilizatè a.
Epitou, fè atansyon ak demonstrasyon yo. Demonstrasyon yo tankou trelè fim. Yo montre pi bon moman yo, kache pati ki ralanti yo, epi pafwa yo bay manti ak mizik dramatik. 🎬
12) Rezime final sou kijan pou evalye modèl IA yo 🧠✨
Evalye modèl IA yo se pa yon sèl nòt, se yon repa ekilibre. Ou bezwen pwoteyin (koreksyon), legim (sekirite), idrat kabòn (vitès ak pri), epi wi, pafwa desè (ton ak plezi) 🍲🍰 (kad risk: NIST AI RMF 1.0 )
Si ou pa sonje anyen lòt:
-
Defini sa "bon" vle di pou ka itilizasyon ou an
-
Sèvi ak seri tès reprezantatif, pa sèlman referans pi popilè yo
-
Konbine metrik otomatik yo ak revizyon rubrik imen an
-
Teste robustès ak sekirite tankou itilizatè yo se advèsè (paske pafwa... yo ye) (klas enjeksyon rapid: OWASP LLM01 )
-
Mete pri ak latans nan evalyasyon an, pa kòm yon refleksyon apre (poukisa pousantaj yo enpòtan: Google SRE Workbook )
-
Siveye apre lansman - modèl yo ap derive, aplikasyon yo ap evolye, moun yo vin kreyatif (apèsi sou derive: Sondaj sou derive konsèp la (PMC) )
Men kijan pou evalye modèl IA yo yon fason ki ka kenbe lè pwodwi ou a disponib epi moun kòmanse fè bagay enprevizib. Sa toujou rive. 🙂
FAQ
Ki premye etap la nan fason pou evalye modèl IA pou yon pwodwi reyèl?
Kòmanse pa defini sa "bon" vle di pou ka itilizasyon espesifik ou a. Dekri objektif itilizatè a, ki sa echèk koute ou (enpòtans ki ba vs enpòtans), epi ki kote modèl la pral fonksyone (nan nwaj la, sou aparèy la, nan anviwònman reglemante). Apre sa, lis kontrent difisil tankou latans, pri, vi prive, ak kontwòl ton. San fondasyon sa a, ou pral mezire anpil bagay epi toujou pran yon move desizyon.
Kouman mwen ka bati yon seri tès ki vrèman reflete itilizatè mwen yo?
Kreye yon seri tès ki vrèman pou ou, pa sèlman yon referans piblik. Mete ladan l egzanp enpòtan ou ta fyè pou nou voye, plis enstriksyon ki fè bwi, ki pa nòmal ak fot dactilografik, demi-fraz, ak demann anbigi. Ajoute ka ekstrèm ak sondaj mòd echèk ki tante alisinasyon oswa repons ki pa an sekirite. Kouvri divèsite nan nivo konpetans, dyalèk, lang, ak domèn pou rezilta yo pa tonbe nan pwodiksyon.
Ki metrik mwen ta dwe itilize, e kilès ki ka twonpe moun?
Fè metrik yo mache ak kalite travay la. Korespondans egzak ak presizyon mache byen pou ekstraksyon ak rezilta estriktire, alòske presizyon/rapèl ak F1 ede lè yon bagay manke pi mal pase bri anplis. Metrik ki sipèpoze tankou BLEU/ROUGE ka twonpe pou travay ouvè, epi entegre resanblans ka rekonpanse repons "ki pa kòrèk men ki sanble". Pou ekri, sipò, oswa rezonman, konbine metrik yo ak revizyon imen ak pousantaj siksè travay yo.
Kijan mwen ta dwe estriktire evalyasyon yo pou yo ka repete epi pou yo ka nan nivo pwodiksyon?
Yon kad evalyasyon solid se yon bagay ki ka repete, reprezantatif, ki gen plizyè kouch, epi ki ka pran aksyon. Konbine verifikasyon otomatik (fòma, validite JSON, koreksyon debaz) avèk evalyasyon ribrik imen ak tès advèsè. Fè li reziste kont manipilasyon lè w evite flit epi "anseye pou tès la". Kenbe evalyasyon an okouran de pri pou ou ka refè li souvan, pa sèlman yon fwa anvan lansman.
Ki pi bon fason pou fè evalyasyon imen san li pa tounen dezòd?
Sèvi ak yon ribrik konkrè pou evalyatè yo pa fè stil lib. Bay nòt pou atribi tankou koreksyon, konplè, klè, jesyon sekirite/règleman, stil/koresponn ak vwa, ak fidelite (pa envante deklarasyon oswa sous). Tcheke akò ant evalyatè yo detanzantan; si evalyatè yo pa dakò tout tan, ribrik la pwobableman bezwen amelyorasyon. Revizyon imen an patikilyèman enpòtan pou diferans ton, erè sibtil nan enfòmasyon, ak echèk nan swiv enstriksyon.
Kouman mwen ka evalye sekirite, robustès, ak risk enjeksyon rapid?
Fè tès la avèk antre ki di "augh, itilizatè yo": erè nan ekriti, jagon, enstriksyon ki kontradiktwa, envit ki long oswa ki kout anpil, ak chanjman objektif ki mande plizyè tou. Mete ladan yo tantativ enjeksyon rapid tankou "inyore règ anvan yo" ak sijè sansib ki mande refi avèk prekosyon. Bon pèfòmans sekirite pa sèlman refize - se refize klèman, ofri altènativ ki pi an sekirite lè sa apwopriye, epi evite refize twòp demann ki pa danjere epi ki fè eksperyans itilizatè a mal.
Kouman mwen ka evalye pri ak latans nan yon fason ki koresponn ak reyalite a?
Pa sèlman mezire mwayèn - swiv distribisyon latans lan, espesyalman p95 ak p99. Evalye pri pou chak travay ki reyisi, pa pri pou chak jeton apa, paske re-esè ak rezilta ki divage ka efase ekonomi yo. Teste estabilite anba chaj (delè, limit vitès, pik) ak fyab apèl zouti/fonksyon. Yon modèl ki yon ti jan pi mal ki de fwa pi rapid oswa ki pi estab kapab yon pi bon chwa pwodwi.
Ki sa ki se yon senp pwosesis travay konplè pou evalye modèl IA?
Defini kritè ak kontrent siksè yo, answit kreye yon ti seri tès debaz (apeprè 50-200 egzanp) ki reflete itilizasyon reyèl la. Ajoute seri tès limit ak tès advèsè pou sekirite ak tantativ enjeksyon. Fè verifikasyon otomatik, answit echantiyone rezilta yo pou evalyasyon ribrik imen an. Konpare kalite vs pri vs latans vs sekirite, teste ak yon deplwaman limite oswa tès A/B, epi kontwole nan pwodiksyon pou derive ak regresyon.
Ki fason ki pi komen ekip yo twonpe tèt yo aksidantèlman nan evalyasyon modèl?
Pyèj komen yo enkli optimize envit pou reyisi nan yon kritè pandan itilizatè yo ap soufri, flit envit evalyasyon nan fòmasyon oswa ajisteman done, epi adore yon sèl metrik ki pa reflete valè itilizatè a. Ekip yo inyore tou chanjman distribisyon, twòp endèks sou "entelijans" olye de konfòmite fòma ak fidelite, epi sote tès kalite refi. Demo yo ka kache pwoblèm sa yo, kidonk konte sou evalyasyon estriktire, pa mete aksan sou bobin yo.
Referans
-
OpenAI - Gid evalyasyon OpenAI - platform.openai.com
-
Enstiti Nasyonal pou Nòm ak Teknoloji (NIST) - Kad Jesyon Risk IA (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (repozitwa GitHub) - github.com
-
scikit-learn - precision_recall_fscore_support - scikit-learn.org
-
Asosyasyon pou Lengwistik Enfòmatik (Antoloji ACL) - BLEU - aclanthology.org
-
Asosyasyon pou Lengwistik Enfòmatik (Antoloji ACL) - ROUGE - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: Enjeksyon rapid - owasp.org
-
OWASP - OWASP Top 10 pou Aplikasyon Modèl Langaj Gwo - owasp.org
-
Inivèsite Stanford - Kohavi et al., “Eksperyans kontwole sou entènèt la” - stanford.edu
-
arXiv - Evalyasyon RAG: Yon Sondaj - arxiv.org
-
PubMed Central (PMC) - Sondaj sou drift konsèp (PMC) - nih.gov
-
PubMed Central (PMC) - McHugh sou kappa Cohen an - nih.gov
-
Google - Liv travay SRE sou siveyans - google.workbook