Pag-aaral Ibinunyag: Tinutulungan umano ng LM Arena ang Malalaking AI Lab na Mandaya sa Benchmark Rankings
LM Arena Pinaboran umano ang Malalaking Kumpanya
Isang bagong pag-aaral mula sa AI lab na Cohere, Stanford, MIT, at Ai2 ang nagsiwalat na ang LM Arena — ang organisasyong nasa likod ng sikat na crowdsourced AI benchmark na Chatbot Arena — ay umano’y tumutulong sa piling AI companies gaya ng Meta, OpenAI, Google, at Amazon upang makakuha ng mas mataas na marka sa leaderboard, sa kapinsalaan ng ibang kalahok.
Ayon sa mga mananaliksik, pinayagan ng LM Arena ang mga kumpanyang ito na magsagawa ng pribadong pagsusuri sa maraming bersyon ng kanilang AI models at hindi inilalabas ang mga resultang mababa ang marka. Dahil dito, mas madali para sa kanila na maabot ang top spot sa leaderboard ng Chatbot Arena — isang pribilehiyong hindi ibinigay sa lahat.
Kaunti lang sa [mga kumpanya] ang sinabihang puwedeng magsagawa ng pribadong testing, at ang dami ng test na nakuha ng ilan ay sobrang layo kumpara sa iba.
— Sara Hooker, VP ng AI Research, Cohere
Paano Gumana ang Manipulasyon?
Itinatag noong 2023 sa UC Berkeley bilang proyektong pang-akademiko, ang Chatbot Arena ay naging pangunahing benchmark ng AI performance. Gumagana ito sa pamamagitan ng pagtapat ng sagot ng dalawang AI model, at pinapapili ang user kung alin ang mas mahusay.
Ngunit ayon sa papel, pinayagan ang mga malalaking kumpanya na mag-test ng maraming bersyon nang pribado, at pumili ng pinakamagaling para ilantad sa publiko. Halimbawa, ang Meta ay umano’y nakapagsagawa ng 27 test runs para sa Llama 4 mula Enero hanggang Marso — ngunit isang model lang ang inilabas, na nag-top sa leaderboard.
Depensa mula sa LM Arena
Mariing itinanggi ng LM Arena ang mga alegasyon. Ayon kay Ion Stoica, co-founder ng LM Arena at propesor sa UC Berkeley:
Puno ng kamalian at kaduda-dudang pagsusuri ang papel.
— Ion Stoica, LM Arena
Dagdag ng LM Arena:
Kami ay nananatiling tapat sa patas, community-driven na pagsusuri. Bukas ang Arena sa lahat ng gustong magsumite ng modelo at pagbutihin ang performance.
Mga Mungkahi para sa Mas Pantay na Benchmarking
Ayon sa pag-aaral, maaaring:
- Limitahan at gawing transparent ang dami ng pribadong pagsusuri bawat kumpanya;
- Ilabas ang scores kahit para sa unreleased models;
- Pantayin ang exposure ng bawat modelo sa laban upang walang nakaka-ungos sa data collection.
Sinabi ng LM Arena sa post sa X na hindi raw makatwiran ang hiling na ipakita ang scores ng hindi pa inilalabas na models, dahil hindi ito puwedeng masuri ng community.
Mas Malalim na Tanong: Mapagkakatiwalaan ba ang Benchmarks?
Lumabas ang pag-aaral ilang linggo matapos akusahan ang Meta ng manipulasyon gamit ang isang “conversational” optimized na bersyon ng Llama 4 — na hindi naman inilabas. Nang lumabas ang tunay na bersyon, mas mababa ang performance nito.
Sa ngayon, nag-aanunsyo ang LM Arena ng plano nitong maging kumpanya at tumanggap ng investment. Ngunit sa gitna ng mga akusasyon, lalong tumitindi ang panawagan sa transparency at accountability ng mga benchmark platform.
0 Mga Komento