HiTZ zentroak Latxa hobetu dau

Bizkaie! 2024-04-30 08:20   Euskerea berbagai

Euskerearentzako hizkuntza eredu handiena.

UPV/EHUko HiTZ Hizkuntza Teknologiako Zentroak landutako Latxa euskearentzako hizkuntza ereduen familia bat da eta lizentzia libreko testuen corpus handienagaz (aurrekoen bikotxa da) eta hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait probagaz banatzen da. Latxak orain zenbait urte abiarazotako jatorrizko ChatGPT bersinoa (GPT 3.5) gainditzen dau, eta baliabide digital urriko hizkuntza baten eredu edegi batentzako lehenengo aldiz, azken bersinoa (GPT-4) gainditzen dau hizkuntza gaitasunean. ChatGPT atara zanean pentsauezina zan ha gaindituko eban euskerazko eredu edegia lortu eitekeanik, azpimarratu dau HiTZ zentroko zuzendari Eneko Agirrek. Latxak herrialdeko edozein hizkuntzatarako entrenautako eredu handiena hartzen dau, eta HiTZ ikerguneak neurri handiko hizkuntza ereduetan lidergoa sendotzen dau.

Hizkuntza eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabilten dituana, datu multzo masiboetatik sortutako ezagutzan oinarrituta. Euskereak be badau bere hizkuntza eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloe parametro arteko ereduak batzen ditu. Gaur egungo LLMek errendimendu harrigarria dabe baliabide ugariko hizkuntzetan, adibidez ingeleserako ChatGPT edo gaztelaniarako Geminik
dituenak. Euskerea eta baliabide urriko beste hizkuntzen kasuan, ostera, hareen errendimendua askoz bajuagoa da. Horrek handitu egiten dau baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa, tresna digitalei jagokeonez behinik behin.

UPV/EHUko HiTZ Hizkuntza Teknologiako Zentroak Latxa jorratu dau, muga horreek gainditzeko eta euskerazko ikerketa, barrikuntza eta produktuen lanketea sustatzeko. Latxaren bersino barria euskerazko corpus publiko handienaren gainean entrenau da eta corpus hori ereduakaz batera banatzen da. Corpus horrek zabaldu egiten dau aurretik dagoan eta gehien bat Interneteko eduki publikoagaz sortutako corpusak darabizan EusCrawl.

Danetara, 4 miloe dokumentu baino gehiago dira eta 1.200 miloe hitz edo berba, aurretik egozan corpusak baino bi aldiz handiagoa. Ereduen kalidadea ebaluetako, hizkuntza gaitasunari, irakurmenari, kultura orokorrari eta azterketa profesionalei buruzko zenbait proba osotu dira. HiTZ zentroko zuzendari Eneko Agirrek honako hau adierazo dau: ingeleseko Llama ereduak probau ditugu, bai eta GPT-3.5 Turbo (2022ko zemendian abiarazotako ChatGPTren baliokidea) eta GPT-4 Turbo (OpenAI dauen eredu onena) be, eta
argi ikusten da Latxaren eredu onenak gainditu egiten dituala Llamak eta GPT-3.5 Turbo, proba kasu guztietan. Eredu onenak gainditu egiten dau GPT-4 Turbo hizkuntza gaitasunari jagokenez, lehenengo aldiz baliabide digital urriko hizkuntzen eredu edegi batentzat, baina ez gainerako saiakuntza-bankuetan. Azkenik, azpimarratu behar da Latxa handitzen dagoan neurrian, emoitzak be hobeak dirala.

Julen Etxanizek, Naiara Pérezegaz eta Oscar Sainzegaz batera Latxaren egile nagusiak, honako hau dino: nabarmena da hain corpus txikiagaz holako emoitza onak lortzea, izan be, horrek aukerea emoten deusku teknologia barriak ikertu ahala hobekuntza gehiago egin ahal izateko. Oso emoitza esperantzagarria da, euskerearentzat ez eze, baita baliabide digital urriko gainerako hizkuntzentzat be. Naiara Pérezek hau gaineratu dau: euskerea munduko hizkuntzen 50. postuan dago. Interneten dagozan testuen arabera, eta badira dozenaka hizkuntza testuen antzeko kopuruak dituenak; beraz, euskereari aplikautako teknikak beste hizkuntza horreei be apliketako aukerea dago eta emoitzak antzekoak izango dirala pentsau.

Oscar Sainzek ondokoa azpimarratu dau: GPT-4 Turbo gainditu da hizkuntza gaitasunari jagokonez baina ez gainerako probetan; eta horrek esan nahi dau hizkuntza jakin bateko neurri handiko hizkuntza ereduen gaitasunak ez dituela hareen hizkuntza gaitasunak mugatzen. Horrek baliabide digital urriko hizkuntzen (besteak beste, euskerea) emoitzak hobetzeko aukerea emoten dau, ingelesarentzat eredu edegi hobeak lantzen diran neurrian. Arlo horretako lehia gero eta handiagoa danez, nahikoa litzateke Llama baino eredu edegi hobeen zain egotea eta orduan GPT-4 gaindituko leuken Latxa entrenau ahal izango geunke.

Latxa ereduak oinarrizko ereduak dira, erabiltzaileentzako jarraibideak edo lehentasunak doitu bakoak: beraz, eredu horreek ez dira publiko orokorrak zuzenean erabiltzeko modukoak. Halan da be, Latxa ereduak oinarrizkoak dira euskerearentzako hizkuntza teknologia erabiliko daben tresna eredugarriak eregiteko: eredu edegi horreek argitaratu ditugu teknikari adituek erabili deiezan produktuak egiteko edo interesetan jakezan aplikazinoetara doitzeko. Aldi berean, erabiltzaileen jarraibideei eusteko kapaz diran ereduak lantzen gabiz baina oraindino ez dago argi euskeraz gaztelaniaren edo ingelesaren antzeko kalidadea izango daben alkarrizketa ereduak eregi daitekezan ala ez. Horixe da, hain zuzen be, gure ikerketen helburua azaldu dau Eneko Agirrek.

Berrikusten dabizen zientzia artikulua, ereduak, corpusak eta saiakuntza-bankua eskuratu hemen.

Erantzun

Erantzuteko, izena emanda egon behar duzu. Sartu komunitatera!

»» Alta eman edo pasahitza berreskuratu