Language, Speech and Multimedia Technologies Observatory

http://andonisagarna.blogspot.com/2015/03/bbck-bilbon-probatu-zituen-itzulpen.html
03/26/2015 - 13:03

Iturria: BBC

BBCko kazetari batek itzulpen-aplikazio batzuk hartu eta Bilbora jo zuen haiek probatzera.

Probak era honetakoak izan ziren:

  • Guggenheim museora joan eta jakitea zein den asegururik altuena duen artelana
  • Moiuako metro geltokian norbaiti galdetzea zein den biderik egokiena Plaza Barrira joateko
  • Plaza Barrian bere lehen musuaren istorioa kontatuko zion norbait bilatzea
  • Gili-Gili arropa-denda bilatu eta barruko norbaiti eskatzea berarekin eta han saltzen den zerbaitekin selfie bat egiteko.
  • Taxi bat hartu, Concha Kafetegira joateko, eta, hara iritsitakoan, galdetzea zein den gehiena saltzen duten pintxoa
  • Zezenketa-museora joan eta hango langileei galdetzea zenbat pertsona har dezakeen zezen-plazak, betetzen denean, eta noiz eraitsi zen lehengoa
  • Postal bat eta euro bateko zigilua erosi eta Teknologia sailekoei bidaltzea

Google Translate ez dagoenez ahozko euskararako prestatua, kazetariak ingelesetik espainierarako itzulpena aukeratu zuela dio.

Baldintzak ia ezin hobeak izan ziren arren, hau da, lokalen barruan ez egon arren hondoko zaratarik eta proban parte hartzeko prest agertu zirenek denbora errealeko itzulpen-aplikazioak ezagutzen bazituzten ere, hasieran zailtasunak izan zituen esaldi aski sinpleak maneiatzeko.
Hainbat arazo azaldu ziren proba horietan. Kazetariak dio aplikazio horiek berde samar daudela oraindik. Joseba Abaitua Deustuko Unibertsitateko irakasleak esan zioen hizketa ezagutzeko teknologiak dituen mugak ikusten direla hor. Aurrez aurre duzun norbaitekin telefono baten bidez itzulpenak eginez elkarrizketan jardutea beti izango dela trakets samarra, baina aplikazioak gero eta hobeto funtzionatuko dutela jendeak erabili ahala.
 
Kontuan izan behar da makina bati hitz egiten zaiola. Esaldiak laburrak eta garbi esanak baldin badira sistemak ondo funtzionatuko du baina hizketa zaindugabea eginez gero huts egingo du. Sistema horiek asko hobetu beharra dute oraindik azentu eta hitz egiteko modu desberdinak ezagutzeko.

Aplikazio guztiak ez dira kalitate berekoak ere.

http://andonisagarna.blogspot.com/2015/03/testu-meatzarita-medikuntzaren-historia.html
03/26/2015 - 13:03

Iturria: Digital History Seminar

Manchester-eko Unibertsitateko Informatika Eskolako irakasle eta Testu Meatzaritzarako Erresuma Batuko Zentru Nazionaleko zuzendari den Sophia Ananiadou andreak egin duen doktore-tesiaren izenburua hauxe da: Medikuntzaren  historiaren azterketa testu-meatzaritzaren bitartez. Ananiadou andreak tesi horretan frogatu du testu-meatzaritzako tresna berritzaileak baliagarriak direla artxibo historikoetatik informazioa automatikoki erauzteko. Bi artxibo historiko arakatu ditu:  British Medical Journal (BMJ) (1840tik – orain arte) eta Londresen eskualdeko Medical Officer of Health (MOH) erakundearen txostenak (1848-1972). National Centre for Text Mining (NaCTeM) ikerketa-zentroaren testu-meatzaritzako tresnek, terminoak, entitateak eta gertakariak  erauziz, artxibo historiko horiek automatikoki metadatu semantikoz aberastu ditu. Bilaketa semantikoko sistemaren garapena biriketako gaixotasunek 1840z geroztik izan duten bilakaera ikertzeko prestatu du bereziki. 

Aurkezpena helbide honetan jarrai daiteke: http://youtu.be/tadFqCQXD-Q 

Hauek dira tesiaren aurkezpeneko diapositibak:

 

http://andonisagarna.blogspot.com/2015/03/itzulpen-automatikoa-zertan-den.html
03/26/2015 - 13:03

1950eko hamarkadan itzulpen automatikoranzko lehen urratsak egin zituztenean, pentsatzen zuten ordenagailuari gramatika-erregelak eta hiztegiak emanez lor zitezkeela itzulpenak, eta urtetan planteamendu horri jarraitu izan zaio. Gaur egun, ordea, itzulpen automatikoko sistema gehienak estatistikan oinarritzen dira hizkuntzen ezagutzan baino gehiago. 

Funtsean, sistema hainbat itzulpenez osaturiko corpus baten bidez entrenatzen da. prozesu horren emaitzak honako datu hauen tankerakoak izaten dira:

  1. Esaldi batean (a, b, c ...) hitzen segida dagoenean, %P-ko probabilitatea dago (d, e, f...) hitzen segida gertatzea itzulpenean. Bi multzoetako hitzen kopuruak ez du zertan bera izan.
  2. (a, b) xede-hizkuntzako bi hitzen segida baldin bada eta (a) hitzaren bukaera -X baldin bada, %P-ko probabilitatea dago (b) hitzaren bukaera -Y izan dadin.

 Era horretako datu multzo izugarri handiak baldin badauzka, sistemak itzul dezake esaldi bat, haren itzulpenak izan daitezkeen xede-hizkuntzako zenbait "esaldi" sortuz. Esaldi posible horiek hitzak ia zorizko ordenatan jarriz ekoizten ditu sistemak eta horien artetik estatistika aldetik probabilitate handiena duena hautatzen du.

Gezurra dirudi horrelako prozedura batek taxuzko itzulpenak eman ditzakeenik baina kontua da erregeletan oinarrituriko prozedurek baino emaitza hobeak ematen dituela. Jakina, makinak ematen duen kalitatea itzulpen-corpusaren kalitateak eta tamainak balditzatzen dute. Bestetik, itzulpen-corpusean zer motatako testuak dauden ere erabakigarria da. Corpusa teknologia-gaietako dokumentuz osatua bada ez espero medikuntzako dokumentuak ondo itzultzea.
Itzulpen automatikoko sistemek ondoena funtzionatzen dute gai jakinetarako entrenaturik daudenean eta gai horietako dokumentuak itzuli behar dituztenean.

Asko dira itzulpen automatikoak gainditu behar dituen zailtasunak. Estatistikak aurrerapen handiak ekarri dizkio baina horrek ere, beste gauza guztiek bezalaxe, bere mugak ditu. Itzulpen automatikoak nekez lortuko du giza itzultzaile on batek lortzen duen kalitatea. Arrazoi askorengatik. Hona horietako batzuk:

- Giza itzultzaile elebidun batentzat ere ongi itzultzea gauza zaila da. Askotan bi hizkuntzak menderatzea ere ez da nahikoa. Bi hizkuntzaren arteko baliokidetza ez da inoiz erabatekoa. Itzultzailea askotan birsortzen aritzen da, ezinbestean. Lortu nahi duena da xede-hizkuntzako testuak jatorrizkoak eragiten duen inpresio bera eragitea. Horretarako, bi hizkuntzak menderatzea ez ezik bi kulturetan esperientzia izatea beharrezkoa da. Makinek, berriz, hori ez dute izaten.

- Itzulpena ona zer den erabakitzea ere ez da erraza. Testu bera eman itzultzeko hainbat itzultzaileri eta hainbat emaitza desberdin lortuko dituzu.

- Hitz baten adiera testuinguruaren arabera desberdina da eta hitz asko dira hainbat adiera izan ditzaketenak. Makinak brotxa lodiegia erabiltzen du miniaturak marrazteko.

- Hizkuntzak ideiak ondo adieraztea kasu askotan kontu larria da. Pentsa, esate baterako, medikuntzan diagnostiko baten emaitzak behar bezala adierazteak zer garrantzi duen.

Dena den, akatsak akats, itzulpen automatikoa oso lagungarria gertatzen da  egoera sinpleetan (turistent
istema hainbat itzulpenez osaturiko corpus baten bidez entrenatzen da. prozesu horren emaitzak honako datu hauen tankerakoak izaten dira:

  1. Esaldi batean (a, b, c ...) hitzen segida dagoenean, %X-ko probabilitatea dago (d, e, f...) hitzen segida gertatzea itzulpenean. Bi multzoetako hitzen kopuruak ez du zertan bera izan.
  2. (a, b) xede-hizkuntzako bi hitzen segida baldin bada eta (a) hitzaren bukaera -X baldin bada, %X-ko probabilitatea dago (b) hitzaren bukaera -Y izan dadin.

 Era horretako datu multzo izugarri handiak baldin badauzka, sistemak itzul dezake esaldi bat, haren itzulpenak izan daitezkeen xede-hizkuntzako zenbait "esaldi" sortuz. Esaldi posible horiek hitzak ia zorizko ordenatan jarriz ekoizten ditu sistemak eta horien artetik estatistika aldetik probabilitate handiena duena hautatzen du.

Gezurra dirudi horrelako prozedura batek taxuzko itzulpenak eman ditzakeenik baina kontua da erregeletan oinarrituriko prozedurek baino emaitza hobeak ematen dituela. Jakina, makinak ematen duen kalitatea itzulpen-corpusaren kalitateak eta tamainak balditzatzen dute.Bestetik, itzulpen-corpusean zer motatako testuak dauden ere erabakigarria da. Corpusa teknologia-gaietako dokumentuz osatua bada ez espero medikuntzako dokumentuak ondo itzultzea.
Itzulpen atomatikoko sistemek ondoena funtzionatzen dute gai jakinetarako entrenaturik daudenean eta gai horietako dokumentuak itzuli behar dituztenean.

Asko dira itzulpen automatikoak gainditu behar dituen zailtasunak. Estatistikak aurrerapen handiak ekarri dizkio baina horrek ere, beste gauza guztiek bezalaxe bere mugak ditu. Itzulpen automatikoak nekez lortuko du giza itzultzaile on batek lortzen duen kalitatea. Arrazoi askorengatik. Hona horietako batzuk:

- Giza itzultzaile elebidun batentzat ere ongi itzultzea gauza zaila da. Askotan bi hizkuntzak menderatzea ere ez da nahikoa. Bi hizkuntzaren arteko baliokidetza ez da inoiz erabatekoa. Itzultzailea askotan birsortzen aritzen da ezinbestean. Lortu nahi duena da xede-hizkuntzako testuak jatorrizkoak eragiten duen inpresio bera egitea. Horretarako, bi hizkuntzak menderatzea ez ezik bi kulturetan esperientzia izatea beharrezkoa da. Makinek, berriz, hori ez dute izaten.

- Itzulpena ona zer den erabakitzea ere ez da erraza. Testu bera eman itzultzeko hainbat itzultzaileri eta hainbat emaitza desberdin lortuko dituzu.

- Hitz baten adiera testuinguruaren arabera desberdina da eta hitz asko dira hainbat adiera izan ditzaketenak. Makinak brotxa lodiegia erabiltzen du miniaturak marrazteko.

- Hizkuntzak ideiak ondo adieraztea kasu askotan kontu larria da. Pentsa, esate baterako, medikuntzan diagnostiko baten emaitzak behar bezala adierazteak zer garrantzi duen.

Dena den, akatsak akats, itzulpen automatikoa oso lagungarria gertatzen da  egoera sinpleetan (turistentzat, adibidez) eta baita batere sinpleak ez diren batzuetan ere. Esate baterako, 2010eko urtarrilaren 12an Haitin lurrikara galgarria izan zenean itzulpen automatikoak sekulako laguntza eman zuen. Egoera larri hartan, telefonia mugikorreko dorreetatik %70-80k laster itzuli ziren funtzionamendu normalera eta hango jendea telefono bidez hizketan eta mezuak trukatzen hasi zen bertako kreoleraz. Alabaina, laguntzera joan ziren larrialdi-zerbitzuetako kide gehienek ez zekiten kreoleraz, ingelesez edo frantsesez baizik.

Laguntzera joan ziren agentzietako kide batzuek dohainikako telefono-zenbaki bat prestatu zuten, Haitiko jendeak mezuak hara bidal zitzan, datuak eta haien kokapen geografikoak emanez. Kreoleraz eta frantsesez zekiten 2.000 bat lagunek testuak itzultzen jardun zuten eta beste talde batzuek mezu multzo handi bat errepasatu zuten. Beste kide batek hiztegian oinarrituriko sistema bat prestatu zuen itzultzaileei laguntzeko. Egun gutxi barru Microsoftek eta Googlek itzulpen-sistema estatistiko bat prestatu zuten.

Migrazioek sortzen dituzten arazoetan ere lagungarri gertatzen da itzulpen automatikoa. Gaur egun inoiz baino migrazio-mugimendu handiagoak ari dira gertatzen. Ez bizitza hobearen bila mugitzen direnenak bakarrik, baita gerren eta desastreen ondorioz gertatzen direnenak ere.


Horrek arazo larriak sortzen dizkiete zerbitzu publikoei, besteak beste hainbat dokumentu hainbat hizkuntzatara itzuli beharra. Lan horrek oso kostu handia du. Zama hori arintzeko modu bat itzulpen automatikoa erabiltzea da.

Medikuntzan ere ari dira itzulpen automatikoa erabiltzen. Medikuntzan giltzarria da profesionalen eta pazienteen arteko komunikazioa. Medikuak pazienteari entzun egin behar dio, haren ikuspegia kontuan izan eta egiten dizkion galderei zintzoki erantzun. Horretarako,ordea, bada oztopo larri bat: askotan pazienteak eta medikuak ez dutela hizkuntza bera egiten.

Ospitale batzuetan erabiltzen dituzte itzulpen-zerbitzuak, baina hori garestia eta gogaikarria gertatzen da. Komunikazio hori ez da gainera nolanahikoa, konplexua, ñabarduraz betea eta etikoa baizik. Medikuak eta pazienteak hizkuntza bera egiten dutenean ere hainbat arazo sortzen dira hizkera zientifikoa eta hizkera arrunta aurrez aurre jartzen direnean.

Azkenaldian itzulpen automatikoa ari da sartzen osasun arloan, baina normalean itzulitako testua zuzendu egiten dute. Egin dira ikerlan batzuk zenbait itzulpen-sistema konparatzeko eta ikusteko zenbaterainoko kalitatea eman dezakeen bakoitzak osasun arloan. Horien artean hain ezaguna den Google Translate ere sartu izan dute. 

Ikerlan horietako batek euskara ere sartu du ebaluatu diren itzulpenetan. Ebaluazio automatikoa BiLingual Evaluation Understudy (BLEU) sistema erabiliz egin zuten. Ingelesetik hizkuntza erromanikoetarako itzulpenetan Google Translatek emaitza hobeak lortzen zituen beste talde batzuetako hizkuntzetarako itzulpenetan baino eta emaitzarik txarrenak ingelesetik euskararako itzulpenetan lortzen ziren. Besteak beste euskarak beste hizkuntzen aldean duen izaera eranskariagoaren ondorioa zen hori.

Giza ebaluatzaileak ere erabili zituzten ikerlan horretan; ingelesez ondo zekitenak, xede-hizkuntza ama-hizkuntza zutenak eta mediku itzultzaileak zirenak. Ebaluazio horretan ikusi zen medikuntza-gaietan itzulpen automatikoaren kalitatea os desberdina zela hizkuntza-bikotearen arabera. Ingelesetik hizkuntza erromanikoetarako edo germanikoetarako itzulpenetan oso emaitza onak lortzen ziren  (%80ko onargarritasuna). Ingelesetik errusierarakoetan eta euskararakoetan, aldiz, e ziren batere onak.
Euskararako itzulpenetan ugariak ziren kasu-atzizkien erabilera okerrak. 

Oraingoz itzulpen automatikoak osasun-arloan interpretazio eta diagnostiko okerrak eman ditzake eta ohiko prozedurak erabili behar dira.

zat, adibidez) eta baita batere sinpleak ez diren batzuetan ere. Esate baterako, 2010eko urtarrilaren 12an Haitin lurrikara galgarria izan zenean, itzulpen automatikoak sekulako laguntza eman zuen. Egoera larri hartan, telefonia mugikorreko dorreetatik %70-80k laster itzuli ziren funtzionamendu normalera eta hango jendea telefono bidez hizketan eta mezuak trukatzen hasi zen bertako kreoleraz. Alabaina, laguntzera joan ziren larrialdi-zerbitzuetako kide gehienek ez zekiten kreoleraz, baizik eta ingelesez edo frantsesez.

Laguntzera joan ziren agentzietako kide batzuek dohainikako telefono-zenbaki bat prestatu zuten, Haitiko jendeak mezuak hara bidal zitzan, datuak eta haien kokapen geografikoak emanez. Kreoleraz eta frantsesez zekiten 2.000 bat lagunek testuak itzultzen jardun zuten eta beste talde batzuek mezu multzo handi bat errepasatu zuten. Beste kide batek hiztegian oinarrituriko sistema bat prestatu zuen itzultzaileei laguntzeko. Egun gutxi barru Microsoftek eta Googlek itzulpen-sistema estatistiko bat prestatu zuten.

Migrazioek sortzen dituzten arazoetan ere lagungarri gertatzen da itzulpen automatikoa. Gaur egun inoiz baino migrazio-mugimendu handiagoak ari dira gertatzen. Ez bizitza hobearen bila mugitzen direnenak bakarrik, baita gerren eta desastreen ondorioz gertatzen direnenak ere.


Horrek arazo larriak sortzen dizkiete zerbitzu publikoei, besteak beste hainbat dokumentu hainbat hizkuntzatara itzuli beharra. Lan horrek oso kostu handia du. Zama hori arintzeko modu bat itzulpen automatikoa erabiltzea da.

Medikuntzan ere ari dira itzulpen automatikoa erabiltzen. Medikuntzan giltzarria da profesionalen eta pazienteen arteko komunikazioa. Medikuak pazienteari entzun egin behar dio, haren ikuspegia kontuan izan eta egiten dizkion galderei zintzoki erantzun. Horretarako,ordea, bada oztopo larri bat: askotan pazienteak eta medikuak ez dutela hizkuntza bera egiten.

Ospitale batzuetan erabiltzen dituzte itzulpen-zerbitzuak, baina hori garestia eta gogaikarria gertatzen da. Komunikazio hori ez da gainera nolanahikoa, konplexua, ñabarduraz betea eta etikoa baizik. Medikuak eta pazienteak hizkuntza bera egiten dutenean ere hainbat arazo sortzen dira hizkera zientifikoa eta hizkera arrunta aurrez aurre jartzen direnean.

Azkenaldian itzulpen automatikoa ari da sartzen osasun arloan, baina normalean itzulitako testua zuzendu egiten dute. Egin dira ikerlan batzuk zenbait itzulpen-sistema konparatzeko eta ikusteko zenbaterainoko kalitatea eman dezakeen bakoitzak osasun arloan. Horien artean hain ezaguna den Google Translate ere sartu izan dute. 

Ikerlan horietako batek euskara ere sartu du ebaluatu diren itzulpenetan. Ebaluazio automatikoa BiLingual Evaluation Understudy (BLEU) sistema erabiliz egin zuten. Ingelesetik hizkuntza erromanikoetarako itzulpenetan Google Translatek emaitza hobeak lortzen zituen beste talde batzuetako hizkuntzetarako itzulpenetan baino, eta emaitzarik txarrenak ingelesetik euskararako itzulpenetan lortzen ziren. Besteak beste, euskarak beste hizkuntzen aldean duen izaera eranskariagoaren ondorioa zen hori.

Giza ebaluatzaileak ere erabili zituzten ikerlan horretan; ingelesez ondo zekitenak, xede-hizkuntza ama-hizkuntza zutenak eta mediku itzultzaileak zirenak. Ebaluazio horretan ikusi zen medikuntza-gaietan itzulpen automatikoaren kalitatea oso desberdina zela hizkuntza-bikotearen arabera. Ingelesetik hizkuntza erromanikoetarako edo germanikoetarako itzulpenetan emaitza onak lortzen ziren  (%80ko onargarritasuna). Ingelesetik errusierarakoetan eta euskararakoetan, aldiz, ez ziren batere onak.
Euskararako itzulpenetan ugariak ziren kasu-atzizkien erabilera okerrak. 

Oraingoz itzulpen automatikoak osasun arloan interpretazio eta diagnostiko okerrak eman ditzake eta, beraz, ohiko prozedurak erabili behar dira.


http://www.unibertsitatea.net/blogak/ixa/2015/03/12/ixa-taldea-parisen-eta-galesen-inbitatuta-euskararentzat-egindako-lana-aurkezteko/
03/26/2015 - 13:03

Azken hilabetean Europako bi herritatik inbitazioa luzatu digute hizkuntzaren prozesamendua alorrean euskararentzat egin dugun lana aurkezteko.

tlrf15

bangor3

Bangor2015_DSC_0016

http://www.unibertsitatea.net/blogak/ixa/2015/02/27/izenaditz-konbinazioak-lantzen-euskaraz-eta-espainieraz/
03/26/2015 - 13:03

Konbitzul datu-baseak euskarazko eta gaztelaniazko izen+aditz konbinazioei buruzko informazioa biltzen du. Konbinazioen eta euren ordainen ezaugarri morfosintaktiko zein semantikoei begiratu diegu, eta bi hizkuntzak parez pare jarri ditugu, zer alde eta antzekotasun duten aztertzeko.

Konbitzul_Zubiak_eraikiBilatzailea atalean, datu-basean jasota dauden hitz-konbinazioak eta ordainak bilatu daitezke, hainbat irizpideren arabera:

  1. Hizkuntza-norantza: euskaratik gaztelaniara ala gaztelaniatik euskarara.
  2. Bilatu nahi den testuaren forma: konbinazio osoa, aditza edo izena.
  3. Informazio linguistiko gehigarria: euskara-gaztelania zentzuan, euskarazko izenaren kasu- edo postposizio-marka; gaztelania-euskara zentzuan, gaztelaniazko konbinazioaren egitura.

UxoaIñurrietaDatu-base hau IXA taldeko Uxoa Iñurrietak doktoretza-tesirako egin duen lan baten emaitza da. Lankidetzan aritu da beste hauekin ere: Itziar Aduriz, Mikel Artetxe, Arantza Díaz de Ilarraza, Gorka Labaka, Kepa Sarasola eta Ruben Urizar.

Informazio zehatzago nahi izanez gero ikusi artikulu berri hau:

Izen+aditz konbinazioen azterketa elebiduna, hizkuntza-aplikazio aurreratuei begira

Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka eta Kepa Sarasola 2014, Linguamatica 6.2 (2014): 45-55.

Hona hemen Konbitzul datu-basean egin ditzakezun galderetako batzuk:

Konbitzul_TenderKonbitzul_tender_puentes

http://eibar.org/blogak/e-gorblog/irakurri-beharrean-entzun
03/26/2015 - 13:03
(Elhuyar aldizkariko 2014ko apirileko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)

Elhuyar aldizkaria online entzuten
Irudia: Elhuyar

Ahots-teknologiak berriki arte asko erabili ez badira, ez da izan beharrik ez zegoelako, baizik eta teknologia oraindik nahiko heldua eta aurreratua ez zegoelako. Beharrak eta aplikazio posibleak ugariak izan dira betidanik.

Erabilera posible horietatik burura lehenengo etortzen zaiguna gailu digitalekiko interakzioa da. Ordenagailu, telefono edo tabletari aginduak teklatuan idatziz edo saguaz klik eginez eman beharrean, erosoagoa eta azkarragoa izan daiteke, kasu askotan, ahoz esanda egitea. Eta makinaren emaitza jasotzeko ere, pantailan irakurri beharrean, maiz erosoagoa izan daiteke entzutea. Ahots bidezko interakzioaren adibide dira gailu mugikorretan gero eta gehiago ikusten diren Siri moduko elkarrizketa-agenteak (2012ko urtarrilean hitz egin genizuen horiei buruz).

Pertsonen arteko komunikazioan ere lagundu dezakete. Itzulpen automatikoarekin konbinatuta, ahots-teknologiekin ahots-itzultzaileak egin daitezke.

Beste aplikazio bat informazioaren kudeaketa da. Idatziz dagoen informazioa erraz eta azkar maneiatzen dute ordenagailuek, eta tresna oso baliagarriak egiten ahal dira, bilatzaileak esaterako. Baina informazioa audio-grabaketak direnean, makinak ez dira gai ulertzeko, eta transkribatu egin behar dira. Aldiz, ahots-teknologien bidez hizketa ulertzeko gai badira, makinek berek bihurtuko lukete ahotsa testu, eta audio-fitxategiak erraz indexatu ahal izango lirateke bilaketarako (horrela ari da, adibidez, BBC bere historia guztiko irratiko audio guztiak bilaketarako katalogatzen), edo filmak automatikoki azpititulatu.

Ahotsaren sorkuntza...

Horrelako gauzak egiteko, esan bezala, ahots teknologiak deritzen teknologiak erabiltzen dira. Eta mota ezberdin askotako teknologiak daude.

Ahots-sintesia da horietako bat, ingelesezko TTS (Text To Speech edo testutik hizketara) izenaz ere ezaguna. Teknologia horrek hizketa baten audioa sortzen du testu batetik, ahots sintetiko edo artifizialez, molde ahalik eta naturalean. Eta hori, neurri batean, nahiko lortua dago, intonazio neutro baterako behintzat. Bitxia bada ere, zientzia-fikziozko film zaharretan agertzen ziren robotak makina oso adimendunak ziren, eta ez zuten arazorik esaten zitzaiena ulertzeko; berek hitz egin, ordea, oso modu artifizial eta robotikoan (jakina) hitz egiten zuten. Baina errealitatean kontrakoa gertatu da: gaur egun nahiko ongi hitz egin dezakete makinek, ulertu, baina, ez hain ongi, eta adimendun izateko tarte handia falta da oraindik...

Ahots-sintesi emozioduna ere lantzen ari dira ikertzaileak, hau da, ahots sintetikoak haserrea, poza, harridura, pena eta horrelako emozioak ere adieraztea. Izan ere, kasu askotan ez da nahikoa gauzak intonazio neutroarekin esatea, adibidez, filmak-eta automatikoki bikoiztu nahi badira.

Sortzen den ahots sintetikoak naturala iduri dezan, benetako pertsonen grabaketa asko egin behar izaten dira, eta, hala, pertsona horren ahots bera duen hizketa lortzen da, benetako pertsona batek esandakoa dela ematen duena. Baina horrek badu arazo bat, ahots ezberdin asko behar direnean ez baitu balio (goian aipatutako filmen bikoizketarako, adibidez). Horregatik, ahotsen transformazioaren teknologia ere existitzen da, hau da, grabaketetan oinarritutako ahots sintetiko batek beste norbaitena dela eman dezan lortzeko teknologia. Hori erabiltzen da, adibidez, hitz egiteko gaitasuna galdu duen jendearentzat bere ahotsaren antza izango duen ahots-sintetizadoreak egiteko.

... eta ezagutza

Ahots teknologien beste familia handia kontrako norabidekoa da, hau da, ahotsaren ezagutzakoa. Hemen sartzen da, esate baterako, biometriarako erabiltzen den hizlariaren ahots bidezko identifikazioa. Hala ere, teknologia hau ahots baten ezaugarriak detektatzean eta horren bidez pertsona zein den jakin edo egiaztatzean datza soilik.

Zailagoa da esaten dena ezagutzea, hau da, benetako ahots ezagutza. Horregatik, ahotsaren ezagutzako sistemetan mota ezberdinetakoak daude, konpontzen duten problematikaren arabera, eta emaitzen kalitatea ere ezberdina dute. Adibidez, diktaketa-sistemak hizketa jarraia eta edozelakoa ezagutzeko pentsatuta daude. Hori lortzea oso zaila da eta hori dela eta, pertsona bakoitzaren hizkerara entrenatu behar izaten dira eta emaitzak ez dira hain onak ere.

Ahots ezagutzako beste sistema batzuk komandoen ezagutzakoak dira. Hauetan, ezagutu beharrekoa mugatua egoten da. Hauen adibideak dira call-centerak edota aipatutako elkarrizketa agenteak. Ezagutu beharrekoa unean uneko testuinguruaren araberakoa da (zenbakiak, aukera multzo batetik bat, gure agendako pertsonetako bat...), eta horregatik emaitza hobeak lor daitezke, hobeak ezagutu beharrekoaren aukera ezberdinak zenbat eta gutxiago izan.

Azkenik, edukien indexazio eta bilaketarako erabiltzen diren ezagutza teknologiak daude. Diarizazioa deritzonak, adibidez, audioko fitxategi baten dauden atal ezberdinak identifikatzeko balio du: noiz den elkarrizketa, noiz isilunea, noiz musika, noiz zarata… Horrela, ahots ezagutzailea zein zatiri aplikatu jakiten da, hizketarik ez dagoenean ezagutzailea pasatu eta zaborra indexatu beharrean. Hizlariaren identifikazioa ere interesgarria izaten da indexazio helburutarako. Eta ohiko ahots ezagutza ere erabiltzen da indexaziorako. Gainera, honelako erabileretan maiz ez du axola ezagutza perfektua ez izateak: sarri ez da transkribapen zehatza behar, bilaketarako hitz edo termino esanguratsuen eta errepikakorrenak harrapatzea nahikoa izan daiteke.

Euskarazko ahots-sintesia Elhuyar aldizkaria, Zientzia.net eta EITB.eus entzuteko!

Arestian esan dugu ahots-teknologiak gaur egun nahikoa aurreratuta daudela eta gero eta gehiago erabiltzen direla. Teknologia horiek, baina, hizkuntzaren araberakoak dira (beharbada hizlariaren detekzioaren salbuespenarekin), eta ez daude garapen-maila berean hizkuntza guztietarako. Beti bezala, teknologiok oso garatuta daude hizkuntza gutxi batzuetarako (betikoak: ingelesa, gaztelania, alemana, txinera...), eta gainerako gehienetarako askoz atzerago.

Garapen onena duten hizkuntza horien mailan ez badago ere, euskara ez da, zorionez, azkeneko bagoian doazen horietakoa. Urteak daramatzagu euskararentzako ahots-teknologiak lantzen. Eta lan horretan aitzindari eta erreferente EHUko Aholab ikerketa-taldea dugu. Aipatutako teknologia guztiak landu dituzte eta lantzen ari dira.

Aholabek euskararentzat aurreratuen daukan teknologia, jakina, ahots-sintesiarena da. Oso kalitate oneko ahots sintetiko neutroa lortzen dute, aplikazioetan erabiltzeko modukoa. Horregatik, Aholabekin elkarlanean, Elhuyarreko Hizkuntza eta Teknologia unitateak webguneak irakurri beharrean entzuteko teknologia garatu du ahots-sintesi bidez.

Izan ere, jada ez dugu soilik mahai gaineko ordenagailuetatik nabigatzean webean. Gero eta gehiago ibiltzen gara Interneten gure smartphone eta tabletetatik. Eta horietan, webguneak irakurtzeko baldintzak ez dira sarri oso egokiak: pantaila txikia da (batez ere, telefonoetan), mugimenduan joaten gara maiz (oinez, trenean, autobusean...) eta abar. Aldiz, horrelako gailuetan, oso ohituta gaude edukia (musika, podcast-ak...) entzungailuez entzuten. Horregatik, oso interesgarria iruditu zitzaigun webguneak entzun ahal izateko teknologia hori garatzea. Erabiltzailea ordenagailu edo gailu mugikorrean edukia irakurri ordez entzuten joan ahal izango da, bitartean beste zerbait egiten duelarik.

Oraingoz, Elhuyar aldizkariaren webgunean, Zientzia.net-en eta EITB.eus-en jarri dugu teknologia hori. Bertako eduki batean gaudela (artikulu bat, erreportaje bat...), barra bat agertuko zaigu, eta han “play” itxurako botoi tipiko bat. Hori sakatuta, artikulua entzuten hasiko gara. Entzuketa esaldiz esaldi egiten da, eta entzuten ari garen esaldia markatuta agertzen da. Era berean, entzuketan nabigatu ahal izateko botoiak ere badaude (aurreko edo ondoko esaldira, aurreko edo ondoko paragrafora, edo nahi dugun tokira joateko). Gainera, ahotsa (emakumezko eta gizonezko baten artean), bolumena zein abiadura alda ditzakegu. Horrez gain, aldizkariko zenbaki batean bagaude, entzuteko botoia sakatuta, zenbaki horretako artikulu guztiak entzun ahal izango ditugu bata bestearen atzetik; hori oso interesgarria izan daiteke kotxean gidatzen-edo bagoaz bidaia luze samar batean, irratia entzun beharrean aldizkari osoa entzun baitezakegu. Azkenik, elkarrizketetan, aukeratutakoa ez beste ahots batekin irakurtzen dizkigu galderak, galderak eta erantzunak bereiz ditzagun. Eta hori guztia, HTML5 teknologia estandarra erabiliz egin da (HTML5ez 2010eko otsailean hitz egin genizuen).

Aukera ederra, beraz, euskarazko ahots-teknologiak ezagutu eta baliatzen hasteko. Probatu, eta ikusi!

http://www.dataversity.net/bill-gates-joins-musk-hawking-worry-machine-superintelligence/
03/26/2015 - 13:03

by Angela Guess Erik Sofge of Popular Science recently wrote, “During an AMA (ask me anything) session on Reddit this past Wednesday, a user by the name of beastcoin asked the founder of Microsoft a rather excellent question. ‘How much of an existential threat do you think machine superintelligence will be and do you believe…

The post Bill Gates Joins Musk and Hawking in Worry Over Machine Superintelligence appeared first on DATAVERSITY.

http://andonisagarna.blogspot.com/2015/01/irakurleei-liburuak-gomendatzeko.html
03/26/2015 - 13:03

Iturria: The Bookseller

Trajectory enpresa 2012an sortu zuten Bostonen. Sortzaileak 1980ko hamarkadan CD-ROMak ekoizten lehenengotakoak izan ziren. 1990eko hamarkadan ProCD sortu zuten, kontsultarako obrak CD-ROMen argitaratzen zituen enpresa, adibidez AEBetako eta Kanadako lehenbiziko telefono-gida osoa. Ondoren ProCD eta Axiom enpresek bat egin zuten. Bat-egite horren ondoren, Trajectoryren sortzaileek webgune bat sortu zuten haurrei etxeko lanak egiten laguntzeko.

2010eko hamarkadan argitalpen-munduan aldaketa sakonak gertatzen ari dira. Irakurgailu elektronikoen hedapenak irakurleen ohiturak aldatu ditu. Bestalde, edukien digitalizazioaren ondorioz, euskarri digitalean eskuragarri dagoen titulu-kopurua handitzen ari da, paperean deskatalogaturik daudenena barne.

Testuinguru honetan Trajectoryk banatzaileekin lankidetzan jarduten du, mundu osoan zehar ebooken eta audioliburuen bilduma berriak identifikatzeko eta eskuratzeko. Gainera, hizkuntza prozesatzeko tresnak erabiliz, gakohitzak eta beste informazio esanguratsu batzuk erauzten dituzte liburuen edukietatik.

Trajectoryk prozesu automatiko bat garatu du, liburuak gomendatzeko gai dena, hainbat algoritmotan oinarriturik.  Garatu duten prozesua Trajectoryren sistema liburu bat kargatuz hasten da. Hizkuntza prozesatzeko sistema automatiko batek testua analizatzen du eta ateratzen dituen datuak karakterizatu egiten ditu. Gero bilaketa-algoritmoek gero eta handiagoa den datu base batean bat datozen datuak bilatzen dituzte. Bat-etortze horiek gomendioak sortzen dituzte. Oinarrian bektore-espazioak modelatzeko teknikak daude. Liburu baten bereizgarriak, hau da, garaia, hitz motak, generoa, etab. beste batzuenekin alderatuz, sistemak beste liburu digital batzuk gomendatzen ditu, edukien arabera eta ez salmenten historiaren arabera.

Emaitza praktikoa da autoreei eta argitaletxeei aukera ematen zaiela, beren argitalpenak prozesatuz, irakurleak eta haientzat egokiak diren liburuak parekatzeko.
Irakurle batek edo liburutegi batek liburu bat erosten badu, sistemak liburu horren antzeko ezaugarriak dituen beste liburu batzuk gomendatuko dizkio.

http://www.dataversity.net/personal-robots-home-closer-think/
01/26/2015 - 11:24

by Angela Guess Lance Ulanoff of Mashable reports, “It’s no longer a question of if we’ll have personal robot assistants in the home, but when. A growing number of companies across the globe are now vying to be the first physical artificial intelligence-driven avatar in your home, including Robotbase and its simply-named Personal Robot. On…

The post Personal Robots in the Home Are Closer than You Think appeared first on DATAVERSITY.

http://andonisagarna.blogspot.com/2015/01/2015eko-ebko-lehendakaritzako-gertakari.html
01/26/2015 - 11:24

Iturria: eNewsWire

Hizkuntza-teknologiako Tilde konpainiak itzulpen automatikoko sistema bat jarri du Europar Batasuneko Kontseiluaren Lehendakaritzarentzat. Sistema hori bereziki diseinatua da 2015eko EBko Lehendakaritzako gertakari ofizialetan izango diren nazioarteko kazetariek eta Europar Batasuneko Estatuen ordezkariek erabiltzeko. Kazetariek eta ordezkariek gertakari horien berri Letoniako komunikabideetan jarraitu ahal izango dute, bertako webguneetako eta blogetako edukiak irakurriko dituzte, ingelesez ez dauden prentsako materialak eta beste albiste-iturri batzuetakoak itzuliko dituzte, eta gobernuaren dokumentuak erabili ahal izango dituzte, ikerketa orokorrak egiteko.

EU Presidency Translator
deritzon sistema horrek testuak, dokumentuak letonieratik ingelesera eta alderantziz bat-batean itzultzen ditu. Tresna hori jaits daiteke ordenagailuetarako eta mobiletarako aplikazio gisa. Gainera bi itzulpen-kiosko ere jarri dituzte EBko Lehendakaritzaren Kontseiluaren egoitza nagusian.

Lehenbiziko aldia da itzulpen automatikoko tresna bat erabiltzen dena, era horretako goimailako gertakari batean zenbait hizkuntzaren arteko komunikazioa ahalbidetzeko.

Syndicate content