Google Docs ja permet transcriure veu a text, també en català

Compartir

Sense avisar, la multinacional del cercador ha incorporat entre d’altres novetats en la seva suite ofimàtica en línia el dictat per veu, que també està disponible en català.

Donar instruccions de viva veu a una màquina per a què les compleixi, o dictar-li els nostres pensaments per a què els transcrigui a un document de text ja fa temps que no és quelcom propi només de les pel·lícules de ciència ficció; ho podem veure en el nostre dia a dia amb els asistents de veu que incorporen els sistemes operatius per a dispositius mòbils com Siri, Cortana o Google Now, i amb el programari que permet reconèixer el dictat per veu en les suites ofimàtiques.

Més d’una vegada hem parlat amb màquines que ens “entenen”, com quan truquem a un número de servei i se’ns demana que diguem un número segons l’opció a la qual volem accedir.

El reconeixement de veu no és encara exacte del tot, els programes que s’encarreguen d’aquesta tasca encara cometen errors i no acaben de fer, normalment, una transcripció 100% encertada, però ja han progressat prou com per a permetre’ns obtenir un document en el qual, i en una repassada a posteriori, només hi haguem de corregir un mínim de coses.

I és en aquest contexte de l’evolució de la tecnologia de reconeixement de veu quan Google ha decidit afegir tal funcionalitat a la seva suite ofimàtica en línia Google Docs, pensant en la tornada al col·legi i en la feina que podia estalviar als alumnes que, a partir d’ara, podran dictar de viva veu a l’ordinador els seus treballs enlloc d’haver-los de teclejar.

L’opció d’iniciar el reconeixement de veu la trobem al menú Eines i, un cop activada, ens presentarà un micròfon que podrem anar activant i desactivant a mesura que vulguem dictar o aturar la captació de veu per part de l’ordinador.

Entre els idiomes suportats hi trobem el català. És més, podem canviar de llengua en el dictat quan vulguem i de manera natural, i la interpretació que el motor de reconeixement fa de la nostra veu seguirà la mateixa correcció que he esmentat abans.

Jo particularment ho he provat amb el català i el castellà, i el pas d’una a altra llengua és realitzat pel sistema d’una manera molt natural i sense haver de tocar res, tan sols parlant.

Proves de reconeixement de veu. El micròfon a l'esquerra és la icona que emprarem per activar el micro (a la imatge es troba en situació d'activat, pel que estaria interpretant el que li diem). Feu clic per a engrandir la imatge

Proves de reconeixement de veu. El micròfon a l’esquerra és la icona que emprarem per activar el micro (a la imatge es troba en situació d’activat, pel que estaria interpretant el que li diem). Feu clic per a engrandir la imatge

Provant, ú, dos, provant

Dicto les primeres paraules, “hola què tal?“. Ho faig a poc a poc, delectant-me en cadascuna de les paraules, per tal que el sistema tingui temps d’entendre-les bé. Cap error. No em posa, però, el signe d’interrogació. Li ordeno que esborri però, enlloc de dur a terme aquesta acció, afegeix al texte la paraula “esborra“. No sembla que obeeixi a ordres transcrites enmig del texte. Hauré d’investigar més en aquest sentit.

La primera presa de contacte amb l’eina de dictat de Google Docs és prou bona, malgrat que quan li he començat a dictar més texte, ha comès alguns errors. De qualsevol manera, no està gens malament el resultat que m’ha donat, tenint en compte que jo tinc defectes de pronuncia tant a la lletra R com a la S, i això es nota força quan parlo. Hi ha paraules que es veu ben bé que les ha confós precisament per aquest defecte.

També hi deu haver fet que les condicions de so no eren les ideals i, de fet, el sistema m’ho advertia a la part superior del document, indicant que no se m’escoltava del tot bé, que provés a acostar-me més al micro, cosa que deliberadament no he fet.

La meva conclusió és que una persona que té una dicció prou correcta i cap problema de pronuncia o quelcom que sigui molt poc perceptible, podrà emprar correctament aquesta funcionalitat i obtenir un document força acurat, fins i tot en condicions no ideals de captació del so de la veu, encara que això suposi parlar una mica més a poc a poc.

I tot això, sense haver-lo “d’entrenar”, a diferència dels antics programes de reconeixement de veu.

Guillem Alsina

Guillem Alsina

Periodista freelance especialitzat en noves tecnologies, redactor d'YCOM.cat
Guillem Alsina
Etiquetes: