Spraakherkenning: Een intelligentie-injectie voor mijn PC ?
Jeroen Baldewijns
Onze oren tuiten ervan: spraakherkenning op muurvullende
affiches bij iedere straathoek, spraakherkenning heet van de
naald in het TV-journaal, spraakherkenning als verplicht
gespreksonderwerp in de tram, spraakherkenning op de voorpagina
van elk zichzelf respecterend computertijdschrift,... Kortom,
als we de media en de PC-industrie mogen geloven, zitten we
binnenkort massaal tegen onze PC te kletsen.
Alle gekheid op een stokje; in dit artikel willen we wat afstand
nemen van de massale opwinding rond het
spraakherkenningsfenomeen en nagaan in welke mate deze
technologie enig nut kan opleveren voor de slecht- of niet-
ziende computeraar.
1. Definitie
Waar gaat het eigenlijk over ? Met behulp van een
spraakherkenningsprogramma kan een PC-gebruiker spreken tegen
zijn computer via een microfoon die op de geluidskaart
aangesloten is. Het spraakherkenningsprogramma zal de
ingesproken woorden van de geluidskaart ontvangen, ze analyseren en
omzetten naar tekst die bijvoorbeeld in een
tekstverwerkingsbestand terecht komt of als opdracht aan het
besturingssysteem of het actieve toepassingsprogramma ter
uitvoering wordt doorgegeven (bijvoorbeeld "start Microsoft
Word" of "bewaar document"). Op die manier kan je de PC tot op
zekere hoogte zonder toetsenbord of muis bedienen. Een
spraakherkenningsprogramma is met andere woorden een alternatief
invoerorgaan voor een PC.
2. Evolutie
"Spraakherkenning is niet nieuw", hoor ik u al opwerpen. En dat
klopt nog ook: een product als Dragon Dictate is immers al jaren
op de markt. Waarom dan nu pas de grote doorbraak ? Omdat de
spraakherkenningsproducten nu pas volwassen zijn geworden. Met
een programma als Dragon Dictate moest je woord per woord tegen
de PC praten. Dit kenmerk maakte deze producten wel geschikt om
de PC via gesproken opdrachten (zoals druk document af, open
document, start spellingscontrole,...) te bedienen, maar veel
minder geschikt om er in je tekstverwerker heuse brieven mee te
dicteren. De nieuwste generatie spraakherkenningsprogramma's
biedt de mogelijkheid om continu tegen de computer te praten en
om dit bovendien in het Nederlands te doen. Dankzij de huidige
processorsnelheden zorgt de PC ervoor dat hij jouw spreektempo
kan volgen. Uiteraard is een dergelijk systeem veel beter
geschikt voor het dicteren van lange tekstdocumenten in de
tekstverwerker.
3. De producten
In het huidige aanbod concurreren vier producten om het grootste
marktaandeel: Voice Xpress van Lernout & Hauspie, FreeSpeech van
Philips, Naturally Speaking van Dragon Systems en ViaVoice van
IBM. Van de drie eerstgenoemden is er sinds kort een Nederlandse
versie verkrijgbaar. Van IBM's ViaVoice is ons niet bekend of er
aan een Nederlandse versie gewerkt wordt. De volgende tabel
geeft een overzicht van de belangrijkste kenmerken van de
pakketten die er geen bezwaar tegen hebben in het Nederlands
aangesproken te worden.
==========
Productoverzicht
==========
-Product: Voice Xpress Professional 2.03
-Prijzen: 6.980 BEF / 425 NLG / 173 euro / Van Voice Xpress
bestaan ook een "Standard" en een "Advanced"-versie. Bij de
eerste kan enkel via de meegeleverde XpressPad teksteditor
tekst gedicteerd worden. Bij de tweede kan ook binnen Word
gedicteerd worden, maar niet in de andere Office-toepassingen
(zoals bij de hier besproken Professional-versie).
-Functionele kenmerken
-Gebruikersmodi: Opdrachten geven, tekst dicteren, tekst
spellen, opdrachten en tekst ingeven door elkaar
-Onderscheid tussen Vlaams en Nederlands: Ja (tijdens
installatie)
-Meerdere talen tegelijk bruikbaar: Nee
-Eigen jargon toevoegen aan aanwezige woordenschat: Ja
(Lexicon-functie)
-Meegeleverde hardware: Hoofdtelefoon met microfoon
-Systeemeisen
-Besturingssysteem: Windows 95/98/NT
-Min. (aanbevolen) processor: Pentium II
-Min. (aanbevolen) werkgeheugen: 64 Mb (128 Mb)
-Harde schijfruimte: 250 Mb
----------
-Product: FreeSpeech 2000
-Prijzen: 4.520 BEF / 269 NLG / 112 euro / Dit is de prijs van
de standaardversie. Voor de versie met SpeechMike betaal je
ongeveer 2.000 BEF / 100 NLG / 50 euro extra.
-Functionele kenmerken
-Gebruikersmodi: Opdrachten geven, tekst dicteren, tekst
spellen, ingesproken tekst opnieuw beluisteren
-Onderscheid tussen Vlaams en Nederlands: Ja (aparte versies)
-Meerdere talen tegelijk bruikbaar: Ja (13 talen)
-Eigen jargon toevoegen aan aanwezige woordenschat: Ja
(ConText-functie)
-Meegeleverde hardware: Hoofdtelefoon met microfoon of
SpeechMike / De SpeechMike is een volgbol (trackball) met een
ingebouwd microfoontje en luidsprekertje.
-Systeemeisen
-Besturingssysteem: Windows 95/98/NT
-Min. (aanbevolen) processor: 166 MHz Pentium (Pentium II)
-Min. (aanbevolen) werkgeheugen: 48 Mb (96 Mb)
-Harde schijfruimte: 150 Mb
----------
-Product: Naturally Speaking 3.60
-Prijzen: 5.000 BEF / 249 NLG / 124 euro / Dit is de prijs van
de standaardversie. Dit pakket is ook verkrijgbaar in de
"Point&Speak" basisversie met minder mogelijkheden, de
"Preferred"-versie met wat extra mogelijkheden en de
"Mobile"-versie die een dictafoonfunctie biedt. De laatste twee
versies zijn nog niet in het Nederlands verkrijgbaar.
-Functionele kenmerken
-Gebruikersmodi: Opdrachten geven, tekst dicteren, opdrachten en
tekst ingeven door elkaar, ingesproken tekst opnieuw
beluisteren
-Onderscheid tussen Vlaams en Nederlands: Nee (slechts één
versie)
-Meerdere talen tegelijk bruikbaar: Nee
-Eigen jargon toevoegen aan aanwezige woordenschat: Ja
(Lexicon-functie)
-Meegeleverde hardware: Hoofdtelefoon met microfoon
-Systeemeisen
-Besturingssysteem: Windows 95/98/NT
-Min. (aanbevolen) processor: 166 MHz Pentium (200 MHz Pentium)
-Min. (aanbevolen) werkgeheugen: 48 Mb (64 Mb)
-Harde schijfruimte: 200 Mb + 50 Mb per gebruiker
==========
Een eerste belangrijke vaststelling: als gebruiker moet je de
nodige tijd vrijmaken om de spraakherkenning te trainen. Hou je
deze stelregel in acht, dan mag je van elk van deze producten
aanvaardbare resultaten verwachten.
De systeemeisen in de tabel zijn diegene die de fabrikanten
opgeven. Hoewel de producten hier voldoening mee nemen, blijkt
uit praktijktesten dat je best kan beschikken over een Pentium
II processor en 128 Mb werkgeheugen om enigszins comfortabel te
kunnen werken. Bovendien moet je beschikken over een
geluidskaart met een behoorlijke kwaliteit.
Een belangrijk kenmerk van deze drie pakketten is dat je
enerzijds opdrachten kan inspreken die Windows of een
toepassingsprogramma moet uitvoeren en anderzijds continu tekst
kan inspreken die in een tekstverwerkings- (of ander) document
wordt opgenomen. Bij Voice Xpress en bij Naturally Speaking kan
je beide door mekaar doen; bij de FreeSpeech moet je hiervoor
van modus wisselen. Andere gezamenlijke kenmerken zijn dat je
als gebruiker de woordenschat die de pakketten kennen, kan
aanvullen met je eigen jargon en dat de diverse programma's ook
in staat zijn om stemmen van meerdere gebruikers aan te leren.
Voor het overige biedt elk pakket zo zijn extraatjes:
*Naturally Speaking biedt de mogelijkheid om de muisaanwijzer
via spraakcommando's te besturen (handig voor personen met een
motorische handicap). Verder kan je aangeven of Naturally
Speaking de spelling van het Groene Boekje of die van van Dale
moet aanhouden.
*Voice Xpress biedt bijvoorbeeld een dictafoonfunctie die het
mogelijk maakt om een dictafoon of een Sony MiniDisc-speler
tegen de computer te laten spreken in plaats van een mens.
Verder is er de "Natural Language Technology", die je de
mogelijkheid biedt om eigen namen te geven aan diverse
besturingsopdrachten.
*FreeSpeech is van opvallend veel toeters en bellen voorzien.
Dit product neemt bijvoorbeeld een straatlengte voorsprong op
de concurrentie door in de dicteermodus liefst 13 talen te
begrijpen ! De opdrachtverkenner is een erg nuttig hulpmiddel
bij het geven van besturingsopdrachten. Verder biedt
FreeSpeech de mogelijkheid om eerder ingesproken tekst ter
controle te laten voorlezen. De meegeleverde "Software
Developers Kit" tenslotte, biedt programmeurs de mogelijkheid
om de FreeSpeech spraakherkenningsfuncties in hun toepassingen
te integreren.
4. Spraakherkenning en de visueel gehandicapte PC-gebruiker
Spraakherkenning is volwassen aan het worden, dat is wel zeker.
Als Microsoft zijn schouders onder deze technologie gaat zetten
(en daar lijkt het wel op), kan je er zeker van zijn dat deze
programma's meer en meer gebruikers zullen krijgen. Het lijkt
echter zeer onwaarschijnlijk dat dit soort producten ook de
kantooromgeving, waar een simpel telefoongesprek soms zelfs als
storend ervaren wordt, zal veroveren.
Wie behoort dan wel tot het beoogde publiek ? Beroepsgroepen die
traditioneel veel dicteren (artsen, advocaten,...), mensen die
last hebben van RSI (verzamelnaam voor klachten die voorkomen
bij mensen die te veel en op een niet-ergonomische manier met de
computer werken), mensen die omwille van een motorische
beperking hun muis en toetsenbord niet kunnen bedienen.
Als slecht- of niet-ziende PC-gebruiker hoor je hier niet direct
bij en is het dus verstandig je te bezinnen over twee
vraagstukken: enerzijds de bruikbaarheid en anderzijds het nut
van een dergelijk product.
4.1. Bruikbaarheid
De hamvraag is natuurlijk of deze spraakherkenningsproducten
goed samenwerken met de hulpmiddelen die blinden en
slechtzienden gebruiken. Zelf hebben we nog niet de kans gehad
om dergelijke configuraties in de praktijk uit te testen, maar
na een eerste kennismaking kunnen we ons toch al een beeld
vormen van waar het zoal mis zou kunnen lopen:
*Het begint al bij de initiële training van het pakket. Voor het
uitvoeren van dit proces (dat essentieel is voor de goede
werking van de spraakherkenning) moet je meestal een tekst
aflezen van het beeldscherm en gelijktijdig op dit scherm
kijken of het spraakherkenningsprogramma kan volgen. Het
hulpmiddel zal dus een goede terugkoppeling moeten geven van
wat er op het scherm staat. Dit gebeurt liefst niet met
spraak ! Als de spraaksynthesizer en de gebruiker door elkaar
beginnen te praten, dan kunnen we ons immers best inbeelden dat
het spraakherkenningsprogramma er het noorden bij kwijtraakt.
*Na het inspreken van een stuk tekst (in de tekstverwerker
bijvoorbeeld) zal je de juistheid van het resultaat moeten
controleren. Hiervoor wordt meestal een apart venster geopend
(vergelijkbaar met het spellingscorrectievenster van de
tekstverwerker) waarin je correcties aan foutief gespelde
woorden moet aanbrengen. Dit doe je via het toetsenbord of
door het woord te spellen. Ook hier zal een goede feedback
nodig zijn en dit zowel van wat er in het documentvenster te
zien is als van wat er zich in het spellingsvenstertje
afspeelt.
Nu zou je kunnen denken: "Ik verbeter mijn tekst toch gewoon
zelf, zonder gebruik te maken van de spellingsfunctie van het
spraakherkenningsprogramma" ? Wat je echter over het hoofd
ziet is dat het herkenningsproces intelligenter wordt naarmate
je zijn spellingsfunctie gebruikt.
Op het vlak van vergrotingsprogramma's verwachten we niet direct
grote problemen, maar of alles ook vlekkeloos zal werken in
combinatie met een GUI-toegangsprogramma (zeker als je
spraakweergave gebruikt), daar durven we onze hand niet voor in
het vuur te steken. Een kleine rondvraag bij
hulpmiddelenproducenten en -leveranciers maakte ons ook al niet veel
wijzer. Blijkbaar hebben de meeste onder hen andere prioriteiten
dan het voeren van onderzoek naar de compatibiliteit van hun
producten met spraakherkenningsprogramma's. We zullen het dus
zelf moeten doen. Voor de volgende jaargang plannen we tests van
één of twee spraakherkenningspakketten in combinatie met de
gangbare vergrotings- en GUI-toegangsprogramma's.
4.2. Nut
Aan het nut van een spraakherkenningsprogramma voor visueel
gehandicapten zijn enige voorwaarden verbonden:
*Een test moet uitwijzen of er een hoge mate van compatibiliteit
is met de gebruikte hulpmiddelenconfiguratie.
*Je moet Windows en zijn toepassingen zeer grondig kennen.
*Je moet echt gemotiveerd zijn om op dergelijke alternatieve
manier met de computer te willen werken. Anders kan het
spraakherkenningsprogramma wel eens vlug op een kast onder het
stof eindigen.
5. Conclusie
Tot slot kunnen we stellen dat een spraakherkenningspakket voor
een niet- of slechtziende eigenlijk niets meer biedt dan voor
een ziende. De doorsnee visueel gehandicapte is immers even vlot
in het werken met een toetsenbord als een ziende. Tot testwerk
het tegendeel bewijst, beschouwen we dit soort producten dan ook
niet als extra hulpmiddel.
Hulpmiddelenproducenten voor mensen met een motorische handicap
(die moeite hebben met het hanteren van muis en toetsenbord)
hebben wel al de nodige ervaring opgedaan en zijn tot de
conclusie gekomen dat deze technologie voor hun doelgroep wel
degelijk als hulpmiddel kan aangewend worden.
Voor de volgende jaargang plannen we testwerk naar de
bruikbaarheid van deze producten voor visueel gehandicapten en
kunnen we hopelijk ook voor onze doelgroep een positieve
uitspraak doen.
Met dank aan Rob van Geel en Marrit Prins van de firma Kompagne,
die ons demo's en nuttige achtergrondinformatie voor dit artikel
verschaften.
In Nederland worden spraakherkenningsproducten door
hulpmiddelenleverancier Kompagne (zie adres-senlijst)
aangeboden, terwijl je in Vlaanderen voor een dergelijk pakket
bij een gewone PC-winkel moet aankloppen.
Naar inhoudsopgave