Researcher seminar in EVISOFT project,
18-19 April 2007, Kongsvoll
Tidspunkt: 18. april 2007 kl 10:00 til 19. april 2007 kl 16:00.
Sted: Kongsvoll fjellstue, www.kongsvold.no.
Deltakere:
"Bente Anda" bentea@ifi.uio.n,
"Dag Sjøberg" dagsj@ifi.uio.no,
"Erik Arisholm" erika@ifi.uio.no,
"Geir Kjetil Hanssen" geir.k.hanssen@sintef.no,
"Hans Westerheim" hans.westerheim@sintef.no,
"Nils Brede Moe" nils.b.moe@sintef.no,
"Nina Elisabeth Holt" ninaeho@simula.no,
"Reidar Conradi" Reidar.Conradi@idi.ntnu.no,
"Tor Erlend Fægri" Tor.E.Fegri@sintef.no,
"Tore Dybå" tore.dyba@sintef.no,
"Torgeir Dingsøyr" torgeir.dingsoyr@sintef.no,
"Tor Stålhane" Tor.Stalhane@idi.ntnu.no,
"Tor Ulsund" tor.ulsund@geomatikk.no
Hei,
EVISOFT-prosjektet inviterer til 2-dagers forskersamling på Kongsvoll
fjellstue.
Her kommer revidert program. Ytterligere justeringer tar vi underveis.
Den enkelte må være OBS på sine oppgaver. Velkommen!
Agenda:
ONSDAG 18. APRIL
12:00 Lunsj
13:15 Velkommen ved Tor U.
13:20 Datafangst/måling:
Hva kan vi automatisk fange av data,
hvordan vi gjør det og hva vi kan bruke det til.
Mulige eksempler: Telenor (feildata) og Firm (Zorro).
u Erik og Tor Erlend innleder.
Erik fasiliterer diskusjonen:
- Bruk av "spion"-verktøy fra Philip Johnson fra Univ. på Hawaii.
Mye praktiske problemer emd installasjon osv.
- ++??
15:00 Kaffepause
15:20 Feltarbeid:
Hvordan bruker vi feltarbeid i forskningen vår?
Aktuelle diskusjonstemaer kan vÆre deltakelse i
arbeidsprosesser, observasjoner og refleksjon rundt rollen vår
i bedriftene. Mulige eksempler: ABB, Geomatikk og Spacetec.
Torgeir og Nils innleder.
Nils fasiliterer diskusjonen:
- Hva er feltarbeid ("field work")? - Empirisk studium der
datainnsamling krever tilstedeværelse der studieobjektene
befinner seg - gjennom datagruvedift o.l. og gjennom
felles systemutvikling og forskning - dvs. studere
et fenomen "in-vivo" og ikke "ïn-vitro".
Men hva med distribuert systemutvikling og virtuelle grupper?
- Merk at artikkelen til
Robert L. Glass, V. Ramesh, and Iris Vessey:
"An Analysis of Research in Computing Disciplines",
CACM 47(6):89-94, June 2004 kaller case-studier
for "field work".
Samme artikkel påviser også at det er
store systematiske forskjeller mellom volumet av og profilen til
rapporterte empiriske metoder innen hhv. Computer Science,
Software Engineering og Information Systems.
Computer Science artikler rapporterer generelt minst om
bruk av empirsike studier.
- Hva er aksjonsforskning? Forskeren (subjektet) og prosjektgruppen
og dens utviklere (studieobjektet) smelter delvis sammen - se boka
Morten Levin and Davydd J. Greenwood:
Introduction to Action Research --
Social Research for Social Change, Sage, 1998
og artikkelen
Robert M. Davison, Maris G. Martinsons, and Ned Kock:
"Principles of canonical action research",
Information Systems Journal, 14(1):65-86, 2004.
Forutsetter eller impliserer alltid(?) et SPI-perspektiv.
Problemer med objektivitet, mens vi oppnår høy realisme -
jfr. diskusjonen om "rigor vs. "relevance" i
boka Software Creativity av
Robert L. Glass med forord av Tom DeMarco,
utgiver: developer.*Books, utgave 2.0, paperback, 484 s.,
ISBN-13: 978-0-977-21331-3.
- ++??
sdi
17:00 Slutt for dagen, uformelle aktiviteter/samtaler
(regner med at det
fortsatt er muligheter for å gå på ski - fjellski anbefales)
20:00 Middag
TORSDAG 19. APRIL
08:00 Frokost
09:00 Analyse av kvalitative data:
Hvordan strukturer vi for eksempel en kvalitativt orientert artikkel
basert på Grounded Theory slik at vi får den akseptert (basert
på editorial statements i Academy of Management Journal, som har
10% akseptanserate) og hvordan gjør vi analysene i praksis?
Mulige eksempler på det siste:
pågående analysearbeid med bruk av NVivo7.
Se to lederartikler fra dette tidsskriftet:
R. P. Gepharts "Editor's Note" fra 2004 om kvalitative studier og
Roy Suddabys "Editor's Note" fra 2006 om Grounded Theory og
Tore og Dag forbereder innlegg.
Dag fasiliterer diskusjonen:
- Kvalitative metoder har like strenge kvalitetskrav til
utførelse som kvantitative metoder.
- Grounded Theory krever ikke bare dataanalyse (ofte
tekstanalyse), men også etterfølgende teoribygging.
- Reidar: prøv å benytt automatisk lingvistikk/ontologi-bygging
teknoologi; nå meget kostbare tekstanalyser?
- snakk med prof. Jon Atle Gulla på IDI.
- Informatikkforskere har ofte liten trening i kvalitative
metoder, se f.eks.
Carolyn B. Seaman: "Qualitative Methods in Empirical
Studies of Software Engineering",
IEEE Transactions on Software Engineering,
25(4):557-572, July/Aug. 1999.
- ++??
10:45 Kaffepause
11:00 Hvor mye sparte Telenor i kroner/timer ved å bruke en
feilprediksjonsmodell for fokusert enhetstesting i forbindelse
med "COS22"-releasen?.
Estimatene er basert på Monte Carlo
simuleringer som tar utgangspunkt i ekspertvurderinger rundt
feilene som ble funnet, kombinert med prosessdata.
Erik presenterer og ber om tilbakemeldinger.
- Systemet har 4000 klasser, og feil funnet ved enhetstest i
600 av disse, i alt ?? feil.
- Ved ekstra grundig enhetstest av 25 "kompleksitets-utvalgte"
klasser fant man 7 ekstra feil med to ukeverks innsats.
Grundig enhetstest betyr her å utføre alle veier i
alle klasse-metodene enten 0, 1, eller N ganger - såkalt
"full path coverage".
Reidar: Her trenger man en tilfeldig utvalgt
referansegruppe av ca. 25
andre klasser for å kunne si noe som helst om generalisert effekt?
- Telenor mangler presise estimater på feilkostader, og Erik
prøver via et spørreskjema å få utviklerne til
å anslå kostnader på tidligere oppdagete feil. Slike
feilkostnader ikke har vært systematisk registrert.
- Reidar: Kostnadsmodellen virker alt for detaljert og kompleks.
Beregn heller en gjennomsnittlig feilkostnad for en klasse og
for hver av de fire utviklingsfasene "før enhetstest",
"i enhetstest", "i systemtest" og "under 6-mnd-drift".
En slik feilkostnad er prisen for å lage og kjøre en test
for en gitt klasse,
samt å påvise, lokalisere og rette et sett av derved-oppdagete
feil i en gitt utviklingsfase. For den siste driftsfasen må
vi også inkludere "feilkonsekvens-kostnader".
Disse fire feilkostnadene vil være monotont
(men antakelig ikke eksponentielt) voksende for påfølgende faser.
Siden man kjenner fordelingen av oppdagete feil
over utviklingsfasene, kan
ulike slags gjennomsnittskostnader beregnes.
Men hva med feiltype og alvorlighetsgrad - registreres slikt, da det
antakelig har stor effekt på feilkostnadene?
En grov tilnærming kan være hhv. 1, 15, 80 og 200 timeverk for
de fire nevnte faseene (kilde: data fra Ericsson i Norge), og
med en frekvensfordeling som 0% (dvs. ingen inspeksjoner gjort),
80%, 18%, og 2%. Dvs. at man kan bruke inntil 64 timeverk
mer på hver enhetstest, hvis dette eliminerer en tilsvaende
systemtest. Hint: prøv ut!
- Reidar: Størst gevinst fås vel
ved å unnlate å enhetsteste klasser uten "enhetstest"-feil,
dvs. 85% av klassene!? Her hjelper heller ikke inspeksjon,
nevnt under.
Og ved grundig inspeksjon trenger man ofte ikke enhetstesting,
og dette koster ca. ett timeverk per feil oppdaget.
- ++??
12:00 Lunsj
13:00 Dataanalyse: analyseteknikker, datavaliditet, kausalitet vs.
korrelasjon.
Tor Stålhane innleder.
Reidar fasiliterer diskusjonen:
- Tor S.: Korrelasjon, selv med lav p-verdi (0,001-0,05), er
ikke det samme som kausalitet; korrelasjoner uttrykker kun
samvariasjon. Hvis f.eks. variablene X og Y korrelerer godt
f.eks. korrelasjon på > 0.8), kan enten X være
"årsak" til Y, eller omvendt, eller ingen sv delene.
I siste tilfelle kan det være en tredje variabel Z
som påvirker både X og Y, eller det være
ytterligere variable som virker inn.
Her må vi både søke etter
dypere forklaringer (kausale lovmessigheter) f.eks. via
kvalitative intervjuer, eller vi kan evt. lage et
formelt eksperiment for å "manipulere" mer eksplisitt med
variablene X, Y og Z. +??
- Reidar: Selv lave korrelasjonsverdier som
0,2-0,5 blir signifikante med meget store populasjoner som
N > 100 000(?).
Eksempel: For ektefeller i alle land som er undersøkt,
er det korrelasjon på 0,9
for sosial bakgrunn så som religiøs tro, politisk grunnsyn og
sosioøkonomisk status ("like barn leker best").
Det er videre korrelasjon på
0,4 for personlige karaktertrekk og intelligens,
og 0,2 for fysiske trekk som høyde, vekt, lengde på
øreflipper, avstand mellom øyne o.l.
(men 0,6 for lengde på langfinger!).
- Alt tatt fra s. 102 i boken til Jared Diamond:
"The Third Chimpanzee: The Evolution and Future of the
Human Animal", først utgitt på Harper Collins i 1992,
paperback på Harper Perennial i Jan. 2006, 432 sider,
ISBN-13: 978-0-0608-4550-6.
- Tor S.: For å drøfte signifikans, må vi ikke minst
bruke effektstørrelse (ES), ikke bare p-verdi.
ES (ofte kalt
Cohen's d). For to variable er den definert som
d = (Mean1 - Mean2) / SQRT(Sd1**2 + Sd2**2).
og bør helst være over 0.8.
Merk at Abs(d) kan bli over 1.0.
Se www.en.wikipedia.org/wiki/Effect_size for enkel omtale,
- Tor S.: For økt datakvalitet (dvs. intern validitet)
må vi ikke (utilsiktet) stille ledende?? spørsmål.
"Positive" spørsmål får gjerne høyere
skår enn "negative" spørsmål, ofte ved dobbel nektelse:
f.eks. "har du ikke vondt vs. har du det godt?".
- ++??
14:30 Oppsummering, avslutning.
- Lærerikt.
- Hvordan dokumentere diskusjonen - dette notatet!
- ++??
Mvh Tor, og Reidar som arkivar og referent i ettertid.
This file:
http://www.idi.ntnu.no/grupper/publ/ese/kongsvoll-seminar-18apr07.html
Reidar Conradi
Last modified: Tue Jun 5 15:41:06 MEST 2007