Archiv für den Monat: Juni 2013

PageRank am Beispiel des FB WiWiss der FU Berlin

In einer meiner Übungen erkläre ich den Studierenden, was es mit diesem Internet auf sich hat. Ich vertiefe darin unter anderem das Themengebiet Web 2.0 / Enterprise 2.0. Nebenbei sensibilisiere ich dann auch gleich für informatisch relevante Fragestellungen. Eine der interessantesten Fragen ist sicherlich: Wie finde ich eigentlich relevante Informationen?

Das ist gar nicht so einfach zu beantworten und darüber zerbrechen sich in einer Welt, in der Daten und Informationen einem potenziellen Wachstum unterlegen, viele Menschen den Kopf. Zwei dieser Köpfe waren die beiden Gründer von Google, Sergei Brin und Larry Page. Man mag über Google heute denken, was man mag, aber die Anwendung des PageRank-Algorithmus hat das Web revolutioniert.

Um meine Studierenden dafür zu sensibilisieren und ihnen daneben auch noch ein paar schöne Netzwerkillustrationen zu zeigen, habe ich versucht einen Anwendungsfall zu finden, der sie direkt betrifft: Die Website unseres Fachbereiches. Wenn jede Website tendenziell interessante Informationen bereitstellt, ist es gar nicht so einfach zu bestimmen, welche Seite wahrscheinlich die interessanteste ist. Lernziele sind daher:
1. Zeige, wie wüst die Seitenlandschaft unseres Fachbereiches ist
2. Stelle dar, wie diese Seiten per Links zusammenhängen
3. Verdeutliche, wie das PageRank-System die „prominentesten“ Seiten findet

Das Ergebnis:

Netzwerkgrafik Websites der WiWiss FU Berlin
Ein Ausschnitt aus der Netzwerkgrafik des Fachbereiches Wirtschaftswissenschaft der Freien Universität Berlin
Eine Übersicht aus der Netzwerkgrafik der Website des Fachbereiches Wirtschaftswissenschaft der Freien Universität Berlin
Eine Übersicht aus der Netzwerkgrafik der Website des Fachbereiches Wirtschaftswissenschaft der Freien Universität Berlin

Die gesamte Netzwerkgrafik als PDF findet sich hier: 2013-06-30_wiwiss-website

Wie habe ich die Daten gewonnen und die Grafik erstellt?

Leider habe ich im Web keine fertige Datenbank gefunden, aus der ich direkt ein Netzwerk auslesen könnte. Ich musste es also selbst machen; am Beispiel unseres Fachbereiches.

  1. Zunächst habe ich die Website (www.wiwiss.fu-berlin.de) gecrawlt. Unter Windows ist das etwas komplizierter als unter Linux, da hier keine einfachen Konsolenbefehle verwendbar waren. Mit WinHTTrack gab es aber auch eine schöne Drag&Drop-Lösung, mit der ich die Website zunächst offline bereit stellen konnte. (Grundsätzlich könnte man die Website auch direkt online analysieren. Ich trenne aber lieber Datensammlung und -auswertung)
  2. Im nächsten Schritt habe ich die Website nach Links zu anderen Websiten der gleichen Domain durchsuchen lassen. Dafür habe ich ein Javascript geschrieben und serverseitig per NodeJS eingebunden. (Das Script stelle ich demnächst mal online) Dabei wurde jeweils der URI der aktuellen Seite als Source und der URI der verlinkten Seite als Target hinterlegt.
  3. Mit dieser Liste aus Source:Target ergibt sich eine rudimentäre Edge-List mit unglaublich vielen Nodes, da jede Website als einzelne URI für Source bzw. Target angelegt wurde. Um diese Anzahl etwas zu reduzieren habe ich die *.html-Seiten per regulären Ausdrücken entfernt und rutsche damit auf dem Sitetree für jede Seite auf die darüber liegende Ebene. (Dafür habe ich Google Refine eingesetzt)
  4. Um die Edge-List schließlich darzustellen, eignet sich das Netzwerkanalysetool Gephi hervorragend. Hier kann die Liste direkt eingeladen und bspw. per Force Atlas 2 Algorithmus dargestellt werden. Voilá! Und schon hat man eine Netzwerkgrafik einer tatsächlichen Website 😉

Was ist eigentlich Lehren und Lernen?! (wenn man Google fragen würde)

Ich möchte an der Stelle gerne das Experiment von Sandra Schön wiederholen. Sandra hat einfach verschiedene Begriffe rund um das Lehren und Lernen bei Google eingefügt. Die Auto-Vervollständigung von Google basiert ja auf den Suchanfragen aller Personen und wird entsprechend meiner History, meinen G+Beiträgen und all dem, was ich sonst so beim bunten Riesen mache, beeinflusst. Hier nun meine Ergebnisse um die Ergebnisse von Sandra zu objektivieren…

Abweichungen

Im direkten Vergleich kann ich die Ergebnisse von Sandra wohl weitestgehend wiederholen. Eine interessante Abweichung ist sicherlich, dass die Autovervollständigung bei „ist“ häufig auch „Istanbul“ schätzt. Das war bei ihr nicht der Fall. Darüber hinaus findet sich in etwa bei „Schüler sind“ eine abweichende Reihenfolge.

Kurzer semantischer Kommentar:

Scheinbar haben viele ex ante, also nach Abschluss von Schule/Studium, selten Grund nach dem Wort „Schule“ oder „Studium“ zu suchen. Das würde zumindest erklären, warum die ganze Verklärung von „Früher war doch alles so schön“ oder „Noch einmal studieren/in der Schule sein“ keinen großen Einfluss zu haben scheint. Ich würde daher vermuten, dass inbesondere aktuell Studierende bzw. derzeitige Schüler nach Begriffen suchen, die ihren Lebensbereich aktuell bestimmen. Wenn ich mich mit Schülern unterhalte (derzeit fast nie) oder mit Studierenden (derzeit fast ausschließlich) habe ich sehr häufig den Eindruck, dass die Kritikpunkte an der derzeitigen Lebenssituation und den bestimmenden Institutionen weit schwerer wiegen, als die Vorteile. Das ist insofern schade, als dass ich „gerne noch einmal (in Vollzeit) studieren würde“ 😉

lernen ist

 

lehren istlehrer sindschüler sindschule iststudium istberufsschule istausbildung istder lehrer istder schüler ist

 

Schöne Idee

Wenn sich jemand aus meinen Kontakten bewirbt, nenne er_sie bitte seinen_ihren Namen. Ich gebe gerne 550 EUR von den 1000 EUR ab. 😉

Reshared post from +t3n Magazin

Wir suchen Verstärkung – Es gibt 1.000 Euro Finderlohn!

Alles was Du tun musst, ist uns den Kontakt zu einem passenden Kandidaten für die Stelle des Redakteurs Webentwicklung (m/w) herzustellen. Wenn dein Kontakt der neue Redakteur (m/w) wird, bekommst Du 1.000 Euro als Belohnung. (aka)

Folgendes Profil sollte dein Kontakt erfüllen: http://t3n.de/news/1000-belohnung-t3n-sucht-2-470003/

Post imported by Google+Blog for WordPress.

awesome…I ask myself how long it would take for Google to make them an offer they…

awesome…I ask myself how long it would take for Google to make them an offer they cannot deny 😉

Reshared post from +Yuval Haimovits

For many people, the simple task of reading a street sign or a restaurant menu is impossible due to visual impairment. Israeli startup OrCam is using sophisticated artificial intelligence to give these people a solution.
http://nocamels.com/2013/06/orcam-will-help-the-visually-impaired-read-anywhere/

Post imported by Google+Blog for WordPress.

I am not sure about his "rule of law" argument, but as a whole I agree…

I am not sure about his "rule of law" argument, but as a whole I agree with +Matt Cohler

concerning my difficulties about the "rule of law": Yes, Matt is right about the general perception and agreement of Germans with the law. Which gives a lot of security for investors. But sadly startups are rarely a key target for German law makers. 

Reshared post from +Factory

"Most crucially of all, Berlin is a place where there’s still no creative ecosystem holding the center stage. Berlin is one of the world’s great cities, but other than the German government Berlin isn’t really the global epicenter of anything…yet. And that’s the key reason I believe it’s the place in the Western world with the best shot at becoming a great new global tech startup ecosystem." – +Matt Cohler writing on +TechCrunch 

Berlin’s Network Effect Will Make It A Global Startup Center | TechCrunch
Editor’s note: Matt Cohler is a General Partner at Benchmark and was the lead investor in Asana, Instagram and Quora among others.

Throw a dart at a map. There’s a pretty good chance it’ll hit near someplace hoping to become the „next Silicon Valley.“ I’d bet on Berli..

Post imported by Google+Blog for WordPress.

via +Liz Quilty 

via +Liz Quilty 

Reshared post from +Google Science Fair

Ever lose your keys or get locked out? (Don’t worry, we all have.) Fret no more! An electronic door lock and a pill can change all that. Swallow this vitamin authentication pill and turn yourself into an 18-bit authentication token.
Learn More: http://goo.gl/ntmnn

(Photo: http://www.theverge.com/)

Post imported by Google+Blog for WordPress.

This is a great line of argument and boils the Google+ relevancy discussion down…

This is a great line of argument and boils the Google+ relevancy discussion down.

Reshared post from +Mike Elgan

Why the Guardian’s ‘Matrix’ analogy fails.

Nothing much happens in the UK and the country has very little impact on the outside world. 

At least, that’s the false belief you could come to if you never went to the UK and never learned anything about how the world works. 

Likewise, if you never visited Google+ and didn’t learn how it really works, you could conclude that the network has “little visible engagement, pretty much no impact on the outside world,” as Guardian writer +Charles Arthur has done in a misleading column recently. 

http://www.guardian.co.uk/technology/blog/2013/jun/04/google-plus-the-matrix

There are two kinds of writers who comment on Google+’s “impact”: Those who use it and learn how massive its impact is and those who don’t use it and ignorantly conclude from their own non-use that nothing is going on. 

Arthur, who hasn’t posted anything on Google+ for two years, makes the classic Arthur Spooner error, which I described here. 

https://plus.google.com/113117251731252114390/posts/9LE3GM6sLBF

But that’s an old error hardly anyone is clueless enough to make anymore and it's not that interesting. 

The second problem I have with Arthur’s post is the whole ‘Matrix’ analogy, which doesn't work. 

His point is that Google+ isn’t a place you go, but rather like the Matrix is everywhere you go, it’s the synthetic world around us that exists not for our benefit but for the benefit of the machines, a.k.a. Google. 

He’s referring, of course, to the fact that Google uses Google+ and the Google+ Sign-In to harvest signals from users, and that’s the whole point of the ubiquitous Google social layer.

Arthur’s is a colorful analogy, but a false and misleading one. Not only is Google+ unlike the Matrix, it’s the opposite of the Matrix. 

The Matrix was created in order to pacify humans so their energy could be harvested to power the machine world. Every human was given a virtual reality life in exchange for being exploited by the machines. 

The artificial world of the Matrix was stuck in the past. The world of Google is doing the opposite — driving forward at a rapid clip. Instead of giving humans a fake version of the old world, Google makes its living by giving humans a better world, one that didn’t exist before. 

We can pay for and have this advancing technology, or we can not pay for it and not have it. 

If we pay for it, there are three basic models: 1) payment for service; 2) tax and spend; and 3) advertiser supported service. 

Advertiser-support for cloud services is morally superior to other means of monetization. The reason is that payment is voluntary and unevenly applied. 

The vast majority of Google users don’t pay for it in any way. They are simply the beneficiaries of empowering free services that are paid for by other people. 

A minority of wealthier users are paying for everything because we buy stuff and therefore advertisers pay Google to reach us. 

This represents a massive transfer of wealth from rich to poor, whereby a small number of people — by simply being served with ads that hawk things we want to buy — pay for services that are completely free to anyone in the world with an Internet connection. 

If Google charged, say, $20 per month to use all its services, the world’s poor would be left behind. No Google Search. No voice-based search for the blind or illiterate. No Google Books. No Google nothing. 

That’s the alternative to advertising. 

All those harvesting of signals simply drive better relevance in advertising — to show me ads for clothes and gadgets and services that I really want to know about, rather than advertising to me weight loss pills and tampons. 

All that harvesting of signals has no other purpose than to do a better job of helping me get what I want, both in better services and better advertising. And in the getting, I pay for Google to empower a billion people with free services. 

Does that sound like the Matrix to you? 

By slamming the concept of the signal-enhanced contextual advertising model, Arthur is implying that there’s a better way. So I would like to ask Arthur directly which is the better model: 

1. No improvements in cloud services because nobody pays for it. 

2. Government taxation and bureaucracy creating cloud services that would be as bleeding edge as the post office. 

3. Paid services, which would put the world's most powerful tools beyond the reach of the world's poor majority. 

4. Irrelevant advertising that shows people random products and services they don’t want. 

Arthur’s Matrix analogy is simply a bad one because it doesn't fit the facts. 

And besides, unlike the Matrix, Google+ is optional. 

You decide that ignorance is bliss, opt out and remain completely ignorant about it — like Arthur has done. 

http://www.guardian.co.uk/technology/blog/2013/jun/04/google-plus-the-matrix

#googleplus   #thematrix  

Post imported by Google+Blog for WordPress.

Tolle Idee

Multipliziert sich der Spaß/Nutzen durch die Verknüpfung von Ingress und Joggen? Sobald ich meine Grippe überstanden habe, finde ich es raus…

Reshared post from +Elfriede Nerdinger

Toller Artikel zu den sportlichen Ingress Aspekten von Ingress

Augmented Reality: Mit Ingress Kalorien verbrennen – shape-blog.de
Habt ihr schon von Ingress gehört, dem neuen Augmented Reality Game von Google? Seit kurzem habe ich für dieses Spiel eine Invite Code bekommen. Denn das…

Post imported by Google+Blog for WordPress.