[1/10]Ma première page Wikipédia

« Par où commencer ?», me disais-je. Je ne pouvais pas décemment sortir prendre des photos sans avoir fait un peu le tour de ce qui était nécessaire. Il me fallait des statistiques. La liste Wikipédia contenait pour chaque commune l’ensemble des entrées du document de référence. Toutes ? Non, une résistait, c’était Bruxelles-Ville. Le centre, la Grand-Place, rien de cela ne s’y trouvait, c’était con.

Ni une ni deux, je créais la page (ça, c’était le côté simple). M’inspirant d’autres listes, je créais un tableau vide. Sous wiki, il y a deux façons de faire pour modifier une page: soit avec l’éditeur, soit directement dans le code. Un copier-coller étant plus rapide à faire, je modifiais le code directement. Bon, ce n’était pas comme s’il y avait grand-chose à mettre.

{| class="wikitable"
|-
! header 1
! header 2
! header 3
|-
| row 1, cell 1
| row 1, cell 2
| row 1, cell 3
|-
| row 2, cell 1
| row 2, cell 2
| row 2, cell 3
|}

Voilà, ma première page Wikipédia créée de toute mon existence. Elle était vide, elle était inutile mais la fierté m’envahissait. Plus qu’à la remplir maintenant.

C’est là qu’en retournant dans le document PDF de la ville de Bruxelles, je me rendis compte qu’il y avait plus de 500 entrées à mettre… Oufti, cela fait beaucoup.

Pas le choix, il faudra coder.

Oui mais…

Je n’en n’avais pas envie, mais la réalité s’imposait: recours nécessaire à l’informatique pour y extraire les informations du fichier et les mettre sur Wikipédia.

Où est le problème me diriez-vous ? Pour faire un script, il me fallait un fichier texte (triturer le PDF directement, cela aurait été beaucoup trop compliqué) ; donc après un gros CTRL-C dans le PDF et CTRL-V dans un fichier TXT, cela donnait le copier-coller du pdf suivant :

registre
Prinscreen du fichier pdf venant du site patrmoine.brussels

Dans un fichier texte:

registretotxt
Copier-coller dans un fichier texte du PDF. Totalement impossible à utiliser.

Bref, rien. Les pignoufs qui avaient généré le fichier PDF avaient fait cela comme des sagouins. Il m’était impossible de l’utiliser en l’état. Bien joué, patrimoine.brussel.

J’avais essayé un script Python là-dessus. Moralité: trois heures de perdues. Cela commençait mal, pas de données exploitables. Je me mis à la recherche d’un moyen sur internet qui pourrait me sauver. Site après site et plusieurs tests plus loin, je tombais sur un formulaire web qui réussissait péniblement à transformer le PDF sus-cité en TXT comme cela :

pdftotex
Transformation pénible du fichier PDF en un document texte plus ou moins potable.

J’avais enfin un fichier exploitable non pas par Wikipédia, mais par un script Python qui devrait transformer ces lignes hideuses en wikitables (c.-à-d ceci) :

{| class="wikitable sortable"

|-
| 1
| 2 Hêtres pourpres (Fagus sylvatica f. purpurea)
| {{Date|17|4|1997}}
| align="center" | 
|

Cela devait être faisable pour moi.

Mes petits doigts s’agitèrent sur le clavier, tapant des def, des =, des class, des [2:]. Avec un script Python des plus dégueulasses que je connaissais, j’y étais arrivé, mais je sentais bien la pente douloureuse que j’empruntais, celle qui pourrait être résumée par le xkcd suivant :

automation
La réalité informatique selon xkcd.

La gloire du visuel

Enfin, il n’y avait pas mieux que la visualisation pour vérifier que tout allait bien. Un petit copier-coller de ce que j’avais produit avec le script Python dans Wikipédia. Bouton Prévisualiser, quelques retouches à la main, et hop : Enregistrer.

bruxelles-Villes.png
Mon premier import Wikipédia.

Putain, j’avais créé ma première page Wikipédia. Pouvoir de création, quand tu nous tiens !

En conclusion

Ils n’ont pas accès à l’open data chez patrimoine.brussel ?? C’est dommage, il y a pourtant un site dédié à l’open data bruxellois, il n’y a pas pire que l’information inexploitable.

Par contre, mon dieu, que c’était jouissif ! 5 heure de travail et de coding mais voir son  grand tableau (plus de 500 entrées quand même) être généré à partir du code wiki markup, j’allais dormir avec la satisfaction d’avoir fait quelque chose d’utile. OK tout n’était pas complet (il manque les GPS et les photos entre autres), mais cela viendra, j’en étais sûr.

Concernant Wikipédia, je n’aurais jamais cru pouvoir créer une page aussi facilement et y mettre les données dedans sans approbation, validation, etc. Je m’attendais vraiment à des messages d’erreur du type NSA-validation, Google-validation, etc., mais non à l’heure où j’écrivais ces lignes, personne ne m’a encore fait chier. Non, la seule chose que j’ai eue est un flag sur la page comme quoi il y avait des problèmes typographiques… Ce qui était vrai.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s