PHP: Codificación
En el nivel más profundo, una computadora opera exclusivamente con los dígitos 0
y 1
. Esto se conoce como código binario, y los unos y ceros se llaman bits, abreviatura de "binary digit" (dígito binario).
Los números que estamos acostumbrados a utilizar en el sistema decimal se codifican utilizando números binarios:
- 0 ← 0
- 1 ← 1
- 2 ← 10
- 3 ← 11
- 4 ← 100
- 5 ← 101
Pero, ¿qué pasa con el texto? En realidad, la computadora no sabe nada acerca de letras, signos de puntuación y otros caracteres de texto. Todos estos caracteres también se codifican con números.
Podemos tomar el alfabeto inglés y asignar un número a cada letra, comenzando desde uno en orden:
- a ← 1
- b ← 2
- c ← 3
- d ← 4
- ...
- z ← 26
Esto es lo que se conoce como codificación.
Luego, podemos enseñarle a la computadora a entender esta tabla y convertir texto en números y viceversa:
hello
→8
5
12
12
15
7
15
15
4
→good
Estas tablas, en las que se relacionan letras y números, se llaman codificaciones. Además de las letras del alfabeto, las codificaciones también incluyen signos de puntuación y otros caracteres útiles. Seguramente has encontrado codificaciones como ASCII o UTF-8.
Las diferentes codificaciones contienen diferentes conjuntos de caracteres. Inicialmente, tablas pequeñas como ASCII eran suficientes para la mayoría de las tareas. Sin embargo, solo incluye letras latinas, algunos caracteres simples como %
y ?
, y caracteres de control especiales como el salto de línea.
Con la expansión de las computadoras, diferentes países necesitaron tablas más amplias. Esto incluye letras cirílicas, caracteres de idiomas orientales, escritura árabe, caracteres matemáticos y tipográficos adicionales, e incluso emojis.
Hoy en día, en la mayoría de los casos se utiliza una de las variantes de Unicode - utf-8. Incluye caracteres de casi todos los idiomas escritos del mundo. Gracias a esto, un correo electrónico escrito en chino en China se puede abrir y ver sin problemas en una computadora en Finlandia (si la entenderá o no, es otra pregunta).
Los programadores se encuentran regularmente con la codificación de texto y las codificaciones en su vida. El soporte de Unicode en diferentes lenguajes de programación se implementa a diferentes niveles. Además, las codificaciones deben especificarse explícitamente al trabajar con bases de datos y archivos.
Tarea
En PHP, puedes "solicitar" y mostrar en pantalla cualquier carácter de la codificación ASCII. Por ejemplo:
<?php
print_r(chr(63));
Esto mostrará en pantalla el carácter con el número 63, que es el signo de interrogación ?
. De esta manera, puedes mostrar cualquier carácter.
Utiliza la tabla de códigos ASCII. En esta tabla, nos interesa el código decimal (dec o decimal) con el que se codifican los caracteres.
Utilizando el ejemplo anterior y la tabla encontrada, muestra en pantalla ~^%
.
(Por supuesto, puedes "engañar" las pruebas y simplemente hacer print_r('~^%')
, pero eso no sería interesante :)
¿El ejercicio no pasa la prueba, qué debo hacer? 😶
Si te quedaste atascado, es el momento perfecto para hacer una pregunta en las "Discusiones".
* Asegúrate de incluir la salida de las pruebas. Sin ella, es casi imposible entender qué está mal, incluso si muestras tu código. Los programadores tienen dificultades para ejecutar el código en su mente, pero casi siempre es posible entender a dónde mirar a partir del error que recibiste.
Mi código funciona en mi entorno, pero no aquí 🤨
Las pruebas están diseñadas de manera que verifican la solución de diferentes maneras y con diferentes datos. A menudo, una solución funciona con ciertos datos de entrada pero no con otros. Para entender este punto, revisa la pestaña "Pruebas" y presta atención a los mensajes de error, que suelen contener pistas.
Mi código es diferente a la solución del profesor 🤔
Esto es normal 🙆. En programación, una tarea puede tener muchas soluciones diferentes. Si tu código pasa la prueba, cumple con los requisitos de la tarea.
En raras ocasiones, la solución puede estar ajustada para pasar las pruebas, pero esto suele ser evidente.
Leí la lección, pero no entendí nada 🙄
Crear materiales de aprendizaje comprensibles para todos es bastante difícil. Hacemos nuestro mejor esfuerzo, pero siempre hay margen para mejorar. Si encuentras material que no entiendes, describe el problema en las "Discusiones". Es ideal si puedes formular los aspectos que no entiendes en forma de preguntas. Por lo general, necesitamos unos días para hacer mejoras.
Por cierto, tú también puedes contribuir a mejorar los cursos: en la parte inferior hay un enlace al código fuente de las lecciones, que se puede modificar directamente en el navegador.
Definiciones
Codificación — conjunto de caracteres codificados con números para representar texto en formato electrónico.